中國投資界 > 焦點(diǎn)新聞 > 正文

傳感器和感知算法-下｜蓋世大學(xué)堂艙駕、行泊一體系列知識講解

時(shí)間：2025-02-22 10:31:25 來源：蓋世汽車閱讀量：9264

自動(dòng)駕駛技術(shù)的核心之一是感知模塊，它依賴于多種傳感器如毫米波雷達(dá)和攝像頭來識別和分類周圍環(huán)境中的物體，包括行人、車輛和障礙物。這些傳感器收集的數(shù)據(jù)被傳遞給神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，借鑒生物神經(jīng)系統(tǒng)的結(jié)構(gòu)，通過多層處理和學(xué)習(xí)，實(shí)現(xiàn)對環(huán)境的精準(zhǔn)理解。特別地，BEV視角在多傳感器融合中發(fā)揮關(guān)鍵作用，幫助神經(jīng)網(wǎng)絡(luò)處理多個(gè)視角的圖像，提升目標(biāo)檢測和環(huán)境理解的準(zhǔn)確性。端到端的解決方案正被探索，旨在簡化自動(dòng)駕駛系統(tǒng)中的感知、預(yù)測、規(guī)劃和控制步驟，以提高系統(tǒng)效率和響應(yīng)速度。

一、深度學(xué)習(xí)基礎(chǔ)原理神經(jīng)網(wǎng)絡(luò)的生物學(xué)啟發(fā)與數(shù)學(xué)原理

從數(shù)學(xué)角度看，人工神經(jīng)網(wǎng)絡(luò)的核心運(yùn)算為權(quán)重與輸入數(shù)據(jù)的乘積再加上偏差。以圖像識別為例，輸入圖像的像素值與權(quán)重相乘并加上偏差，不斷調(diào)整權(quán)重和偏差以優(yōu)化輸出結(jié)果。若輸出結(jié)果與標(biāo)注不一致，便通過反向反饋機(jī)制修正權(quán)重和偏差，直至得到滿意結(jié)果。這一過程需要進(jìn)行大量的乘法和加法運(yùn)算，因此，專門為處理此類運(yùn)算設(shè)計(jì)的NPU或GPU在深度學(xué)習(xí)中發(fā)揮著重要作用。

卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)算過程

卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中常用的模型，由卷積和神經(jīng)網(wǎng)絡(luò)兩部分組成。卷積操作通過一個(gè)特定的視框在圖像上滑動(dòng)掃描，為每個(gè)像素區(qū)域分配權(quán)重，從而生成新的特征圖。與傳統(tǒng)全連接方式相比，卷積減少了計(jì)算量，且在權(quán)重之上增加了權(quán)重，增強(qiáng)了模型對圖像特征的提取能力。

卷積后的特征圖在一定程度上失去了原圖像的物理含義，但更便于模型進(jìn)行后續(xù)的運(yùn)算和特征提取。在卷積過程中，還可以根據(jù)圖像大小和需求進(jìn)行分層卷積，進(jìn)一步優(yōu)化運(yùn)算效率。隨著卷積層數(shù)的增加，數(shù)據(jù)量會(huì)不斷增大，此時(shí)池化操作應(yīng)運(yùn)而生。池化通過將多個(gè)像素合并為一個(gè)進(jìn)行處理，減少數(shù)據(jù)量，降低計(jì)算復(fù)雜度，提高運(yùn)算效率。在實(shí)際應(yīng)用中，卷積和池化的層數(shù)設(shè)置通?；诮?jīng)驗(yàn)和對模型性能的考量。

二、視覺感知算法與目標(biāo)檢測視覺感知算法的構(gòu)成與流程

視覺感知算法主要由圖像的預(yù)處理、神經(jīng)網(wǎng)絡(luò)模型和后處理三部分組成。預(yù)處理階段對輸入圖像進(jìn)行整合和前處理，為后續(xù)模型輸入做準(zhǔn)備；神經(jīng)網(wǎng)絡(luò)模型涉及深度學(xué)習(xí)算法，包含目標(biāo)檢測、語義分割、圖像分類等多種功能；后處理則利用傳統(tǒng)算法優(yōu)化網(wǎng)絡(luò)模型的輸出效果。

在實(shí)際應(yīng)用場景中，如自動(dòng)駕駛的目標(biāo)檢測，由于現(xiàn)實(shí)中圖像包含多個(gè)目標(biāo)，簡單的圖像分類無法滿足需求，需要進(jìn)行語義分割。語義分割在預(yù)處理階段先利用圖像的閾值信息將目標(biāo)框選出來，再針對每個(gè)框內(nèi)的目標(biāo)分別進(jìn)行神經(jīng)網(wǎng)絡(luò)運(yùn)算，以實(shí)現(xiàn)對多個(gè)目標(biāo)的精準(zhǔn)識別。像車道線檢測、紅綠燈檢測和攝像頭障礙物檢測等任務(wù)，都需要先進(jìn)行分割操作，然后再進(jìn)行后續(xù)的檢測和識別。

障礙物檢測的多頭網(wǎng)絡(luò)與多模型應(yīng)用

障礙物檢測通常需要獲取目標(biāo)物的多種信息，如動(dòng)態(tài)或靜態(tài)狀態(tài)、速度、長寬高以及3D形狀等。這并非僅通過一次神經(jīng)網(wǎng)絡(luò)運(yùn)算就能完成，往往需要運(yùn)行多個(gè)模型協(xié)同工作。例如，?Fast R-CNN模型，首先進(jìn)行語義分割，然后進(jìn)行分類，再分別對2D和3D信息進(jìn)行檢測。

多頭網(wǎng)絡(luò)的出現(xiàn)就是為了解決這一問題，它通過不同的檢測模塊，對同一輸入進(jìn)行不同維度的檢測，如一個(gè)模塊輸出分類結(jié)果，一個(gè)模塊輸出2D邊框信息，另一個(gè)模塊輸出3D形狀等，從而全面獲取目標(biāo)物的各類信息。車道線檢測目前多采用神經(jīng)網(wǎng)絡(luò)方法，相較于傳統(tǒng)的灰度識別，神經(jīng)網(wǎng)絡(luò)檢測準(zhǔn)確率更高，能有效減少偏差。

三、BEV空間感知模型BEV模型產(chǎn)生的背景與原理

在自動(dòng)駕駛中，傳統(tǒng)基于透視視角的圖像信息難以直接與其他傳感器融合，且存在諸多局限，如地平面假設(shè)難以滿足。為解決這些問題，BEV空間感知模型應(yīng)運(yùn)而生。

BEV模型通過神經(jīng)網(wǎng)絡(luò)，先將攝像頭數(shù)據(jù)輸入骨干網(wǎng)絡(luò)提取特征，然后進(jìn)行跨攝像頭融合，最后轉(zhuǎn)換到BEV空間。這種方法避免了傳統(tǒng)方法中各攝像頭數(shù)據(jù)單獨(dú)處理后再融合帶來的問題，如目標(biāo)ID識別困難、位移偏差處理復(fù)雜等。BEV模型將多個(gè)攝像頭的數(shù)據(jù)統(tǒng)一處理，通過調(diào)整權(quán)重和偏差，實(shí)現(xiàn)了更高效的融合，使得跨攝像頭融合和時(shí)序多幀融合變得更加容易。

BEV模型的優(yōu)勢、挑戰(zhàn)與應(yīng)用

BEV模型具有多方面優(yōu)勢，在空間融合方面表現(xiàn)出色，便于進(jìn)行3D目標(biāo)識別、跟蹤和預(yù)測，能更有效地與其他傳感器信息融合，為端到端優(yōu)化提供便利。然而，其應(yīng)用也面臨一些挑戰(zhàn)，對算力要求較高，至少需要50Tops算力；對傳感器聯(lián)合標(biāo)定和時(shí)間同步的要求也很嚴(yán)格；并且需要大量的數(shù)據(jù)支持。

特斯拉采用了BEV網(wǎng)絡(luò)，小鵬、地平線等企業(yè)也在積極研發(fā)，部分量產(chǎn)車型已體現(xiàn)出該技術(shù)的應(yīng)用成果。BEV模型可實(shí)現(xiàn)多任務(wù)功能，如3D物體檢測、語義地圖構(gòu)建和運(yùn)動(dòng)預(yù)測等，能根據(jù)不同時(shí)間的信息進(jìn)行補(bǔ)償和預(yù)測，為自動(dòng)駕駛提供更全面、精準(zhǔn)的環(huán)境感知。

四、占用網(wǎng)絡(luò)與端到端方案占用網(wǎng)絡(luò)的原理與特點(diǎn)

O占用網(wǎng)絡(luò)是特斯拉為解決視覺長尾問題提出的模型。該模型將周邊空間劃分為小立方體，通過預(yù)測3D空間的占用概率(0/1)來還原目標(biāo)物的形狀和位置，并利用神經(jīng)輻射場(NeRF)的可微分渲染圖像進(jìn)行監(jiān)督訓(xùn)練。

占用網(wǎng)絡(luò)的優(yōu)勢在于，它能夠預(yù)測空間占用情況，有效解決非標(biāo)物體的識別問題，還可利用多攝像頭和視頻時(shí)序信息，對動(dòng)態(tài)車流進(jìn)行測量，透過遮擋持續(xù)檢測已存在的對象，且內(nèi)存和計(jì)算效率較高，能在約10ms內(nèi)運(yùn)行。但它也存在數(shù)據(jù)量要求高、云端算力要求高的缺點(diǎn)。目前，特斯拉已開始應(yīng)用該模型，其他企業(yè)仍處于起步階段，預(yù)計(jì)2025年前后會(huì)有更多車型應(yīng)用。

端到端方案的概念與發(fā)展趨勢

傳統(tǒng)自動(dòng)駕駛方案按感知、預(yù)測、規(guī)劃、控制的順序依次執(zhí)行，結(jié)構(gòu)簡單、可解釋性強(qiáng)，但存在規(guī)則復(fù)雜、場景泛化性不足的問題。端到端方案則融合了這些模塊，形成一個(gè)統(tǒng)一架構(gòu)，通過傳感器輸入，直接完成從原始數(shù)據(jù)到軌跡或控制信號的映射，更符合人類駕駛原理，具有更高的上限。

以UniAD基于nuScenes訓(xùn)練集的表現(xiàn)為例，其在各方面均優(yōu)于傳統(tǒng)技術(shù)。特斯拉FSD v12據(jù)稱已實(shí)現(xiàn)端到端方案，國內(nèi)的華為、小鵬等企業(yè)也在積極探索該領(lǐng)域。端到端方案與BEV、transformer的結(jié)合是當(dāng)前的研究熱點(diǎn)，這種結(jié)合能夠充分發(fā)揮各技術(shù)的優(yōu)勢，實(shí)現(xiàn)從圖像輸入到?jīng)Q策輸出的直接生成，減少中間模塊的接口交互，提高系統(tǒng)的整體性能和效率。

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問，請與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

相關(guān)新聞

精彩推薦

每周熱點(diǎn)

版塊熱門

精彩圖片

国产人成视频在线视频,亚洲av网一区二区三区 ,91久久久精品国产一区二区三区 ,人妻～夫の上司犯感との,欧美,日韩,亚洲一区二区

傳感器和感知算法-下｜蓋世大學(xué)堂艙駕、行泊一體系列知識講解