作者 | Jessie
出品 | 焉知
本文接續前文,首先進一步廣泛調查自動駕駛端到端開發方法面臨的關鍵挑戰。同時,我們總結了主要方面并提供了深入的分析,包括普遍性、語言引導學習、因果混亂等主題。
涵蓋了如何采用大型基礎模型和數據引擎的更廣泛影響。我們相信,這一研究領域及其提供的大規模高質量數據可以顯著推進該領域的發展。
5、可解釋性
可解釋性有助于人類理解端到端模型的決策過程、感知故障和輸出的可靠性,因此,可解釋性在自動駕駛中起著至關重要的作用。它使工程師和研究人員能夠更好地測試、調試和改進系統,從社會角度提供性能保證,增加用戶信任,促進公眾接受。然而,實現端到端自動駕駛模型(通常被稱為黑匣子)的可解釋性具有挑戰性。
給定訓練有素的自動駕駛模型,一些事后 X-AI(可解釋的人工智能)技術可以應用于學習模型以獲得顯著圖。顯著圖突出顯示模型主要依賴于視覺輸入進行規劃的特定區域。然而,這種方法提供的信息有限,其有效性和有效性難以評估。相反,我們專注于直接增強模型設計可解釋性的自動駕駛框架。我們將在下面的圖6中介紹每個類別的可解釋性。
圖 6:不同形式的可解釋性總結。
5.1 注意力可視化:
注意力機制通常提供一定程度的可解釋性。可以應用學習的注意力權重來聚合中間特征圖中的重要特征。學習注意力權重以自適應地組合來自不同對象區域或固定網格的 ROI 池化特征。NEAT迭代聚合特征來預測注意力權重并細化聚合特征。最近,Transformer注意力機制在許多自動駕駛模型中得到了普遍應用。采用Transformer注意力塊來更好地聚合來自傳感器輸入的信息,注意力圖顯示輸入中用于駕駛決策的重要區域。在 PlanT 中,注意力層處理來自不同車輛的特征,為相應的動作提供可解釋的見解。與事后顯著性方法類似,雖然學習到的注意力圖可以提供一些關于模型焦點的直接線索,但它們的忠實度和實用性仍然有限。
5.2 可解釋的任務:
在深度駕駛模型中,輸入最初被編碼為中間表示以供后續預測。因此,許多基于IL的工作通過將潛在特征表示解碼為其他有意義的信息來引入可解釋性,例如語義分割,對象檢測,可供性預測,運動預測和注視圖估計。盡管這些方法提供了可解釋的信息,但大多數僅將這些預測視為輔助任務,對最終的駕駛決策沒有明確的影響。一些通過將這些輸出用于最終駕駛動作,但它們僅用于執行額外的安全檢查。
5.3 成本學習:
基于成本學習的方法與傳統的模塊化自動駕駛系統有一些相似之處,因此表現出一定程度的可解釋性。NMP和 DSDNet 結合檢測和運動預測結果構建成本量。P3 將預測的語義占用圖與舒適度和交通規則約束相結合來構建成本函數。采用各種表示形式對采樣軌跡進行評分,例如概率占用和時間運動場、緊急占用和自由空間。安全性、舒適性、交通規則以及基于感知和預測輸出的路線等因素都被明確包含在內來構建成本量。
5.4 語言可解釋性:
可解釋性的一個方面是幫助人類理解系統,因此自然語言是實現此目的的合適選擇。生成 BDD-X 數據集,將駕駛視頻與描述和解釋配對。他們還提出了一種帶有車輛控制器和解釋生成器的自動駕駛模型,并強制兩個模塊的空間注意力權重保持一致。BEEF提出了一個解釋模塊,融合預測軌跡和中間感知特征來預測決策的理由。也有引入了一個名為 BBD-OIA 的數據集,其中包括駕駛決策的注釋和高密度交通場景的解釋。最近,ADAPT 提出了一種基于 Transformer 的網絡,根據 BBD-X 數據集中的駕駛視頻來聯合估計動作、敘述和推理。鑒于多模態和基礎模型的最新進展,我們相信,進一步將語言與自動駕駛模型相結合有望實現卓越的可解釋性和性能。
5.5 不確定性建模:
不確定性是解釋模型輸出可靠性的定量方法。由于規劃結果并不總是準確或最佳,因此設計者和用戶必須識別不確定的情況以進行改進或必要的干預。對于深度學習來說,有兩種類型的不確定性:任意不確定性和認知不確定性。任意不確定性是任務固有的,而認知不確定性是由于有限的數據或建模能力造成的。對端到端自動駕駛系統的不確定性進行了定量評估,可以有效利用模型中的某些隨機正則化來執行多個前向傳遞作為樣本來測量不確定性。然而,多次前向傳遞的要求在實時場景中是不可行的。RIP建議通過專家似然模型集合來捕獲認知不確定性,并匯總結果以執行安全規劃。關于建模任意不確定性的方法中明確預測了駕駛行為/規劃和不確定性(通常用方差表示)。根據預測的不確定性,從多個輸出中選擇不確定性最低的輸出,生成建議行動的加權組合。VTGNet不直接使用不確定性進行規劃,但證明對數據不確定性進行建模可以提高總體性能。目前,預測的不確定性主要與硬編碼規則結合使用。有必要探索更好的方法來建模和利用自動駕駛的不確定性。
5.6 因果混亂
駕駛是一項表現出時間平滑性的任務,這使得過去的動作可以可靠地預測下一個動作。然而,使用多個幀訓練的方法可能會過度依賴此快捷方式,并在部署過程中遭受災難性失敗。這個問題在一些作品中被稱為模仿問題,是因果混亂的表現,即訪問更多信息會導致性能更差。LeCun 等人最早報道了這種效應,他們使用單個輸入幀進行轉向預測,以避免這種推斷。盡管很簡單,但這仍然是當前最先進的模仿學習方法中的首選解決方案。不幸的是,使用單幀的缺點是無法提取周圍運動體的速度。因果混亂的另一個來源是速度測量,如下圖 7 顯示了汽車等紅燈的示例。
圖 7:模仿學習中的因果混亂
汽車的速度與制動動作高度相關,因為汽車正在等待許多速度為零且動作為制動的幀。僅在交通信號燈從紅色變為綠色的單幀處,這種相關性才會被打破。實際上,汽車當前的動作與低維虛假特征(例如速度或汽車過去的軌跡)密切相關。端到端模型可能會抓住它們,導致因果混亂。
使用多個框架時,有多種方法可以解決因果混淆問題。ChauffeurNet通過在 BEV 中使用中間視覺抽象來解決這個問題。一種抽象是自我代理的過去,而其他抽象不包含此信息。在訓練期間,自我代理過去的動作以 50% 的概率被丟棄。然而,為了使這種方法有效地工作,需要顯式的抽象。有研究者試圖通過訓練預測自我代理過去行為的對抗模型,從學習到的中間瓶頸表示中消除虛假的時間相關性。這導致了最小-最大優化問題,其中模仿損失最小化,而對抗性損失最大化。直觀地說,這訓練網絡從中間層消除自己的過去。這種方法在 MuJoCo 中效果很好,但無法擴展到復雜的基于視覺的駕駛。第一個致力于驅動復雜性的是建議增加訓練損失中關鍵幀的權重。關鍵幀是發生決策更改的幀(因此無法通過推斷過去來預測)。為了找到關鍵幀,他們訓練了一種策略,僅以自我代理的過去作為輸入來預測動作。PrimeNet通過使用集成來提高與關鍵幀相比的性能,其中單幀模型的預測作為多幀模型的附加輸入給出。后又有用動作殘差而不是動作來監督多幀網絡。OREO將圖像映射到表示語義對象的離散代碼,并將隨機丟棄掩碼應用于共享相同離散代碼的單元。這在 Confounded Atari 中很有幫助,因為之前的操作會呈現在屏幕上。在自動駕駛中,可以通過僅使用激光雷達歷史(具有單幀圖像)并將點云重新對齊到同一坐標系來避免因果混亂的問題。這會刪除有關自車運動的信息,同時保留有關其他車輛過去狀態的信息。
近二十年來,模仿學習中的因果混亂一直是一個持續的挑戰。近年來,人們投入了大量精力來研究這個問題。然而,這些研究使用了經過修改的環境,以簡化因果混淆問題的研究。在最先進的設置中顯示性能改進仍然是一個懸而未決的問題。
6、魯棒性評測
6.1 長尾分布
長尾分布問題的一個重要方面是數據集不平衡,其中少數類別占大多數,而許多其他類別只有有限數量的樣本,如下圖8(a)所示。
圖 8:穩健性方面的挑戰
與數據集分布差異相關的三個主要泛化問題,即長尾和正常情況、專家演示和測試場景以及位置、天氣等領域的轉移。這對模型泛化到各種環境提出了巨大的挑戰。有多種方法通過數據處理來解決這個問題,包括過采樣,欠采樣和數據增強。此外,基于加權的方法也常用于緩解數據集不平衡問題。研究通過對抗性攻擊以數據驅動的方式生成安全關鍵場景。有用貝葉斯優化被用來生成對抗場景。學習碰撞將駕駛場景表示為構建塊上的聯合分布,并應用策略梯度 RL 方法來生成風險場景。AdvSim修改代理的軌跡,同時仍然堅持物理合理性,以導致失敗并相應地更新 LiDAR。最近的工作提出了一種通過可微運動學模型使用梯度來解決安全關鍵擾動的優化算法。
一般來說,有效生成涵蓋長尾分布的現實安全關鍵場景仍然是一個重大挑戰。雖然許多工作關注模擬器中的對抗場景,但更好地利用現實世界數據進行關鍵場景挖掘和對模擬的潛在適應也至關重要。此外,系統、嚴格、全面、現實的測試框架對于評估這些長尾分布式安全關鍵場景下的端到端自動駕駛方法至關重要。
6.2 協變量平移
行為克隆的一個重要挑戰是協變量轉變。專家策略的狀態分布和經過訓練的代理策略的狀態分布不同,當經過訓練的代理部署在看不見的測試環境中或當其他代理的反應與訓練時間不同時,會導致復合錯誤。這可能會導致受過訓練的代理處于專家訓練分布之外的狀態,從而導致嚴重的失敗。
圖 8 (b) 給出了一個示例。DAgger(數據集聚合)是克服這個問題的常用方法。DAgger 是一個迭代訓練過程,在每次迭代中推出當前訓練的策略來收集新數據,并使用專家來標記訪問過的狀態。通過添加如何從不完美的策略可能訪問的次優狀態中恢復的示例,豐富了訓練數據集。然后在增強數據集上訓練該策略,并重復該過程。然而,DAgger 的一個缺點是需要一位可用的專家在線查詢。
對于端到端自動駕駛,通過結合 DAgger 和基于 MPC 的專家。為了減少不斷查詢專家的成本并提高安全性,SafeDAgger 通過學習估計當前策略與專家策略之間偏差的安全策略來擴展原始 DAgger 算法。只有當偏差較大時才會詢問專家,在那些危險的情況下專家就會接手。MetaDAgger將元學習與 DAgger 結合起來,聚合來自多個環境的數據。LBC采用DAgger對數據進行重采樣,使得損失較高的樣本被更頻繁地采樣。在 DARB中,對 DAgger 進行了一些修改以適應駕駛任務。為了更好地利用故障或安全相關樣本,它提出了多種機制,包括基于任務、基于策略以及基于策略和專家的機制,來對此類關鍵狀態進行采樣。它還使用固定大小的重播緩沖區進行迭代訓練,以增加多樣性并減少數據集偏差。
6.3 域適配
在端到端自動駕駛的背景下,長尾分布問題尤為嚴重。數據集不平衡在駕駛數據集中尤其成問題,因為大多數典型的駕駛都是重復且無趣的,例如,在許多幀中沿著車道行駛。相反,有趣的安全關鍵場景很少發生,但本質上是多種多樣的。為了解決這個問題,一些工作依賴于手工制作的場景來在模擬中生成更加多樣化和有趣的數據。LBC 利用特權代理來創建以不同導航命令為條件的假想監督。LAV 認為,雖然用于數據收集的自車很少有容易發生事故的情況,但其他智能體可能經歷過一些安全關鍵或有趣的情況。因此,它包括其他智能體的軌跡進行訓練,以促進數據多樣性。
領域適配(DA)是一種遷移學習,其中目標任務與源任務相同,但領域不同。在這里,我們討論源域有可用標簽而目標域沒有標簽或可用標簽數量有限的場景。域隨機化也是一種簡單有效的技術,用于在模擬器中進行 RL 策略學習的模擬到真實的適應,并進一步適用于端到端自動駕駛。它是通過隨機化模擬器的渲染和物理設置來實現的,以覆蓋訓練過程中現實世界的可變性,并獲得具有良好泛化能力的訓練策略。
如圖8(c)所示,自動駕駛任務的領域適應包含幾種情況。這里需要注意的是,上述情況經常重疊。
① 模擬到真實:用于訓練的模擬器與用于部署的現實世界之間存在巨大差距。
② 地理位置到地理位置:不同的地理位置具有不同的環境外觀。
③ 天氣變化:由雨、霧和雪等天氣條件引起的傳感器輸入變化。
④ 晝夜:傳感器輸入的照度變化。
⑤ 傳感器與傳感器之間:傳感器特性可能存在差異,例如分辨率和相對位置。
VISRI等人使用翻譯網絡將模擬圖像映射到真實圖像,并使用分割圖作為中間表示。強化學習代理根據翻譯后的模擬圖像進行訓練。通過圖像翻譯器和鑒別器實現域不變特征學習,將兩個域的圖像映射到公共潛在空間。類似地,LUSR 采用循環一致 VAE 將圖像投影到由特定領域部分和通用領域部分組成的潛在表示中,并在此基礎上學習策略。UAIL 通過將不同天氣條件下的圖像分解為可區分的風格空間和與 GAN 共享的內容空間來實現天氣到天氣的適應。在SESR 中,從語義分割掩模中提取類解纏結編碼,以減少模擬器中的圖像與現實世界之間的域差距。
目前,通過源目標圖像映射或域不變特征學習進行模擬到真實的適應是端到端自動駕駛的焦點。其他領域適應案例,例如地理到地理或天氣到天氣的適應,是通過訓練數據集的多樣性和規模來處理的。由于激光雷達已成為一種流行的駕駛輸入方式,鑒于當前的工作主要集中在基于圖像的自適應上,因此還必須設計適合激光雷達特性的特定自適應技術。此外,應注意交通人員的行為和模擬器與現實世界之間的交通規則差距,因為當前的方法僅關注圖像中的視覺差距。通過 NeRF 等技術將現實世界的數據納入模擬則是另一個有前途的方向。
7、未來趨勢
考慮到所討論的挑戰和機遇,本文列出了未來研究的一些關鍵方向,這些方向可能會在該領域產生更廣泛的影響。
7.1 零樣本和少樣本學習
自動駕駛模型最終不可避免地會遇到超出訓練數據分布范圍的現實場景。這就提出了一個問題:我們是否可以成功地將模型適應一個看不見的目標領域,其中可用的標記數據是有限的甚至沒有。將這項任務形式化為端到端駕駛領域并結合零樣本/少樣本學習文獻中的技術是實現這一目標的關鍵步驟。
7.2 模塊化端到端規劃
模塊化端到端規劃框架優化多個模塊,同時優先考慮下游規劃任務,其具有可解釋性的優勢,某些行業解決方案(Tesla、Wayve 等)也涉及類似的想法。在設計這些可微感知模塊時,會出現一些關于損失函數選擇的問題,例如用于對象檢測的 3D 邊界框的必要性、占用表示是否足以檢測一般障礙物,或者選擇 BEV 分割相對于車道的優勢靜態場景感知的拓撲。
7.3 數據引擎
大規模、高質量數據對于自動駕駛的重要性怎么強調都不為過。建立具有自動標記管道的數據引擎可以極大地促進數據和模型的迭代開發。自動駕駛的數據引擎,特別是模塊化的端到端規劃系統,需要借助大型感知模型,以自動的方式簡化高質量感知標簽的標注過程。它還應該支持挖掘困難/極端情況、場景生成和編輯,以促進數據驅動評估。促進數據的多樣性和模型的泛化能力。數據引擎將使自動駕駛模型能夠不斷改進。
7.4 基礎模型
語言和視覺大型基礎模型的最新進展對社會的各個方面產生了重大影響。大規模數據和模型能力的利用釋放了人工智能在高級推理任務中的巨大潛力。微調或即時學習的范式、自監督重建或對比對形式的優化以及數據流水線等都適用于端到端端自動駕駛領域。然而,直接語言模型注入自動駕駛代理似乎在兩個目標的不同目標之間不一致。自主代理的輸出通常需要穩定且準確的測量,而語言模型中的生成序列輸出旨在表現得像人類,而不管其準確性如何。開發大型自動駕駛模型的一個可行解決方案是訓練一個視頻預測器,該視頻預測器可以以 2D 或 3D 方式對環境進行長期預測。為了在規劃等下游任務上表現良好,大型模型的優化目標需要足夠復雜,超出幀級感知。
7.5 車對萬物(V2X)
遮擋和超出感知范圍的障礙物是現代計算機視覺技術的兩個基本挑戰,這甚至會給人類駕駛員在需要對交叉代理做出快速反應時帶來很大困難。車對車(V2V)、車對基礎設施(V2I)和車對一切(V2X)系統為解決這個難題提供了有前景的解決方案,來自不同觀點的信息補充了自車盲點。這些系統見證了多智能體場景信息傳輸機制的進步,可以提供一種解決方案來實現自動駕駛車輛之間的高級決策智能。
總結
本文對端到端自動駕駛系統的研發現狀進行了全面分析,涵蓋了端到端自動駕駛的動機、路線圖、方法論、挑戰和未來趨勢。重點介紹了幾個關鍵挑戰,包括多模態、可解釋性、因果混亂、穩健性和世界模型等。此外,我們還討論了基礎模型和視覺預訓練方面的當前進展,以及如何將這些技術整合到端到端駕駛框架中。端到端自動駕駛面臨著巨大的機遇和挑戰,基于端到端研發現狀的基本方法,通過擁抱快速發展的基礎模型和數據引擎的努力,并強調了廣泛的關鍵挑戰提出有希望的解決方案,最終針對智能汽車打造多面智能體是我們這代人可以完全預見的。