學習人類良好駕駛習慣還不夠，Waymo模擬突發狀況要讓自駕車更可靠

圖片來源:

Waymo

Alphabet旗下的自駕車子公司Waymo近日公開訓練自駕車的研究成果，透過大量的真人駕駛資料，建立神經網路模型，不只學習正常情況的駕駛資料，Waymo還合成其他狀況的資料，讓模型學習如何應對行車中的干擾，該模型不但能夠在充滿挑戰的模擬環境下正常駕駛，還能在封閉的真實環境中，駕駛真的車輛。

近幾年，許多研究用監督式深度神經網路，透過大量已標示的資料，來快速改善模型的準確率，尤其是物體感知和預測模型，而Waymo同樣地也使用了這個方法，透過真人駕駛示範的數百萬英里行車資料當成訓練資料，用監督式深度學習方法，不過，要訓練出像真人一樣的駕駛模型，光是模仿大量的真實行車資料還不夠，為了能讓模型更可靠，Waymo團隊還加入了額外的資訊，除了模擬好的行為之外，也要模擬不好的情況。

Waymo團隊建立了深度神經網路ChauffeurNet，讓模型向真人專家學習，該模型透過觀察中等程度的程式，來產生駕車軌跡，由於輸入的程式，不直接處理原始的感測器資料，因此能夠分解感知任務，研究團隊也能將真實和模擬資料整合，用於遷移學習。輸入模型的程式是個從上而下的場景環境資料，包含地圖、周遭物體、交通號誌、車輛運動等數據。

ChauffeurNet模型在寫下預測駕駛軌跡的點之後，會用該點作為下一個預測軌跡點的依據，不斷重複執行輸出駕駛軌跡，模型包含10個軌跡點，這些輸出結果會送到控制器中，轉換為控制命令，像是如何駕駛或加速。除此之外，Waymo研究團隊也應用一個獨立的感知深度學習網路PerceptionRNN，在駕駛移動的過程中，預測周圍移動物體。

ChauffeurNet模型內部分為兩個網路，卷積網路FeatureNet和AgentRNN，FeatureNet從輸入的資料中計算一系列的特徵，再由AgentRNN負責收集FeatureNet過去呈現的影像，模型再輸出預測結果，這些預測結果被用來更新AgentRNN的輸入資料，為下一次的預測做準備。

圖片來源：Waymo

訓練模型的部分，Waymo用大約60天的駕駛資料來訓練模型，還加入past motion dropout技術，來確保模型不會一直只根據過去的運動推斷，並且對環境產生正確相對應行動，如此一來，模型能夠學習適當地應對交通狀況，像是遇到交通號誌會做出正確的判斷，但是，即便用大量的資料訓練模型，還是會有模型沒有遇過的狀況。

訓練資料通常只有包括在好的情況下駕駛範例，為了訓練自駕模型面對的不好的情況能力，Waymo研究團隊加入擾亂駕駛行車軌跡，起點和終點不變，但是軌跡產生偏差，來教導模型如何從擾亂的情況中恢復，另外，Waymo也合成了與道路邊緣或是物體碰撞的資料，利用合成資料和附註的獎勵機制，讓模型學會如何應對不好的情況，舉例來說，經過訓練的模型能夠繞過停在路邊的車輛，回到正常的行車軌道繼續行駛。

不過，要打造全自動的自駕系統，必須解決真實世界中長尾效應的問題，深度學習模型在缺乏資料的場景中，還是存在許多問題，深度學習模型能夠辨識與訓練資料相關性，但是無法透過觀察相關性來建立因果模型，也不能主動測試虛擬條件下的情況，要建立因果模型必須知道真人駕駛行為的原因，以及面對特定狀況會如何反應，了解原因才能讓自駕車模型變得更安全。

現在Waymo自駕車使用的行車規畫模型是結合了機器學習和明確的推論系統，持續評估各種不同場景的可能性，來做出最佳的駕駛決策，該模型已經過1,000萬英里的道路測試，和數十億英里的模擬測試，Waymo表示，現在的模型離全機器學習模型還很遠，目前Waymo還持續在研究因果模型的難題。

熱門新聞