文章概要:
- Wayve是一家英國初創(chuàng)公司,于2023年6月發(fā)布GAIA-1,一款用于自動駕駛車輛訓練數(shù)據(jù)的生成式人工智能模型。
- GAIA-1使用文本、圖像、視頻和行動數(shù)據(jù)創(chuàng)建各種交通情景的合成視頻,填補了道路交通復雜性所產(chǎn)生的數(shù)據(jù)空白。
- 這一世界模型可以預測未來事件,幫助自動駕駛車輛提前規(guī)劃行動,增加道路安全和效率。
站長之家(ChinaZ.com)10月7日 消息:英國初創(chuàng)公司W(wǎng)ayve在2023年6月發(fā)布了GAIA-1(Generative Artificial Intelligence for Autonomy),這是一款為自動駕駛車輛培訓數(shù)據(jù)而設計的生成式模型。GAIA-1的最新版本,GAIA-19B,已經(jīng)取得了令人矚目的進展。
GAIA-1的獨特之處在于它的能力,它能夠使用文本、圖像、視頻和行動數(shù)據(jù)來生成各種交通情景的合成視頻。這一能力填補了自動駕駛車輛訓練中的數(shù)據(jù)缺口。
試想一下,在霧中,有一個行人從卡車后面跳出來,同時一名摩托車手即將超越你,一名自行車手從前方靠近。這是一個真實的情景,但要捕捉到這個精確的場景,你需要開多少英里的車并進行拍攝呢?GAIA-1回答了這個問題,它可以生成各種交通情景的合成視頻,用于自動駕駛車輛的培訓。
與傳統(tǒng)的生成式視頻模型不同,Wayve表示,GAIA-1是一種生成式“世界模型”,它學會了理解和解讀駕駛的最重要概念。它能夠識別和分離不同的車輛及其特征、道路、建筑物或交通信號燈等概念。GAIA-1還學會了代表環(huán)境及其未來動態(tài),為駕駛提供了結構化的環(huán)境理解,可用于做出明智的駕駛決策。
自GAIA-1首次發(fā)布以來,Wayve團隊對其進行了優(yōu)化,以高效生成高分辨率視頻,并通過大規(guī)模培訓提高了世界模型的質量。該模型現(xiàn)在擁有90億個參數(shù)(相對于六月版本的10億個參數(shù)),還能夠精確控制視頻中的車輛行為和場景特征。這使其成為培訓和驗證自動駕駛系統(tǒng)的強大工具。
GAIA-1的模型基于在2019年至2023年間在英國倫敦收集的4700小時專有駕駛數(shù)據(jù)。模型的架構包括每個輸入模態(tài)(視頻、文本和行動)的專用編碼器、世界模型、自回歸變換器和視頻解碼器,以及將預測的圖像元素轉換回像素空間的視頻擴散模型。
值得注意的是,GAIA-1的世界建模任務與大型語言模型(LLMs)常用的方法非常相似,其中任務被簡化為預測下一個標記。在GAIA-1中,這一方法應用于視頻建模,而不是語言。這表明隨著模型大小和培訓數(shù)據(jù)集的增加,GAIA-1在視頻生成方面的性能和效率將繼續(xù)提高,類似于大型語言模型在其各自領域內觀察到的縮放模式。開發(fā)人員表示,隨著更多的數(shù)據(jù)和處理能力,仍然存在“顯著的改進空間”。
此外,GAIA-1還可以預測過去的上下文視頻圖像的不同未來情景,包括行人、自行車手、摩托車手和對向交通的行為,從而使模型能夠考慮與其他道路使用者的互動并對情況做出反應。GAIA-1還可以通過純文本輸入進行控制,例如,通過文本命令“天氣是晴朗的”、“多雨的”、“有霧的”或“多雪的”來生成不同的駕駛情景。此外,它還可以使用文本命令,如“現(xiàn)在是白天,我們處于直射陽光下”、“天空是灰色的”、“現(xiàn)在是黃昏”和“現(xiàn)在是夜晚”,來創(chuàng)建不同的照明情景。
然而,Wayve也指出了GAIA-1的一些局限性。雖然自回歸生成過程非常有效,但需要大量計算,因此生成長時間的視頻會非常計算密集。此外,當前模型主要集中于預測單一攝像機輸出,而自動駕駛需要來自所有周圍視點的全面視圖,這是關鍵問題之一。
未來的工作將擴展該模型的能力,以捕捉更廣泛的視角,并優(yōu)化其生成效率,使該技術更具適用性和效率。此外,Wayve還在開發(fā)Lingo-1,這是一種自動駕駛系統(tǒng),將機器視覺與基于文本的邏輯相結合,以解釋道路上的決策和情況。這種基于文本的邏輯可以增加車輛的安全感,使人工智能的決策不再像一個“黑盒子”。
GAIA-1項目網(wǎng)址:https://wayve.ai/thinking/scaling-gaia-1/
(舉報)