Figure AI 在與 OpenAI 終止合作后,果然發(fā)布了大新聞,這家人形機器人公司從外接大模型的方式,轉入本地具身大模型來完成機器人的感知、交互與操作,充分展現(xiàn)了本體具身大模型與外接互聯(lián)網(wǎng)大模型的優(yōu)勢。
根據(jù) Figure AI 有限的技術分享,他比較新推出的 Helix 系統(tǒng)是基于視覺-語言-行動(VLA)端到端整體架構演進的一套快慢系統(tǒng)。
借助 Helix,F(xiàn)igure AI 將端到端 VLA 模型運行到自家的雙足人形機器人 Figure 02 上,實現(xiàn)了面向場景任務的泛化性。
在 Figure AI 官方展示視頻中,機器人一邊用頭部追蹤手部,一邊調整軀干姿勢,同時能夠比較準確抓取物體。
這種多自由度協(xié)調在高維動作空間中相當挑戰(zhàn)性,而 Helix 可以做到美好平衡。
究其本質,Helix 是一個能夠對整個人形上身(包括手腕、軀干、頭部和各個手指)進行高速率連續(xù)控制的 VLA 模型,作為 Figure AI 的比較優(yōu)秀大腦,它完成了所有事情:
像人類一樣用眼睛觀察、用耳朵聽、用手操作,并在沒有特別訓練的情況下完成全新的任務,有準確的控制能力。
這在視頻中得到了充分展現(xiàn):Helix 驅動的機器人成功抓取數(shù)千種新物體,僅需一句「拿起 [X]」,當指令為「拿起沙漠物品」時,它能識別玩具仙人掌并完成抓取。
「Helix 表現(xiàn)出了強大的物體泛化能力,只需用自然語言詢問,就能撿起數(shù)千種形狀、大小、顏色與材料特性各異的新奇家居用品,而這些物品在此前的訓練中從未見過?!笷igure AI 的創(chuàng)始人兼 CEO 布雷特·艾德考克認為。
Figure AI 此番高舉高打的端到端 VLA 架構,實際在硅谷也是非常新的技術。
伯克利機器人行業(yè)的優(yōu)質團隊創(chuàng)辦的 PI,在 2024 年 6 月、10 月分別發(fā)表了 OpenVLA、PI-0,奠定了端到端 VLA 的圣杯標準,當時獲得極大反響。
但這個技術不只是硅谷優(yōu)質團隊的專利,中國科研力量也在端到端 VLA 舞臺上展露過實力。
2024 年 6 月,比 PI 早發(fā)表的,針對操作機器人的 RoboMamba 端到端具身大模型,由北大,智平方等合力推出。
這一模型不僅比 PI 的 OpenVLA 更早公開應用,還在未見任務(Unseen Task)的泛化能力上顯著超越 Google 的 RT 系列模型,進一步鞏固了中國在大模型原創(chuàng)力上的國際聲譽。
這是業(yè)界能看到的,僅有初創(chuàng)公司參與的端到端 VLA 工作被國際專家認可。
圖注:圖源 RoboMamba 論文
圖注:論文介紹了一個名為 RoboMamba 的多模態(tài)狀態(tài)空間模型,旨在提高機器人的推理和操作能力,同時保持有效的微調和推理
論文創(chuàng)新性地將視覺編碼器與有效的 Mamba 語言模型集成,構建了全新的端到端機器人多模態(tài)大模型。
端到端的背后,是對量產(chǎn)的深入理解。在場景多變的情況下,如何用數(shù)據(jù)驅動的方式完成系統(tǒng)升級迭代,如何對數(shù)據(jù),模型結構,訓練方法實現(xiàn)系統(tǒng)級別 AI 突破。這些關鍵問題困住了大量具身智能領域的入局者。
小鵬、OPPO前首席科學家,微軟總部研究員,創(chuàng)新領軍人才郭彥東,是初次提出端到端 VLA 架構的人,這來自于他在產(chǎn)業(yè)、行業(yè)多年的深耕積累,以及他在 AI 原創(chuàng)領域的硬核研發(fā)能力。依托技術的先發(fā)布局,和大量人工智能軟硬一體化結合的量產(chǎn)經(jīng)驗,幫助智平方率先做到了這一點,成為國內(nèi)最早進行真正商業(yè)落地的通用智能機器人公司。
本質上,能做好 VLA 端到端的公司具備對大模型前沿技術的硬核創(chuàng)新能力,其間的點滴積累如能應用到整個 AI+硬件行業(yè),會成為相當價值的存在。
(推廣)