
Google旗下的DeepMind在本周推出了兩款新的AI模型,旨在提升機器人的智能水平。這些模型不再僅僅依賴於指令,而是讓機器人能夠自主思考問題、搜尋網路資訊,並在不同機器人間傳遞技能。這標誌著Google在讓機器人應對現實世界複雜性方面邁出了重要一步。Google表示,這些模型的引入是解決物理世界中的通用人工智慧(AGI)的一個關鍵里程碑,讓機器人能夠真正地推理、計畫、使用工具並進行泛化。
機器人學習新技能,應對日常挑戰
這些新模型讓機器人能夠處理如根據天氣預報打包行李、查詢當地回收規則並正確處理垃圾等任務。這需要一項稱為泛化的技能,即將已知知識應用於新情境的能力。通常,機器人和演算法在這方面表現不佳,例如,如果教會模型折疊一條褲子,除非工程師事先編程每一步,否則它無法折疊T恤。
新模型提升機器人環境適應能力
新的AI模型改變了這一點,讓機器人能夠根據提示讀取環境、做出合理假設,並完成多步驟任務。實驗中,機器人能夠使用攝像頭識別物品,查詢舊金山最新的回收指南,並將物品放置在正確的垃圾桶中,這過程結合了網路搜尋、視覺感知和逐步計畫。雖然成功率僅在20%到40%之間,但對於未曾理解過這些細微差別的模型來說,已經是驚人的進步。
Google如何將機器人轉型為超級機器人
這兩個新模型分工合作。Gemini Robotics-ER 1.5負責制定計畫,必要時調用Google搜尋獲取資訊,並將自然語言指令傳遞給Gemini Robotics 1.5,後者負責執行實際物理動作。技術上來說,Gemini Robotics 1.5是一個視覺-語言-動作(VLA)模型,將視覺資訊和指令轉化為動作命令,而Gemini Robotics-ER 1.5則是一個視覺-語言模型(VLM),負責創建多步驟計畫以完成任務。
機器人計畫與推理能力的提升
當機器人進行分類任務時,它會內部推理任務的每一步,例如理解「按顏色分類」意味著將白色衣物放入一個箱子,其他顏色放入另一個箱子,然後分解出每個動作所需的具體步驟。機器人能夠用簡單的英語解釋其推理過程,使其決策不再像個黑箱。Google執行長Sundar Pichai在社交平台上表示,這些新模型將使機器人更好地推理、提前計畫、使用數位工具如搜尋,並能在不同類型的機器人間進行學習傳遞。他稱這是Google邁向真正有用的通用機器人的下一大步。
美國機器人業界的競爭與挑戰
Google的發展讓它與特斯拉(TSLA)、Figure AI及波士頓動力等公司一同站在聚光燈下,儘管各家公司採取了不同的策略。特斯拉專注於工廠的大量生產,Elon Musk承諾在2026年前生產數千台單位。波士頓動力則持續推動機器人運動能力的極限,開發能夠後空翻的Atlas。Google則押注於讓機器人能在任何情況下適應的AI,而不需特定編程。
美中競爭與全球機器人市場
此時機尤為重要,因為美國的機器人公司正推動制定國家機器人策略,包括建立一個專注於推動行業發展的聯邦機構,而中國正在將AI和智能機器人列為國家優先事項。根據德國的國際機器人聯盟數據,2023年中國在工廠及其他工業環境中運行的機器人數量約為180萬台,為全球最大市場。
DeepMind的創新與未來展望
DeepMind的方式與傳統機器人編程不同,後者通常需要工程師精確編碼每一個動作。相反,這些新模型從示範中學習,並能即時適應變化。如果物品從機器人手中滑落或有人在任務中移動物品,機器人能夠立即調整。這些模型建立在DeepMind今年三月的早期工作基礎上,當時的機器人只能處理如打開包包或折疊紙張等單一任務,而現在它們能夠應對如在查看天氣預報後為旅行適當打包等挑戰人類的任務。
開發者的機會與限制
對於想要進行實驗的開發者來說,這兩個模型的可用性有所不同。Gemini Robotics-ER 1.5已在Google AI Studio的Gemini API上推出,任何開發者都可以開始使用這個推理模型進行開發。而動作模型Gemini Robotics 1.5則僅供「特定」合作夥伴使用。