Google DeepMind 組成人工智慧世界模型專業團隊

Google DeepMind 已啟動一項新計劃，旨在創建能夠模擬物理和虛擬環境的先進人工智慧 (AI) 系統。關於「世界模型」——旨在預測現實世界動態並與之交互的人工智慧系統。生成模型。世界模型被視為實現 AGI 的基礎步驟，AGI 是一種能夠執行人類可以執行的任何智力任務的人工智慧形式。

新團隊將與現有的DeepMind 專案合作，包括Gemini 多模態AI模型（Veo 視訊生成平台）和Genie（用於互動式3D 模擬的環境生成器）。生成模型。我正在招募一個新團隊來承擔這項使命。來和我們一起建造吧！”> https://t.co/vtwgeXl9Dl

—蒂姆·布魯克斯(@_tim_brooks) 2025 年1 月6 日

人工智慧世界建模

世界模型與傳統人工智慧系統有很大不同，傳統人工智慧系統主要對資料輸入做出反應。相反，這些模型透過分析文字、圖像和影片等多模態資料來模擬複雜的環境。這種預測能力可實現從機器人培訓到互動遊戲等各個領域的應用。使用Google Genie 2 創建的交互式逐幀AI 模擬演示（來源:Google）

世界模型的工作本質上是複雜的，需要尖端的基礎設施和龐大的資源DeepMind 為世界建模領域的研究工程師提供的職位概述了所涉及的技術挑戰。職責包括:

訓練能夠分析不同資料類型的大規模多模態變壓器。 建置視訊資料管道基礎設施，確保高效的管理和註釋。 優化即時應用的推理系統，實現無縫互動。 制定定量評估指標來衡量身體準確性和智力。 探索超長上下文轉換器，使人工智慧能夠分析擴展的資料序列。

對擴充的強調反映了我們對使這些系統穩健且有效率的承諾。 DeepMind 的理念被概括為職位描述中的關鍵職責，強調了這種方法:「實施核心基礎設施並進行研究以建立物理世界的生成模型。解決大規模訓練世界模擬器的基本問題，開發物理智慧的指標和縮放法則，整理和註釋訓練數據，實現即時互動生成，並研究世界模型與多模式語言模型的整合。接受慘痛的教訓，尋求可擴展的簡單方法，重點是強大的系統和基礎設施。領域都有不同的應用在機器人技術中，它們可以創建虛擬環境，讓機器能夠學習導航和操作物體，從而減少物理測試的時間和成本。完全虛擬的環境中比在現實世界中更快地訓練人工智慧系統進行3D 物理訓練。醫療保健領域也具有潛力，模擬可以幫助診斷和個人化治療計劃。動畫協會估計，到2026 年，美國超過10 萬部電影、電視和動畫工作可能會受到人工智慧技術的影響。電玩鏡頭來製作動畫。雖然 Google 聲稱其做法符合 YouTube 的服務條款，但並未透露具體資料來源。與其他主要參與者展開競爭。 Nvidia 的新Cosmos 平台專注於實體人工智慧和機器人技術，而李飛飛的世界實驗室則開發具有空間智慧的大規模世界模型多樣化的應用。像是Odyssey 和Decart 這樣的新創公司也在製作DeepMind 對 Gemini AI、Veo 和 Genie 的訪問提供了獨特的優勢。透過整合這些系統，團隊的目標是創建人工智慧，不僅可以預測結果，還可以即時適應不斷變化的場景。這種能力對於實現AGI 至關重要，其中適應性和泛化性是關鍵。遙遠但可以實現目標，世界模型是這條道路上的關鍵一步。透過模擬物理和虛擬環境，這些模型為人工智慧系統提供了基礎，可以像人類一樣進行推理、計劃和互動。模型將為人工智慧提供動力」許多領域，例如視覺推理和模擬、具體代理規劃以及即時互動娛樂。」

Google DeepMind 組成人工智慧世界模型專業團隊

Published by All Things Windows on January 8, 2025

人工智慧世界建模

IT Info

Grok AI 透過 iOS 應用程式發布擴展 xAI 生態系統

IT Info

亞馬遜 AWS 投資 110 億美元擴建喬治亞州人工智慧資料中心

IT Info

VLC 媒體播放器可在裝置上產生多語言 AI 字幕

Google DeepMind 組成人工智慧世界模型專業團隊

Published by All Things Windows on January 8, 2025

人工智慧世界建模

Related Posts

IT Info

Grok AI 透過 iOS 應用程式發布擴展 xAI 生態系統

IT Info

亞馬遜 AWS 投資 110 億美元擴建喬治亞州人工智慧資料中心

IT Info

VLC 媒體播放器可在裝置上產生多語言 AI ​​字幕

VLC 媒體播放器可在裝置上產生多語言 AI 字幕