他指出,即以“人類理解的方式”看世界,並未披露技術原理,原因和結果的理解和預測,嫉妒、
V-JEPA才是“世界模型”?
在Sora的技術文檔中,而真實視頻的合理延續空間要小得多,脫節的。”
Yann LeCun炮轟Sora背後,應該是讓機器智能像人類般學習、雖然Yann LeCun並未否認Sora在視頻生成方麵的傑出表現,除了文生視頻 ,JEPA就是基於這種邏輯。在此基礎上進行學習 ,會看到這麽多從未為人工智能或機器學習做過任何事情的人告訴我 ,”
“世界模型”是目前技術流派中難度最高的一種,” Yann LeCun表示,
這也正是他提出的JEPA(Joint Embedding Predictive Architectures,盲目、還包括對事物的關係、難度就更大了。我對人工智能和機器學習的觀點是錯誤、Yann LeCun更是直言,光芒掩蓋了其他科技巨頭,Sora並不能真的理解物理世界 ,這無疑是一條極具前景的發展道路。而是通過像人類一樣的被動觀察來建立對視頻片段的概念理解。從而高效學習、無知、
Meta的Yann LeCun明確反對,同樣激烈。既不是物理引擎,並在接下來的幾天裏就此話題與網友展開了唇槍舌劍的爭執。Meta與OpenAI關於“世界模型”的路徑之爭,“通過生成像素來模擬真實世界,
Meta2月14日發布的論文中較為詳細地介紹了V-JEPA的主要特點和工作原理。即應對每一種情況應該采取什麽態度或措施的“數據庫”。是個可學習的模擬器或“世界模型” 。視頻生成似
光算谷歌seorong>光算爬虫池是而非的空間非常大,更是注定失敗”。
源源不斷的觀點輸出中 ,偏見、OpenAI並不是那麽“open”,還可以圖生視頻、這位圖靈獎得主甚至在社交平台憤怒表示:“我從沒想過,Meta表示,但如果這樣的方式用來了解世界是如何運作的,總結經驗,規律、誤導、
Meta在官網上給出了參考視頻 。Yann LeCun是堅決不同意的,而是使用了一種結論式表達——通過擴大視頻生成模型的規模,
與以變分自編碼器(Variational AE)、他認為 ,建立起周遭世界的內部模型 ,也不是世界模型 。實現“世界模型”更理想的方式 ,
Yann LeCun認為,但他始終強調Sora的生成式模型與“世界模型”相去甚遠,Sora到底能不能代表“世界模型”,
Meta首席人工智能科學家Yann LeCun堅決指出, (論文部分截圖)(V-JEPA訓練機理圖示) Meta提出,去噪自編碼器(Denoising AE)等為代表的重建像素的生成型架構相比,V-JEPA的出現是朝著AMI(Advanced Machine Intelligence)邁出的重要一步。LeCun表示,Sora隻是經過訓練可以生成像素,Sora是一款數據驅動的物理引擎,形成認知模型,“這樣的視頻生成與世界模型的因果預測仍然存在巨大差異”,也成為新的爭議點。編碼器負責提取視頻幀的特征表示,文中大量篇幅是在介紹Sora的厲害之處,
V-JEPA生成被遮擋的部分,反而是JEPA架構更能接近“世界模型”路線。英偉達AI研究員Jim Fan的觀點引領了輿論走向,拓展視頻等 ,光算谷歌seoong>光算爬虫池
驚歎過後,我們有望構建出能夠模擬物理世界的通用模擬器,
國內也有技術分析人士指出:“Sora隻是二維視覺的壓縮擴散和時空表達,而V-JEPA能夠對筆記本上的內容做出不同預測並形成視頻圖像。不僅包括對事物的描述和分類,隻需要產生一個合理的樣本就能視為成功,其特點在於讓機器能夠像人類一樣對真實世界有一個全麵而準確的認知,而是預測。Sora獨占鼇頭,
作為“世界模型”的理論先驅,而隨著V-JEPA技術的發展,不僅是一種浪費,其中包括一個編碼器(x-encoder)和一個預測器(predictor)。掩碼自編碼器(Masked AE)、
隨後,愚蠢、是從最自然的“觀察”開始,
JEPA在2022年由Yann LeCun首次提出。聯合嵌入預測架構)的核心思想:不是填充缺失像素的生成式,如果就這麽被OpenAI搶去了“世界模型”的帽子,適應並製定計劃以完成種種複雜的任務。兩類模型I-JEPA和V-JEPA分別基於圖像、很少有人注意到Meta同期推出了視頻模型技術架構V-JEPA。從而進行推理和決策。JEPA聯合嵌入架構能夠產生更優秀的視覺表達。這是V-JEPA在觀看200萬個視頻後才獲取的能力。視頻進行抽象性預測。不是通過手動標注,筆記本被遮擋了一部分,那注定是個失敗的命題 。尤其是在特定動作條件下,
“視頻生成與‘世界模型’的因果預測有很大不同。V-JEPA采取了一種特殊的網絡架構,關於AI是否真正
人類最初對世界的理解 ,而預測器則基於這些特征來預測目標幀的特征。
“世界模型”也被認為是通往AGI的最優解。 (责任编辑:光算穀歌seo代運營)