字節跳動加入「世界模型」大戰 李飛飛一槍引爆AI商機
字節跳動也來了!「世界模型」大戰全面開打,李飛飛一槍引爆4兆商機。(中新社資料照片)
繼騰訊、阿里巴巴相繼投入之後,字節跳動如今也「半隻腳」踏入世界模型賽道。據大陸財經自媒體《直面派》報導,字節近日正式發表Seed3D 2.0——一個能從文字、圖片、多視角圖甚至影片直接生成3D模型的技術,將3D生成從「視覺好看」推向「生產級可靠」,更被業界解讀爲字節佈局「空間AI」基礎設施的關鍵一步。
字節Seed3D 2.0:半個世界模型,搶佔「3D造物」入口
報導指出,Seed3D 2.0的最大突破在於幾何精度與材質真實性。過去3D生成模型常見邊緣發軟、薄壁斷裂、材質只在單一光照下好看的問題;Seed3D 2.0採用兩階段DiT先建整體結構再補細節,讓銳邊、曲面、複雜拓撲與薄壁結構更穩定。更重要的是,它統一生成PBR材質(物理基礎渲染),使金屬、粗糙度、反光邊界在不同光照下保持一致,生成的模型更接近可進入真實渲染管線的資產。
此外,Seed3D 2.0支援部件級拆分、關節建模與URDF輸出,也能做場景組合與空間佈局推理——一個椅子可以被拆成座面、靠背和底座,能直接放進遊戲引擎、機器人訓練或工業仿真系統。報導稱,雖然字節未正式承認這是「世界模型」,但從它能理解物體的空間結構、部件關係與可操作性來看,已具備世界模型的特點;只是尚無法持續預測世界演化,也不理解力、碰撞、摩擦等物理過程,因此只能算「半個」世界模型。
李飛飛打響發令槍:Spark 2.0讓3D世界在手機上也能跑
《直面派》分析,這波世界模型熱潮的引爆點,是史丹福大學知名AI學者李飛飛。4月14日,她的新創公司World Labs發表Spark 2.0——一個Web端3D高斯潑濺渲染引擎,能讓手機瀏覽器流暢打開包含上億個粒子的3D世界。
Spark 2.0的核心在於細節層次技術、漸進式串流傳輸與虛擬記憶體管理,解決了3D高斯潑濺數據量過大、普通設備跑不動的痛點。李飛飛的野心不只是做工具,而是打造平臺:她的另一產品Marble能根據文字或圖片生成可進入的3D世界,Spark 2.0則解決「最後一哩路」——讓生成的世界可以被分享、被嵌入網頁、在任何裝置上存取。這大幅降低了3D內容創作與消費的門檻。
輝達、騰訊、阿里各走各路:機器人訓練、遊戲資產、即時互動
幾乎同一時間,各家大廠紛紛出招:
輝達(NVIDIA)發表Lyra 2.0,目標解決長距離、大範圍3D世界生成的「空間遺忘」與「時間漂移」問題。它維護一個空間記憶系統,每生成一幀就將3D幾何資訊存下來,下次生成新視角時先從記憶中檢索歷史幀,確保一致性。輝達的應用場景是機器人與自動駕駛,用AI生成真實、一致的虛擬環境來降低成本與風險。
騰訊正式開源HY-World 2.0,走真正的3D資產生成路線。其工作流程從全景圖生成、軌跡規劃、世界擴展到世界組合,最終輸出可導入Blender、Unity、Unreal Engine的網格檔案與3DGS檔案。騰訊的目標很明確——服務遊戲與虛擬內容產業,讓美術團隊從重複建模中解放,將製作週期從數週縮短到數天。
阿里巴巴發表Happy Oyster,主打「即時互動的世界生成」。它有「漫遊模式」(第一人稱自由移動,場景隨之延展)與「導演模式」(用戶可在生成過程中以文字、語音或圖像指令改變劇情、切換鏡頭)。阿里定位它爲「世界模擬器」,輸出的是影音串流而非3D資產,瞄準內容創作、互動娛樂、虛擬直播等場景。
此外,羣核科技與極佳視界也在室內設計、機器人訓練等垂直領域推出空間生成模型。
爲何全擠在這一週?李飛飛就是「發令槍」
報導指出,這並非巧合。各家產品在技術路線、目標場景上完全不同,不可能同時準備好。更合理的解釋是:大家都在等一個信號,而李飛飛的Spark 2.0就是那個「發令槍」。
過去兩年,AI圈的大語言模型熱潮已進入瓶頸,各廠差距縮小,市場需要新故事。世界模型恰好能把內容創作、遊戲開發、機器人訓練、自駕車、工業仿真、數位孿生等不同場景全裝進去。與此同時,影片擴散模型、3D高斯潑濺、多模態理解、即時渲染等技術也成熟到可以組合成可落地的產品。
李飛飛早在2025年6月就曾表示,AI要接近AGI,就必須理解三維空間、幾何結構、物理規律——「空間智能」是下一個前沿。因此,誰先發布,誰就有機會定義「世界模型」這個詞。騰訊、阿里、輝達、字節紛紛搶在此時出手,不是產品剛好做完,而是這個時間窗口太關鍵——晚一週,市場注意力可能就被帶走;早一週,又沒有李飛飛引爆話題。
戰略卡位:四大巨頭搶佔不同生態層級
報導分析,各家其實是在爭奪世界模型生態中的不同入口:
World Labs(李飛飛):搶Web分發入口。未來若所有3D世界都透過Spark在瀏覽器中打開,它就掌握了分發渠道。
騰訊:搶3D資產生產入口。若遊戲公司都用HY-World 2.0生成場景原型,它就掌握了內容生產工具。
阿里:搶即時互動入口。若互動內容都用Happy Oyster製作,它就掌握了新內容形態。
字節跳動:搶3D造物入口。若未來遊戲、機器人、工業仿真的物體模型都透過Seed3D 2.0從文字或圖片直接生成,並且自帶幾何、PBR材質與關節結構,字節就掌握了現實物體進入數位世界的第一道關卡。
輝達:搶模擬訓練入口。若機器人公司都用Lyra 2.0生成的環境來訓練模型,它就掌握了物理AI的基礎設施。
報導指出,世界模型的最終競爭不會只停留在模型能力,而會延伸到生態層面——誰的輸出格式被更多工具支援、誰的渲染器被更多開發者使用、誰能和Unity、Unreal、瀏覽器等關鍵平臺深度整合,誰就有機會成爲下一代空間AI平臺的標準制定者。