經(jīng)濟觀察報 關(guān)注
2025-08-21 16:15
文/陳永偉
8月5日,谷歌DeepMind發(fā)布了其新模型——Genie 3。
該模型能夠根據(jù)用戶的文本或圖像提示,實時生成可供用戶與AI智能體(AI Agent)互動的3D虛擬環(huán)境。例如,用戶只需輸入“月球上的火山邊”,Genie 3便能即時生成一片浮動的火山、黃色的大地與遠處的宇宙背景,并允許用戶進入探索。
相比此前的AI模型,Genie 3展現(xiàn)出更強的實時交互能力,并在互動時長和記憶連貫性上表現(xiàn)尤為出色。例如,如果用戶在生成的房間墻壁上涂鴉,然后轉(zhuǎn)身探索別處,那么當(dāng)他稍后返回時,墻上的涂鴉依舊保留。
不僅如此,Genie 3還引入了“可提示的世界事件”(Promptable World Events)功能。這允許用戶在交互過程中,通過新的文本指令動態(tài)改變世界。無論用戶要求“加入一只奔跑的小狗”“把天氣從晴天變成大雨”,還是“將環(huán)境從海邊變成山上”,Ge-nie 3都能瞬間響應(yīng)。
Genie 3的出色表現(xiàn)不僅刷新了AI生成世界的邊界,也讓人們看到了另一條通向通用人工智能(AGI)的路徑——“世界模型”(World Model)的希望。一時間,關(guān)于“世界模型”的討論頻頻見諸媒體。
那么,什么是“世界模型”?它如何實現(xiàn)?又能為我們帶來什么?且讓我們一一道來。
世界模型簡史
在人工智能領(lǐng)域,許多重要的模型都是模仿人類的某種能力或大腦的某種機能建立的。例如,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的靈感來自生物視覺皮層感受域(receptive field)的工作方式,Transformer模型則借鑒了人類注意力的聚焦機制。同樣,世界模型的靈感源自對人腦一種重要機制的模仿——在大腦中構(gòu)建并運用“內(nèi)部世界”(inner world)的能力。
設(shè)想一下,你正走在大街上,突然看見一輛汽車急速駛來。這時,你會迅速在腦中進行計算,模擬它在接下來幾秒的運行方向和速度,并判斷是否需要避讓以及向哪個方向避讓。隨后,你的身體會根據(jù)大腦的判斷采取行動。需要注意的是,此時你腦中的工作機制與傳統(tǒng)機器學(xué)習(xí)有顯著不同——機器學(xué)習(xí)的判斷依賴于對大量數(shù)據(jù)的學(xué)習(xí),這意味著只有在多次遭遇汽車迎面駛來并積累了統(tǒng)計經(jīng)驗后,才可能得出預(yù)測。然而,現(xiàn)實中這種突發(fā)情境極為罕見,人類幾乎不可能僅靠經(jīng)驗學(xué)習(xí)來應(yīng)對。事實上,面對突然駛來的汽車,人們依靠的往往不是經(jīng)驗,而是一種預(yù)測能力。換言之,你會在腦中提前“看到”那輛車未來的位置。這種“在心中演練未來”的能力,是人類智能最基本、也最奇妙的組成部分。
很早以前,就有人注意到人類構(gòu)建“內(nèi)部世界”的能力。18世紀(jì),德國古典哲學(xué)家康德指出,人類的感知從來不是對現(xiàn)實的直接復(fù)制,而是在心靈內(nèi)部通過某種“先驗框架”加以組織和解釋的。從這個意義上講,我們所見的世界,其實是自己建構(gòu)的一個版本。20世紀(jì),心理學(xué)家皮亞杰進一步指出,兒童并非被動接收信息來理解世界,而是通過不斷嘗試、失敗與重建,在腦中建立起一套關(guān)于世界運行規(guī)則的“心理模型”。這些模型使他們能夠預(yù)判事件的后果并指導(dǎo)決策。正因如此,人類才能成長為擁有計劃與想象力的存在。
隨著現(xiàn)代認知科學(xué)興起,“人類可以不依賴真實世界輸入而進行‘心智模擬’(Mental Simulation)”這一事實得到進一步證實。研究還發(fā)現(xiàn),人腦會不斷用感官輸入來驗證和修正自己的預(yù)測,使構(gòu)建的“內(nèi)部世界”愈加接近真實世界,并用更新的模型持續(xù)模擬現(xiàn)實、指導(dǎo)行動。
人工智能學(xué)科創(chuàng)立之初,專家們便開始嘗試模仿人腦的這種能力。例如,維納等人的反饋控制理論強調(diào),智能體要與環(huán)境交互,必須對環(huán)境狀態(tài)有內(nèi)部表示。同一時期,“符號主義”學(xué)者嘗試用邏輯規(guī)則和知識圖譜構(gòu)建“世界描述”,并通過推理機進行決策,在棋類、路徑規(guī)劃等領(lǐng)域取得不少進展。20世紀(jì)70年代的Shakey機器人,就已能在“內(nèi)部地圖”上模擬移動與避障。
進入20世紀(jì)80年代,隨著統(tǒng)計學(xué)習(xí)方法的發(fā)展,研究者開始用概率模型刻畫環(huán)境動態(tài),并將隱馬爾可夫模型(HMM)、卡爾曼濾波等先進統(tǒng)計方法應(yīng)用于內(nèi)部世界構(gòu)建。這類模型的優(yōu)勢在于能夠從數(shù)據(jù)中估計轉(zhuǎn)移概率,減少對人工規(guī)則的依賴,但缺點同樣明顯——一旦狀態(tài)空間維度上升,模型規(guī)模與計算量便呈爆炸式增長,難以適用于圖像、視頻等高維感知輸入。
1989年,理查德·薩頓將強化學(xué)習(xí)與“內(nèi)部世界”思想結(jié)合,提出Dyna架構(gòu)。利用該架構(gòu),智能體既可以直接從環(huán)境中學(xué)習(xí)策略,也可利用學(xué)到的環(huán)境模型在內(nèi)部進行計劃(plan-ning)。顯然,這一思路正是對人腦“心智模擬”功能的模仿。
1990年,時任博士生的人工智能專家于爾根·施密德胡伯(JürgenSchmidhuber)提出,理想的AI模型應(yīng)像人類一樣,對真實世界有全面而準(zhǔn)確的認知,并能模擬可能發(fā)生的情況。這樣的模型不僅要理解“現(xiàn)在”,還要想象“未來”;不僅要描述“是什么”,還要推測“會變成什么”。它不是傳統(tǒng)的分類器或生成器,而是一種具備“時間意識”的智能體。施密德胡伯將這種理想模型命名為“世界模型”,并在博士論文中用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)構(gòu)建了一個簡單版本,“世界模型”一詞由此誕生。
遺憾的是,當(dāng)時神經(jīng)網(wǎng)絡(luò)并非人工智能的主流方向,加之技術(shù)條件限制,該模型表現(xiàn)并不突出,“世界模型”這一名詞在此后多年傳播有限。直到2018年,施密德胡伯及其合作者發(fā)表題為《世界模型》(WorldModels)的論文,這一概念才被更多人熟知。
這篇論文之所以在多年后引發(fā)關(guān)注,原因多方面:其一,“深度學(xué)習(xí)革命”已經(jīng)發(fā)生,基于神經(jīng)網(wǎng)絡(luò)的模型更易獲得認可;其二,論文中的世界模型在性能上顯著優(yōu)于20世紀(jì)90年代的版本。但或許更重要的,是文中那幅漫畫:一個人正在騎車,而他腦海中也浮現(xiàn)著一個騎車的人。雖無一字,卻生動呈現(xiàn)了“世界模型”的核心——人在行動的同時,“內(nèi)部世界”正模擬行動的可能結(jié)果,并據(jù)此指導(dǎo)行為。所謂“一圖勝千言”,在人工智能領(lǐng)域同樣適用。
隨著“世界模型”思想被接受,眾多研究團隊投入到相關(guān)模型的開發(fā)之中。其中,谷歌DeepMind團隊無疑最引人注目。早在2019年,他們推出了基于模型的智能體PlaNet,能夠直接從圖像學(xué)習(xí)內(nèi)容,構(gòu)建世界模型,并預(yù)測后續(xù)圖像走向。測試顯示,它只需觀察前5幀,就能在給定動作序列的條件下提前準(zhǔn)確預(yù)測接下來50步的發(fā)展。
2020年,DeepMind在PlaNet的基礎(chǔ)上推出改進版Dreamer模型,引入遞歸狀態(tài)空間模型(RSSM)等新技術(shù),使其在預(yù)測與模擬性能上有顯著提升。進入“生成式AI革命”階段,尤其是在OpenAI發(fā)布Sora之后,DeepMind開始將世界模型思路應(yīng)用于高質(zhì)量視頻生成,而Genie正是這一工作的產(chǎn)物。與Sora相比,Genie系列在視頻精細度與流暢性上略有不足,但因其基于世界模型構(gòu)建,交互性遠優(yōu)于Sora。這一特點,使其應(yīng)用潛力大大超出視頻生成范疇。
世界模型的技術(shù)實現(xiàn)
從本質(zhì)上講,所謂世界模型,其實就是AI的“理解引擎”。它的核心原理,用一句通俗的話概括,就是讓機器先在“心里”排練一遍,再付諸行動。那么,如何實現(xiàn)世界模型呢?雖然技術(shù)細節(jié)十分復(fù)雜,但總體上可以分為幾個主要環(huán)節(jié)。
首先是表征學(xué)習(xí)(RepresentationLearning)。在模擬現(xiàn)實階段,世界模型并不需要額外的數(shù)據(jù)輸入,但在構(gòu)建階段,相關(guān)數(shù)據(jù)是必不可少的。這就好比我們在大腦中想象世界之前,必須先對世界的基本結(jié)構(gòu)有所了解——而要做到這一點,就必須先用眼睛看、用耳朵聽,再將這些信息轉(zhuǎn)化為大腦可處理的電信號。同樣地,在構(gòu)建世界模型時,AI需要通過傳感器從外界獲取各種數(shù)據(jù)輸入,這些輸入可以是文本、圖像,也可能是聲音或視頻。接著,AI通過“表征學(xué)習(xí)”過程,將這些輸入壓縮成機器能夠理解的“內(nèi)部語言”。在不同應(yīng)用需求下,“表征學(xué)習(xí)”會使用不同技術(shù)。例如,在學(xué)習(xí)連續(xù)潛在空間時常用變分自編碼器(VAE);在從未標(biāo)注數(shù)據(jù)中提取有意義的視覺特征時,則會用到自監(jiān)督視覺模型。
接下來是動態(tài)建模(DynamicModelling),這一階段要回答的問題是:“如果我現(xiàn)在采取某個動作,比如前進一步,世界的狀態(tài)會發(fā)生什么變化?”AI需要基于已有數(shù)據(jù)和先驗知識,不斷對可能的未來場景進行模擬。難點在于準(zhǔn)確刻畫現(xiàn)實世界中的物理規(guī)律。眾所周知,傳統(tǒng)機器學(xué)習(xí)多半學(xué)到的是相關(guān)性,而非因果關(guān)系,這在模擬中容易出錯。例如,按照萬有引力定律,物體被拋出后會在重力作用下下落。但如果AI的訓(xùn)練數(shù)據(jù)只包含拋擲羽毛的情景,它可能會錯誤地“學(xué)習(xí)”到物體不會下落,而是漂浮空中,從而在模擬中產(chǎn)生荒謬的結(jié)果。解決方法之一,是在模型結(jié)構(gòu)中直接嵌入物理規(guī)律,例如依據(jù)萬有引力定律和空氣阻力公式設(shè)計損失函數(shù),將其作為訓(xùn)練約束。另一種方法是從數(shù)據(jù)入手,確保訓(xùn)練樣本涵蓋多樣化場景——既包括拋擲羽毛,也包括拋擲鉛球。AI在多樣化的樣本中便可歸納出更普適的規(guī)律,實現(xiàn)更準(zhǔn)確的建模。只有當(dāng)AI“學(xué)會”并內(nèi)化了物理定律,構(gòu)建出的模型才具有真正價值。
第三個環(huán)節(jié)是控制與規(guī)劃(ControlandPlanning)。在這一階段,AI基于世界模型對現(xiàn)實進行模擬,并在眾多可能方案中尋找最優(yōu)策略。以躲避汽車為例,這一步就是在成千上萬種閃避方式中找到最優(yōu)解。不同場景下,控制與規(guī)劃的方法各不相同。例如,在早期模型中,蒙特卡洛樹搜索常被用于尋找最優(yōu)策略;而在PlaNet、Dreamer等知名世界模型中,則通過基于模型的強化學(xué)習(xí)(Model-basedRL)在潛變量空間中進行多步規(guī)劃。有些模型還會在策略優(yōu)化的同時,反向優(yōu)化“內(nèi)部世界”本身,實現(xiàn)模型與策略的雙向提升。
最后是結(jié)果輸出。顧名思義,這一環(huán)節(jié)的任務(wù)是將模型“想象”的結(jié)果以可見、可聽或可感的形式呈現(xiàn)出來。對于許多世界模型(如本文開頭提到的Genie)而言,這一步至關(guān)重要。最常見的輸出形式是視頻或圖像序列。實現(xiàn)這一目標(biāo),需要將“表征學(xué)習(xí)”過程反向執(zhí)行——將AI內(nèi)部的表征還原為像素。早期常用基于像素的生成模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)解碼器或自回歸模型。較新的方法多采用基于潛在空間的渲染:先在低維潛在空間生成內(nèi)容,再解碼為像素,其效率遠高于直接像素生成。如果目標(biāo)不僅是“看得見”,還包括“聽得到”甚至“可觸摸”,則需引入更多模態(tài)的生成與渲染技術(shù),這里不再展開。
世界模型能做什么
世界模型的出現(xiàn),究竟能為我們帶來什么?如果說過去的AI擅長的是“計算”“識別”或“對話”,那么世界模型則為AI打開了一扇新大門——它不僅能夠“看懂世界”,還能夠主動“在世界中行動”。這種能力,使它可以被應(yīng)用于多個不同場景。
首先,是與“具身智能”相關(guān)的領(lǐng)域。這里所說的“具身智能”范圍更廣,既包括擁有真實機械結(jié)構(gòu)的機器人,也包括虛擬游戲角色等任何具備“身體”的智能體。一旦智能體有了身體,它就可以主動移動、操作和試探。理論上,我們可以讓它通過這些行動不斷學(xué)習(xí),像嬰兒通過抓、摔、跳、爬來探索世界規(guī)律一樣。然而在現(xiàn)實中,這種探索往往成本高昂,甚至存在破壞性風(fēng)險,因此在實踐中并不可行。比如,雖然理論上可以讓機器人通過試錯學(xué)習(xí)躲避汽車,但在真實環(huán)境中,只要出現(xiàn)一次錯誤,就可能導(dǎo)致嚴(yán)重損壞,學(xué)習(xí)自然無法繼續(xù)。
在這種情況下,世界模型為智能體提供了一個安全的訓(xùn)練場。AI可以在其中反復(fù)嘗試各種策略,直到找到最佳路徑,再回到現(xiàn)實世界時,它已經(jīng)是“經(jīng)驗豐富”的行動者。顯然,這種訓(xùn)練方式相比傳統(tǒng)方法不僅能顯著降低成本,還能避免大量不必要的事故。施密德胡伯曾將這種在世界模型中進行訓(xùn)練的方式形象地稱為“做夢”(dreaming),這個比喻恰當(dāng)?shù)乜坍嬃怂奶攸c。
其次,是“數(shù)字孿生”領(lǐng)域。數(shù)字孿生是指為現(xiàn)實世界中的實體(如工廠、城市、港口)等創(chuàng)建高度還原的數(shù)字副本,以此實時同步數(shù)據(jù)、預(yù)測變化。過去,即便數(shù)字孿生做得再逼真,它也只是一個被動的模型。而有了世界模型的介入,這個孿生體就能主動模擬未來、預(yù)測問題并實時響應(yīng)。它不僅可以預(yù)警設(shè)備故障、識別倉儲流程可能的擁堵,還能提前給出優(yōu)化建議。將世界模型應(yīng)用于數(shù)字孿生,不僅能顯著提升自動化水平,還能實現(xiàn)“感知—預(yù)測—決策”的一體化躍遷。
第三,是教育與科研領(lǐng)域??茖W(xué)家可以利用世界模型構(gòu)建虛擬物理實驗室,更精確地預(yù)測液體流動、粒子運動或電路反應(yīng);教育者則可以打造交互式虛擬課堂,讓學(xué)生在模擬環(huán)境中親手實驗、探索知識。隨著世界模型的加入,知識生產(chǎn)與傳播的效率都將得到顯著提升,整個知識產(chǎn)業(yè)鏈有望實現(xiàn)優(yōu)化升級。
第四,是游戲和娛樂領(lǐng)域。在這里,世界模型就像一臺自動生成可玩世界的引擎。玩家不再受限于預(yù)設(shè)場景,而是可以根據(jù)自己的行為、興趣和指令,讓AI實時生成全新世界。同時,虛擬世界中的NPC將具備更高的智能水平,與玩家進行更豐富、自然的互動,從而大幅提升游戲的沉浸感與可玩性。
如果我們把視野放得更遠,世界模型甚至可能成為“虛擬社會”的基礎(chǔ)設(shè)施。一個高度發(fā)達的世界模型,或許能夠支撐數(shù)十億人同時生活、交流和建造的數(shù)字世界。在那里,每一個人的動作與決策,都會被模型合理接收、反饋并推動演化。那時,世界模型帶來的將不僅僅是游戲或模擬,而是一種全新的存在方式。
世界模型背后的隱憂
科技的每一次突破,都是一把雙刃劍,世界模型也不例外。當(dāng)它讓AI不再只是識別現(xiàn)實,而是能夠“創(chuàng)造”現(xiàn)實時,隨之而來的倫理與治理問題正逐漸浮出水面。
第一,世界模型可能進一步模糊真實與虛擬的邊界,引發(fā)“后真相”危機。它生成的內(nèi)容不僅符合物理規(guī)律,還能與用戶深度交互,帶來的“真實感”遠超當(dāng)前的AI生成物。在這種情況下,“有圖有真相”甚至“有視頻有真相”的時代將一去不返。一旦被用于詐騙、造謠或政治操縱,其社會危害將極為嚴(yán)重。
第二,世界模型可能成為行為操控的工具。它不僅能建構(gòu)環(huán)境,還可以通過環(huán)境反向影響用戶行為。由于虛擬世界足夠逼真,構(gòu)建者完全可以借助物理布局、獎勵機制、劇情走向等方式,潛移默化地引導(dǎo)用戶做出特定選擇。在這種情況下,人們在AI世界中的“自由選擇”可能并不真正自由。如何抵御商業(yè)誘導(dǎo)、政治宣傳和極端意識形態(tài)的滲透,在虛擬幻象中守住自我,將成為一大挑戰(zhàn)。
第三,世界模型可能加劇人們對虛擬世界的沉迷與對現(xiàn)實的疏離。它能夠構(gòu)建一個巨大的“智能烏托邦”——既與真實世界一樣真實可交互,又比現(xiàn)實更美好、更有回報感。在那里,人們可以輕易獲得完美的社交關(guān)系、理想的職業(yè)和永恒的勝利感。然而,當(dāng)沉浸其中的快感不斷累積,人們面對現(xiàn)實的意愿和能力可能逐漸削弱,甚至喪失在現(xiàn)實世界生存的必要技能,最終被困于虛擬世界。
第四,世界模型可能放大偏見、歧視與社會固化。為了構(gòu)建逼真的虛擬世界,它會大量參考現(xiàn)實世界的數(shù)據(jù),從而吸收并重現(xiàn)其中根深蒂固的偏見。在AI的放大效應(yīng)下,這些偏見不僅會被復(fù)制,還可能通過互動灌輸給用戶,使錯誤觀念在潛移默化中得以強化。
第五,世界模型的責(zé)任歸屬與治理缺口亟待關(guān)注。當(dāng)模型變得足夠復(fù)雜時,其生成的內(nèi)容與交互效果往往超出單一開發(fā)者的直接控制。這帶來一個棘手問題:一旦虛擬世界出現(xiàn)傷害性后果,責(zé)任應(yīng)由誰承擔(dān)?例如,用戶在虛擬世界中受到心理傷害,或被誘導(dǎo)做出危險行為,責(zé)任在模型構(gòu)建者、平臺運營方,還是用戶自身?又如,當(dāng)AI在虛擬訓(xùn)練中學(xué)會不良策略并在現(xiàn)實中重現(xiàn),應(yīng)追責(zé)于模型設(shè)計者、應(yīng)用方,還是數(shù)據(jù)提供者?這些問題目前尚無明確答案,但隨著世界模型的普及,遲早必須直面。
綜上,世界模型雖具有巨大的應(yīng)用潛力,但其伴生風(fēng)險同樣不容忽視。唯有提前建立倫理、法律與技術(shù)的多重防護,才能確保這項技術(shù)真正造福人類。
世界模型是通往AGI的必由之路嗎
世界模型之所以在近期引發(fā)高度關(guān)注,除了其潛在應(yīng)用廣泛外,還有一個重要原因:不少人工智能專家認為,它才是通向“通用人工智能”(AGI)的正確道路。Meta首席AI科學(xué)家、2018年圖靈獎得主楊立坤(YannLeCun)多次公開表示,世界模型不僅重要,而且?guī)缀醪豢苫蛉薄K赋?,?dāng)今的大語言模型(LLM)雖能在語言空間中生成連貫文本,但從本質(zhì)上看,它們?nèi)狈ΜF(xiàn)實世界的連續(xù)表征和物理一致性推理能力。人類之所以能在復(fù)雜環(huán)境中高效學(xué)習(xí)與適應(yīng),關(guān)鍵在于能在大腦中構(gòu)建對真實世界的模擬,并在內(nèi)部模型中進行“離線思考”。這種能力不僅顯著降低了試錯成本,還能幫助我們更好地應(yīng)對未知情境,實現(xiàn)知識的跨領(lǐng)域遷移。從目前來看,只有世界模型能夠模擬人類的這一能力。因此,如果希望AI的能力接近甚至超越人類,世界模型或許是必經(jīng)之路。
楊立坤的觀點在AI界收獲了不少支持,但也遭到同樣多的質(zhì)疑。一部分強調(diào)“端到端學(xué)習(xí)”和“規(guī)模驅(qū)動”的研究者,對這一觀點持謹(jǐn)慎甚至懷疑態(tài)度。在他們看來,盡管世界模型有其價值,但AGI未必需要顯式的世界模型,更談不上是“必由之路”。例如,Deep-Mind創(chuàng)始人、2024年諾貝爾化學(xué)獎得主德米斯·哈薩比斯(DemisHassabis)就指出,大規(guī)模無模型(Model-free)方法在一些復(fù)雜任務(wù)中已取得令人矚目的成績——AlphaGoZero、AlphaStar等系統(tǒng)并沒有顯式的物理世界建模,卻在多個領(lǐng)域表現(xiàn)超越人類。因此,通過類似方法模仿、逼近甚至超越人類能力,實現(xiàn)AGI并非不可能。
與此同時,還有學(xué)者質(zhì)疑世界模型本身的發(fā)展?jié)摿?。他們認為,首先,顯式的物理世界建模容易受到建模誤差的限制,多步預(yù)測中的累積偏差可能嚴(yán)重影響規(guī)劃質(zhì)量,從而削弱模型性能,甚至不如普通神經(jīng)網(wǎng)絡(luò)。其次,如果目標(biāo)環(huán)境過于復(fù)雜,在潛在空間中構(gòu)建準(zhǔn)確、穩(wěn)定的世界模型所需成本將極為高昂,此時直接依賴強大的策略網(wǎng)絡(luò)擬合最優(yōu)行為,反而可能更具性價比。
除“世界模型派”和“反世界模型派”外,還有學(xué)者主張中間路線。他們認為,AGI未必依賴單一、統(tǒng)一的世界模型,而可以通過“隱式建?!鲍@得類似能力。許多現(xiàn)代大語言模型和多模態(tài)模型在訓(xùn)練過程中,實際上已經(jīng)學(xué)會了某種世界知識的結(jié)構(gòu)化表示——這種表示并非工程師顯式構(gòu)建的物理引擎,而是以海量數(shù)據(jù)訓(xùn)練結(jié)果隱含在參數(shù)空間中。這種“參數(shù)即世界”的方式雖然可解釋性較差,但在推理、預(yù)測、規(guī)劃等任務(wù)中依然能展現(xiàn)出一定的世界理解。例如,GPT類模型可以通過多輪對話推演事件邏輯,甚至在虛擬物理場景中給出連貫結(jié)果。換言之,即使在模型設(shè)計時未預(yù)先植入物理規(guī)律,它們依然可能通過學(xué)習(xí)自行抽取這些規(guī)律。因此,中間路線派認為,顯式物理建模并非實現(xiàn)世界模型的唯一途徑。
那么,哪一種觀點更有道理?這在很大程度上取決于我們?nèi)绾味xAGI,以及如何理解“必由之路”。在AI圈內(nèi),對于AI的目標(biāo)本就存在分歧:有學(xué)者認為,AI的目標(biāo)是讓機器像人一樣思考和行動;也有人認為,目標(biāo)是讓機器像人類一樣完成任務(wù),而不必在機制上與人類相同?;诓煌睦斫?,AGI的定義也有所不同:如果目標(biāo)是讓機器像人類一樣行動,那么模擬人類構(gòu)建“內(nèi)部世界”的能力就必不可少;如果目標(biāo)只是讓機器在任務(wù)表現(xiàn)上不遜于人類,那么是否使用世界模型就不是必須。相比一刀切地依賴世界模型,根據(jù)任務(wù)性質(zhì)選擇最適合的技術(shù)路徑,或許才是更為務(wù)實的通向AGI之路。
結(jié)語
幾千年來,人類一直在追問一個問題:世界是如何運作的?從古代神話中的創(chuàng)世之神,到近代物理學(xué)的牛頓與愛因斯坦;從文學(xué)中的烏托邦,到哲學(xué)中的“物自體”與“現(xiàn)象界”,我們始終渴望理解世界的規(guī)律、命運與可能性。而今天,當(dāng)人工智能開始嘗試“創(chuàng)造”一個世界,它實際上也在加入這場古老的對話。
世界模型不僅是一種AI工具,更是一次對“認知本身”的挑戰(zhàn)。它不僅試圖再現(xiàn)世界的外觀,更力圖理解其機制、因果的流動,以及行動與反饋之間的微妙關(guān)系。從這個意義上看,無論它最終能否引領(lǐng)我們走向AGI,也無論它能帶來多少直接應(yīng)用,其探索價值都不可低估。