每日速讀!普林斯頓大學(xué):強(qiáng)化學(xué)習(xí)實現(xiàn)視覺語言模型超百步游戲決策能力提升
這項由普林斯頓大學(xué)語言與智能實驗室(Princeton Language and Intelligence)主導(dǎo)、聯(lián)合復(fù)旦大學(xué)與清華大學(xué)研究人員共同完成的研究,于2026年5月以預(yù)印本形式發(fā)布,論文編號為arXiv:2605.00347。感興趣的讀者可以通過該編號在arXiv平臺查閱完整論文。
一、一個看似簡單的游戲,藏著一個深刻的AI難題
(資料圖片)
有沒有想過,讓一臺電腦"看著"游戲畫面,自己決定按哪個鍵,這件事到底有多難?
對于人類玩家來說,玩《超級馬里奧》幾乎是本能反應(yīng)——看到前面有坑就跳,看到蘑菇怪就躲或踩。但對于一臺AI來說,這件事遠(yuǎn)比我們以為的復(fù)雜。它必須先"看懂"畫面(馬里奧在哪?障礙物在哪?)、然后"想清楚"下一步該怎么辦(跳?走?還是等?),最后還得"準(zhǔn)確執(zhí)行"。更難的是,這些決策不是做一次就結(jié)束的——一關(guān)游戲往往需要連續(xù)做出超過100個正確決策,任何一步出錯都可能導(dǎo)致前功盡棄。
普林斯頓大學(xué)的研究團(tuán)隊正是以這個"小小游戲"作為切入口,研究了一個對AI領(lǐng)域來說意義深遠(yuǎn)的問題:能不能用一種叫做"強(qiáng)化學(xué)習(xí)"的訓(xùn)練方式,讓具備視覺和語言能力的大模型(也就是視覺語言模型,簡稱VLM)學(xué)會完成這種長達(dá)100步以上的復(fù)雜決策任務(wù)?
他們最終給出的答案,不僅僅是"可以",還附帶了一套完整的方法論,以及一個名為Odysseus的開放訓(xùn)練框架。
二、什么是視覺語言模型,它為什么適合玩游戲?
在正式講研究內(nèi)容之前,有必要先解釋一下"視覺語言模型"是什么。
你可以把它理解成一個既能"看圖"又能"說話"(或者說"思考")的AI。給它一張圖片,它能描述里面有什么;告訴它一段文字,它能理解并回應(yīng)。近年來,這類模型發(fā)展迅猛,已經(jīng)能處理相當(dāng)復(fù)雜的視覺推理任務(wù)。
這類模型用于玩游戲,有一個天然的優(yōu)勢:它在被訓(xùn)練成大模型之前,已經(jīng)"見過"海量的圖片和文字,積累了豐富的世界知識——比如"跳過水坑"是什么意思、"障礙物"通常長什么樣。這種"先天知識"讓它在面對游戲畫面時,不需要從零開始摸索,而是能調(diào)用已有的認(rèn)知快速建立判斷。
然而,現(xiàn)有的研究存在兩個明顯局限:一是很多方法依賴大量人類示范數(shù)據(jù)(也就是讓AI模仿人類玩家的每一個操作),這既昂貴又難以大規(guī)模擴(kuò)展;二是用強(qiáng)化學(xué)習(xí)訓(xùn)練這類模型時,現(xiàn)有方法基本只能處理20到30步左右的短期任務(wù),一旦任務(wù)變長,訓(xùn)練就會變得不穩(wěn)定、效果也大打折扣。
普林斯頓團(tuán)隊的核心貢獻(xiàn),就是在這兩個局限上都取得了突破。
三、為什么選擇《超級馬里奧》作為訓(xùn)練場?
研究團(tuán)隊選擇的測試平臺是1989年發(fā)布的經(jīng)典Game Boy游戲《超級馬里奧樂園》(Super Mario Land)。這個選擇背后有清晰的考量。
《超級馬里奧樂園》游戲難度適中,但對AI來說并不簡單。它一共有12關(guān),每一關(guān)的地圖布局、障礙物類型、敵人行為都各有不同。完成一關(guān)通常需要連續(xù)做出100步以上的決策——這比之前AI研究中常用的"迷宮尋路"(通常只需要5到30步)要復(fù)雜得多。
更重要的是,游戲中有很多需要精準(zhǔn)時機(jī)判斷的操作,比如"剛好跳過那根高管道"或"在蘑菇怪沖過來的瞬間跳開"。這些操作即便對于頂尖的AI大模型也是難題——研究團(tuán)隊測試了當(dāng)前最先進(jìn)的幾款商用模型,發(fā)現(xiàn)它們在零訓(xùn)練的情況下,在這款游戲里的表現(xiàn)相當(dāng)糟糕,往往在第一關(guān)就卡住。
與此同時,這款游戲體量小、運行輕便,非常適合做大規(guī)模的科學(xué)實驗和對照比較,而不像那些大型開放世界游戲需要消耗巨量算力。
四、AI是怎么"玩"游戲的?
在講訓(xùn)練方法之前,先要理解AI是如何與游戲交互的。
研究團(tuán)隊為AI設(shè)計了一套"看、想、做"的交互流程。每一步,游戲把當(dāng)前畫面截圖發(fā)給AI,AI先把畫面放大8倍(因為原始分辨率太低,只有160×144像素,放大后效果更好),然后結(jié)合一段文字提示(告訴它游戲規(guī)則和可用的按鍵),開始工作。
AI的思考過程被分成三個明確的環(huán)節(jié),分別用三個標(biāo)簽包裹起來。第一個叫"感知",AI要先描述它看到的畫面:馬里奧在哪里,附近有沒有敵人,有沒有坑或者障礙物。第二個叫"推理",AI根據(jù)感知到的情況,一步步分析下一步該怎么做:是跳過障礙、往右走,還是等一下。第三個叫"動作",AI輸出最終決定,比如同時按下"向右"和"跳躍"鍵。
按鍵的執(zhí)行也有講究。因為游戲每秒運行60幀,如果AI每幀都重新思考一次,畫面根本來不及有明顯變化。所以研究團(tuán)隊設(shè)計了一個"幀跳過"機(jī)制:如果AI決定跳躍,就讓這個動作持續(xù)執(zhí)行15幀;如果是普通走路,就執(zhí)行5幀。這樣一來,AI每次決策都能在畫面上產(chǎn)生可觀察的效果。
整個游戲流程中,AI可以使用七種基本按鍵:跳躍、跑步、向上、向下、向左、向右以及什么都不做。每次最多同時按兩個鍵,因此組合起來能產(chǎn)生跑跳、跑步等復(fù)合動作。
五、訓(xùn)練的核心難題:怎么讓AI從"亂按"變成"會玩"?
強(qiáng)化學(xué)習(xí)的基本邏輯并不復(fù)雜:AI做出一個決定,游戲給它一個反饋(做得好就加分,做得不好就扣分),AI根據(jù)這個反饋調(diào)整自己的策略,慢慢學(xué)會做出更好的決定。
在這個研究里,獎勵信號非常簡單:每一步,馬里奧在游戲地圖上向右移動了多少距離,AI就獲得多少獎勵。往右走得越多越好,原地不動或往左走則沒有獎勵甚至可能失去獎勵。這個設(shè)計簡潔而實用,直接反映了"通關(guān)進(jìn)度"這個核心目標(biāo)。
然而,把這套邏輯用到超過100步的長序列決策上,會遇到一個嚴(yán)峻的問題:**功勞歸因難題**。
以烤蛋糕打比方。如果你烤出了一個美味的蛋糕,但你在整個烘焙過程中做了上百個操作——加了多少糖、烤箱溫度設(shè)了多少、烤了多久——最終蛋糕好不好吃,到底是哪幾步的功勞?同樣地,馬里奧順利通過了某段關(guān)卡,到底是哪幾個按鍵操作的貢獻(xiàn)最大?
在只有20到30步的短任務(wù)里,這個問題還算好解決。但在100步以上的長任務(wù)里,前面某一步的決策對后面的影響可能要很久才能體現(xiàn)出來,AI很難搞清楚到底哪步做得好、哪步做得不好。
六、關(guān)鍵突破:一個小小的"評分助手"
研究團(tuán)隊在對比了多種主流訓(xùn)練方法后發(fā)現(xiàn),當(dāng)前最流行的幾種"不需要評分助手"的方法(技術(shù)上叫做"無評論家方法",包括GRPO和Reinforce++)在長序列任務(wù)上表現(xiàn)很差,訓(xùn)練過程極不穩(wěn)定,模型性能幾乎原地踏步。
這個現(xiàn)象的根本原因,正是上面提到的功勞歸因難題。沒有一個專門負(fù)責(zé)"評估當(dāng)前局面好壞"的模塊,模型就很難有效地從長序列經(jīng)驗中學(xué)到東西。
于是研究團(tuán)隊回到了經(jīng)典的PPO算法(一種廣泛使用的強(qiáng)化學(xué)習(xí)方法,全稱是"近端策略優(yōu)化"),并在此基礎(chǔ)上做了兩個關(guān)鍵改造。
第一個改造是引入了一個"輕量級的回合評分員"(技術(shù)上叫做"輕量級回合級評論家")。它的工作非常專一:在每一步?jīng)Q策結(jié)束后,根據(jù)當(dāng)前游戲畫面來評估"現(xiàn)在的局面值多少分",也就是預(yù)測從當(dāng)前位置出發(fā),未來大概還能前進(jìn)多遠(yuǎn)。這個評分員不是另一個龐大的語言模型,而是一個小巧的卷積神經(jīng)網(wǎng)絡(luò)(CNN)——類似于早期深度學(xué)習(xí)里用來識別圖像的那種網(wǎng)絡(luò)。它結(jié)構(gòu)簡單、運算快速,卻足以勝任這個工作。
為什么不用另一個大模型來做評分員?因為那樣會讓整個訓(xùn)練系統(tǒng)的計算量幾乎翻倍,代價太高。而這個小巧的CNN評分員既能有效發(fā)揮作用,又不會帶來沉重的計算負(fù)擔(dān)。這是這項研究在工程設(shè)計上的一個精妙之處。
第二個改造叫做"正優(yōu)勢過濾"。簡單來說,在訓(xùn)練時,如果某個決策被評估為"比預(yù)期更差"(技術(shù)上叫做"負(fù)優(yōu)勢"),就直接跳過不學(xué)習(xí)。只從"做得比預(yù)期好"的經(jīng)驗中更新模型。
這個設(shè)計的理由在于:研究團(tuán)隊發(fā)現(xiàn),從"失敗經(jīng)驗"中學(xué)習(xí)有時候反而會讓模型變得更不穩(wěn)定,就好像一個人反復(fù)回想自己的錯誤反而會越來越焦慮、表現(xiàn)越來越差。通過只聚焦于"做得好"的經(jīng)驗,訓(xùn)練過程變得更穩(wěn)定,模型進(jìn)步也更快。
實驗結(jié)果非常清晰:搭配了輕量CNN評分員和正優(yōu)勢過濾的PPO算法,其訓(xùn)練穩(wěn)定性和最終性能,遠(yuǎn)遠(yuǎn)超過了所有無評分員的方法。
七、AI大模型 vs 從零開始的傳統(tǒng)AI:誰更省力?
確定了訓(xùn)練方法之后,研究團(tuán)隊還做了一個很有意思的對比實驗:直接用視覺語言大模型(已經(jīng)預(yù)訓(xùn)練過)做強(qiáng)化學(xué)習(xí),和從零開始訓(xùn)練一個傳統(tǒng)深度強(qiáng)化學(xué)習(xí)模型,哪個更高效?
這個問題背后有一個直覺上合理的假設(shè):預(yù)訓(xùn)練的大模型已經(jīng)"見過世界",它知道"跳躍"這個概念、知道"障礙物要繞開",這些先驗知識應(yīng)該能幫助它在游戲中更快找到正確策略。
實驗結(jié)果證實了這個假設(shè)。對于從零開始訓(xùn)練的傳統(tǒng)模型,研究團(tuán)隊提供了兩種版本:一種使用原始動作空間(包含22種按鍵組合),另一種使用經(jīng)過人工精心設(shè)計的簡化動作空間(只保留8種最常用的按鍵組合,更貼近人類玩法)。
結(jié)果是,原始動作空間版本的傳統(tǒng)AI學(xué)得極慢,因為22種組合太多了,像是在一本厚厚的菜單里隨機(jī)點菜,大多數(shù)嘗試都是無效的。精簡動作空間之后,傳統(tǒng)AI的學(xué)習(xí)速度大幅提升,但即便如此,它仍然比預(yù)訓(xùn)練大模型的版本需要大約多消耗一倍的訓(xùn)練樣本才能達(dá)到相近的性能。
更值得注意的是,大模型版本根本不需要人工設(shè)計動作空間——它憑借自身的語言理解能力,自然就知道"向右跳躍"是有意義的組合,而"同時按左和右"沒有意義。這種"免費的先驗知識",正是預(yù)訓(xùn)練大模型的核心優(yōu)勢所在。
八、Odysseus框架:把零散發(fā)現(xiàn)變成一套完整的訓(xùn)練流水線
有了上述關(guān)鍵發(fā)現(xiàn),研究團(tuán)隊進(jìn)一步把它們整合成一個完整的訓(xùn)練框架,命名為Odysseus(奧德修斯——希臘神話中以智慧和旅途艱險著稱的英雄,呼應(yīng)了這項研究在漫長序列中探索決策的主題)。
Odysseus的訓(xùn)練流程分為兩個階段,就像一個廚師先打好基本功、再在實戰(zhàn)中精進(jìn)廚藝。
第一階段叫做"監(jiān)督學(xué)習(xí)初始化"。研究團(tuán)隊發(fā)現(xiàn),即使是8B參數(shù)級別的開源大模型(他們使用的是Qwen3-VL-8B-Instruct),在面對《超級馬里奧樂園》時也有認(rèn)知盲區(qū)——比如,有時候分不清馬里奧和敵人,或者無法準(zhǔn)確判斷角色在屏幕上的位置。這是因為游戲畫面在模型的預(yù)訓(xùn)練數(shù)據(jù)中出現(xiàn)得很少。
為了解決這個問題,研究團(tuán)隊從兩段游戲通關(guān)視頻中隨機(jī)抽取了約5000幀畫面,然后用更強(qiáng)大的GPT-o3模型為每幀畫面生成高質(zhì)量的"看、想、做"三段式注釋(描述畫面、分析情況、給出操作建議)。用這些數(shù)據(jù)對模型做了一輪輕量級的監(jiān)督學(xué)習(xí),讓模型先對游戲場景建立基本的感知和理解能力。
這個階段的目標(biāo)不是讓模型學(xué)會"怎么贏",而是讓它學(xué)會"看懂游戲"。就像一個新手廚師,在上灶之前先要認(rèn)識食材——哪個是鹽哪個是糖。至于如何炒出一盤好菜,則留給第二階段。
第二階段是強(qiáng)化學(xué)習(xí)。用第一階段訓(xùn)練好的模型作為起點,在游戲的前五關(guān)同時進(jìn)行訓(xùn)練,采用前面提到的PPO加輕量CNN評分員加正優(yōu)勢過濾的組合。
同時訓(xùn)練多關(guān)的時候,有一個微妙的問題:不同關(guān)卡難度不同,簡單關(guān)卡的游戲局通常更長(因為馬里奧能活得更久),如果不加處理,簡單關(guān)卡的數(shù)據(jù)就會在訓(xùn)練批次里占據(jù)更多比例,導(dǎo)致模型把大部分學(xué)習(xí)資源花在容易的關(guān)卡上,卻忽視了困難關(guān)卡。
為此,研究團(tuán)隊設(shè)計了一套"自動課程"機(jī)制:在每次收集完訓(xùn)練數(shù)據(jù)后,統(tǒng)計各關(guān)卡的平均游戲局長度,然后在下一批訓(xùn)練中,對平均局長更短(說明更難、AI在這關(guān)表現(xiàn)更差)的關(guān)卡分配更多的訓(xùn)練資源,對平均局長更長(說明更容易)的關(guān)卡減少資源投入。這樣,整個訓(xùn)練過程會動態(tài)地向更難的關(guān)卡傾斜,避免模型在容易的關(guān)卡上原地踏步。
九、最終成績:碾壓頂級商用模型
訓(xùn)練完成后,研究團(tuán)隊進(jìn)行了全面的性能測試,結(jié)果相當(dāng)亮眼。
他們把Odysseus與多款頂級商用模型在游戲前五關(guān)上進(jìn)行了對比,衡量指標(biāo)是"馬里奧從關(guān)卡起點向右走了多遠(yuǎn)的距離"(稱為游戲進(jìn)度)。GPT-5.4(OpenAI的頂級模型)的平均成績約為310,GLM-4.6V(智譜AI的旗艦多模態(tài)模型)的成績約為513,Qwen3-VL-8B-Instruct基礎(chǔ)模型(Odysseus的起點)的成績約為270,而Odysseus訓(xùn)練后的成績達(dá)到了約1512。
換句話說,Odysseus的表現(xiàn)比GPT-5.4高出約5倍,比GLM-4.6V高出約3倍,比自己的訓(xùn)練起點高出約6倍。從每關(guān)的詳細(xì)數(shù)據(jù)來看,Odysseus在所有五個訓(xùn)練關(guān)卡上都取得了大幅領(lǐng)先,有些關(guān)卡的進(jìn)度甚至接近該關(guān)卡的理論最大值。
研究團(tuán)隊還對比了兩個簡化版本:只做了監(jiān)督學(xué)習(xí)初始化、沒有強(qiáng)化學(xué)習(xí)的"Odysseus-SFT",以及只做了強(qiáng)化學(xué)習(xí)、跳過初始化步驟的"Odysseus-Zero"。結(jié)果顯示,單獨的監(jiān)督學(xué)習(xí)初始化并不能明顯提升游戲成績(約261分,和基礎(chǔ)模型的270分差不多);而跳過初始化直接做強(qiáng)化學(xué)習(xí)的版本成績約為1355分,已經(jīng)相當(dāng)不錯,但仍比完整版的Odysseus(1512分)低一些。這證明了兩個階段的組合是必要的——監(jiān)督學(xué)習(xí)打好基礎(chǔ),強(qiáng)化學(xué)習(xí)實現(xiàn)質(zhì)的飛躍,兩者缺一不可。
十、學(xué)會了馬里奧,還能玩其他游戲嗎?
一個成功的AI系統(tǒng)不應(yīng)該只會死記硬背,還要有舉一反三的能力。研究團(tuán)隊對Odysseus的泛化能力進(jìn)行了三個層次的測試。
第一個層次是"同款游戲、不同起點"。研究團(tuán)隊手動收集了訓(xùn)練關(guān)卡(前五關(guān))中的50個非訓(xùn)練起點狀態(tài),測試Odysseus從這些狀態(tài)出發(fā)能走多遠(yuǎn)。結(jié)果顯示,相比基礎(chǔ)模型,Odysseus平均提升了32.2%。
第二個層次是"同款游戲、從未見過的關(guān)卡"。他們在剩余五個訓(xùn)練中從未出現(xiàn)過的關(guān)卡里,同樣手動收集了50個狀態(tài)進(jìn)行測試。Odysseus的平均提升幅度達(dá)到41.5%,甚至比在訓(xùn)練關(guān)卡上的提升幅度還要大——這說明模型學(xué)到的不只是某些特定關(guān)卡的"套路",而是更通用的游戲感知和決策能力。
第三個層次是"完全不同的游戲"。研究團(tuán)隊把Odysseus放到了另一款馬里奧游戲《超級馬里奧兄弟》(Super Mario Bros.)的全部32關(guān)中進(jìn)行測試。這款游戲的視覺風(fēng)格、關(guān)卡設(shè)計和《超級馬里奧樂園》都有明顯不同。結(jié)果是,Odysseus在這32關(guān)上平均比基礎(chǔ)模型提升了23.1%。
這意味著,Odysseus不僅僅在背《超級馬里奧樂園》的"劇本",而是真的在某種程度上學(xué)到了更普遍的"玩橫版動作游戲"的思維方式。
十一、學(xué)了游戲,會不會忘記其他本領(lǐng)?
這是一個非常合理的擔(dān)憂:一個模型花了幾千萬次游戲交互來學(xué)玩馬里奧,會不會變成一個"只會玩游戲"的偏科生,在其他任務(wù)上變差?
為了驗證這一點,研究團(tuán)隊在三個通用多模態(tài)基準(zhǔn)測試上評估了Odysseus系列模型。這三個測試分別考察多學(xué)科視覺推理能力(MMMU)、數(shù)學(xué)視覺推理(MathVision)和現(xiàn)實世界空間理解(RealWorldQA)。
結(jié)果非常讓人放心:Odysseus及其各個變體在這三個測試上的成績,和訓(xùn)練前的基礎(chǔ)模型幾乎完全相同。MMMU上基礎(chǔ)模型得69.00分,Odysseus得70.77分;MathVision上基礎(chǔ)模型54.64分,Odysseus得53.52分(略有下降但在誤差范圍內(nèi));RealWorldQA上兩者都是71.11分。總體而言,大量的游戲訓(xùn)練既沒有讓模型變聰明,也沒有讓它在其他領(lǐng)域變笨——它保住了自己的"老本行"。
這個結(jié)論對于將來把強(qiáng)化學(xué)習(xí)應(yīng)用到更多實際場景中非常重要:你可以針對某個特定任務(wù)對大模型進(jìn)行深度強(qiáng)化學(xué)習(xí)訓(xùn)練,而不必?fù)?dān)心這會損害模型在其他任務(wù)上的能力。
十二、這一切對AI的未來意味著什么?
歸根結(jié)底,這項研究的意義不僅僅在于"讓AI學(xué)會了玩馬里奧"。它回答了一個更基礎(chǔ)、更重要的問題:強(qiáng)化學(xué)習(xí)能不能被可靠地用于訓(xùn)練視覺語言大模型去完成復(fù)雜的長序列決策任務(wù)?
在這項研究之前,答案是模糊的?,F(xiàn)有方法要么依賴大量人工示范數(shù)據(jù),要么只能處理幾十步以內(nèi)的短任務(wù),用在100步以上的長任務(wù)上就會出現(xiàn)訓(xùn)練不穩(wěn)定、效果不好的問題。
這項研究給出的答案是:可以,但需要正確的配方。正確的配方包括三個關(guān)鍵成分:一個專為長序列任務(wù)設(shè)計的輕量評分員(CNN回合級評論家)、一個只從好經(jīng)驗中學(xué)習(xí)的機(jī)制(正優(yōu)勢過濾),以及一個能在多任務(wù)之間自動平衡學(xué)習(xí)資源的動態(tài)課程(基于逆軌跡長度加權(quán)的自動課程)。
更深層的啟示在于:預(yù)訓(xùn)練大模型身上積累的海量世界知識,是一筆巨大的財富。當(dāng)你把這筆財富和強(qiáng)化學(xué)習(xí)結(jié)合起來,就能以遠(yuǎn)比"從零開始"少得多的訓(xùn)練成本,實現(xiàn)復(fù)雜的決策能力——大約只需要一半的訓(xùn)練數(shù)據(jù),而且不需要人工精心設(shè)計動作空間。
這項研究為將來開發(fā)能在復(fù)雜動態(tài)環(huán)境中自主行動的AI代理,提供了一套經(jīng)過驗證的、可復(fù)現(xiàn)的技術(shù)路線圖。Odysseus作為一個開放框架,也意味著其他研究者可以在此基礎(chǔ)上繼續(xù)推進(jìn),無論是更復(fù)雜的游戲、更長的任務(wù),還是真實世界的操控場景。
當(dāng)然,這項研究也有其局限性。目前的訓(xùn)練只在游戲的前五關(guān)進(jìn)行,測試到全部12關(guān)的全面泛化效果還需要進(jìn)一步驗證。此外,AI的游戲進(jìn)度雖然大幅超越了商用頂級模型,但距離熟練人類玩家的水平仍有差距——畢竟人類玩家哪怕從沒玩過這款游戲,通常也能比較輕松地通關(guān)。這說明在感知精度、時機(jī)判斷等方面,AI還有相當(dāng)大的提升空間。
Q&A
Q1:Odysseus用的是什么基礎(chǔ)模型,訓(xùn)練量有多大?
A:Odysseus以Qwen3-VL-8B-Instruct作為基礎(chǔ)模型,這是一款開源的80億參數(shù)視覺語言模型。整個強(qiáng)化學(xué)習(xí)訓(xùn)練階段總共進(jìn)行了約數(shù)千萬次游戲交互,訓(xùn)練步數(shù)約為190步(每步包含1024條游戲軌跡)。監(jiān)督學(xué)習(xí)初始化階段則使用了約5058條數(shù)據(jù),只訓(xùn)練了1個完整輪次,非常輕量。
Q2:正優(yōu)勢過濾是怎么工作的,為什么有效?
A:正優(yōu)勢過濾的意思是:在訓(xùn)練時,如果某一步?jīng)Q策被評為"比預(yù)期更差"(即優(yōu)勢值為負(fù)),就直接跳過,不用這條經(jīng)驗來更新模型。只有當(dāng)某步?jīng)Q策比預(yù)期做得更好時,模型才從中學(xué)習(xí)。研究發(fā)現(xiàn),負(fù)優(yōu)勢樣本容易引起訓(xùn)練不穩(wěn)定——模型試圖"避免做壞事"有時反而會讓整體表現(xiàn)下滑。過濾掉這些樣本后,訓(xùn)練曲線更平滑,最終性能也更好。
Q3:超級馬里奧樂園里的獎勵信號是怎么設(shè)計的?
A:獎勵信號設(shè)計得非常簡單直接:每一步,馬里奧在游戲地圖橫軸方向(即向右)前進(jìn)了多少距離,AI就獲得多少獎勵分?jǐn)?shù)。具體來說,用游戲內(nèi)存中馬里奧當(dāng)前的X坐標(biāo)減去上一步的X坐標(biāo)。向右前進(jìn)就有正獎勵,原地不動或后退則沒有正獎勵。這種設(shè)計不需要人工標(biāo)注"哪一步做得好",完全由游戲狀態(tài)自動生成,是一種稀疏而密集的混合信號,適合長序列訓(xùn)練。
圖片
-
泰晶科技: 泰晶科技股份有
最大降水100.5毫米 貴陽南
全紅嬋將缺席2026全國跳水冠
-
馬曉旭:希望隊員能夠把主場
喜相逢集團(tuán)(02473.HK)完成先
瑞芯微:一季度凈利潤3.29億 -
一箭八星!我國成功發(fā)射吉星
生意社:4月14日獨山子石化P
七旬老人二次腦梗后中西醫(yī)結(jié)
熱文:通策醫(yī)療12倍高溢價關(guān)
每日信息:猛龍官方:球隊已
外交部:中方始終支持阿巴雙 -
頭條:從賞花“流量”到消費
日本電氣(Nihon Denkei)前
原油跳水,黃金拉升,美股期
引起尿血的不一定是腎結(jié)石,
焦點熱文:滬深交易所新增主
興業(yè)銀行副行長曾曉陽:客戶
精彩推送
- 訊息:晶采觀察丨盤點“五一”3個“微表情”見證活力中國
- 每日速讀!普林斯頓大學(xué):強(qiáng)化學(xué)習(xí)實現(xiàn)視覺語言模型超百步游戲決策能力提升
- 雷神科技:海爾集團(tuán)公司及其一致行動人持股比例已降至30.00%
- 時訊:2026倫敦世乒賽:日本、中國臺北男團(tuán)鎖定獎牌,中國男團(tuán)8日迎關(guān)鍵戰(zhàn)
- 泰晶科技: 泰晶科技股份有限公司股票交易異常波動公告
- 三柏碩:總經(jīng)理文珂辭職
- 美國科技巨頭現(xiàn)金儲備告急!AI戰(zhàn)略投資下自由現(xiàn)金流降至十年最低 今日熱搜
- 離婚1年后,女子再次思念前夫,發(fā)了句“在干嘛”,他立馬回復(fù):你要是再多說一句話,明天我就找你復(fù)婚!
- 今日播報!戈登的轉(zhuǎn)會傳聞?埃迪-豪:這件事不在我的負(fù)責(zé)范疇
- NBA季后賽G3明天5月9日賽程:尼克斯沖擊賽點,馬刺PK森林狼
- 港股異動 | 京玖康療(00648)漲超6% 控股股東擬配售所持有最多4.45億股公司股份
- 昔日網(wǎng)紅雪糕鐘薛高2110萬元賣了,創(chuàng)始人:能多還點錢了
- 《中國低空經(jīng)濟(jì)發(fā)展指數(shù)報告2026》發(fā)布
- 全場轟11記Ace球!鄭欽文兩盤橫掃30號種子,躋身羅馬站32強(qiáng)
- 新華視點|平凡堅守 微光溫暖山河
- 內(nèi)飾迎巨變 新款奧迪Q4 E-Tron最新消息曝光
- 月壤研究有了新發(fā)現(xiàn),碳質(zhì)小行星撞擊地月系統(tǒng)時間晚于預(yù)期 熱推薦
- 乘經(jīng)濟(jì)回暖之勢,解長壽時代之需
- 焦點速遞!五一寶藏小城集體出圈,江蘇民宿預(yù)訂量全國前五其中宿遷增速第一
- 看熱訊:誤點每月199元扣費鏈接 工行南京江東中路支行幫老人順利追回可疑扣款
- 高血壓患者如何健康運動_熱資訊
- 京北四區(qū)63條受災(zāi)電網(wǎng)線路全方位升級-熱頭條
- 乘客多次下車取現(xiàn)司機(jī)果斷報警_熱訊
- 好萊客2025年凈利1467.24萬減少81.78% 董事長沈漢標(biāo)薪酬193.4萬
- 異環(huán)噩夢纏身異象委托怎么做|滾動
- 袁友江:今日黃金走勢分析及操作建議
- 最大降水100.5毫米 貴陽南部多地出現(xiàn)暴雨天氣 每日消息
- 微眾銀行持續(xù)推進(jìn)打擊“金融黑灰產(chǎn)”行動,偽冒涉貸詐騙系列案件集中宣判
- 一屏觀天下,全媒通萬象——環(huán)球傳媒網(wǎng),你的24小時資訊生活門戶
- 市場網(wǎng):多維布局全域資訊 專業(yè)賦能市場生態(tài)
- 煥新產(chǎn)品矩陣 長城汽車4月銷售新車10.63萬輛 同比增長6.25%
- 春晚同款“打工人”空降夫子廟,百年銀樓重新定義“新質(zhì)生產(chǎn)力”
- 經(jīng)濟(jì)大省調(diào)研行丨耕耘沃野蓄力豐收——河南多地農(nóng)業(yè)生產(chǎn)觀察_報資訊
- 用戶的“口袋指揮部”:OpenAI被曝將推出手機(jī)版Codex
- 5月1日生意社煉焦煤基準(zhǔn)價為1516.25元/噸
- 每日訊息!超穎電子:融資凈買入1269.37萬元,融資余額6.52億元
- 分析:日元回升暗示可能進(jìn)行了干預(yù)
- 金陵巴士·食光專線,出發(fā)!
- 五一期間,巴公房子、黎黃陂路周邊增加30座移動公廁|焦點要聞
- 云南寧蒗農(nóng)村商業(yè)銀行被罰29.8萬元:違反賬戶管理規(guī)定等
- 聯(lián)合利華剝離食品業(yè)務(wù)期間銷售額逆勢增長 今日熱文
- 北斗導(dǎo)航上市公司十強(qiáng)是哪幾家_2026年3月25日成交量排行榜|短訊
- 全紅嬋將缺席2026全國跳水冠軍賽-每日快看
- 每日報道:水產(chǎn)的3大龍頭股簡要分析(2026/3/25)
- 每日關(guān)注!極米科技:累計回購約107.99萬股
- 滾動:瑞銀:中國石油股份(00857)首季凈利潤符預(yù)期 料盈利增長保持韌性
- 計算機(jī)行業(yè)歸母凈利增幅居首 一季報增長王曝光(附名單)
- 從“營銷員”到“創(chuàng)享家”:開啟事業(yè)與生活新賽道——中荷人壽發(fā)布“中荷創(chuàng)享家”代理人品牌
- 【快播報】科技賦能,僑銀股份2025年經(jīng)營性現(xiàn)金流大增349.74%
- 重點聚焦!生意社:4月30日山東地區(qū)異丁醛行情趨穩(wěn)
- 馬曉旭:希望隊員能夠把主場優(yōu)勢轉(zhuǎn)化成動力,展現(xiàn)自己的能力
- 美團(tuán)首次披露食安巡檢數(shù)據(jù):累計巡檢130余萬次,2.4萬餐飲商家完成整改
- 前沿?zé)狳c:德國阿姨跨越萬里來漢只為體驗中國正骨 4年肩頸頑疾幾分鐘緩解
- 每日快看:國家金融監(jiān)督管理總局臨夏監(jiān)管分局核準(zhǔn)馬承中國銀行股份有限公司臨夏分行副行長任職資格
- 券商、房地產(chǎn),異動拉升!000783,直線漲停!
- 業(yè)績表現(xiàn)強(qiáng)勁 福特汽車公司發(fā)布2026年第一季度財報
- 酒價內(nèi)參4月30日價格發(fā)布:習(xí)酒君品小幅上漲1元 焦點精選
- 焦點快報!非遺+市集+機(jī)器人!“五一”假期玩轉(zhuǎn)蘇州甪直古鎮(zhèn)
- 2026年中國網(wǎng)絡(luò)文明大會將聚焦AI應(yīng)用倫理安全
- 4月30日生意社針葉木漿基準(zhǔn)價為5083.33元/噸
- 每日速讀!長株潭共塑全域文旅品牌 跨城打卡“觸手可及”
- 鞍鋼股份一季度營收降12.2% 虧損擴(kuò)大至14.6億元-焦點熱門
- 焦點熱門:杭州改善購房族迎利好 賣舊房買新房 公積金貸款次數(shù)可以核減
- 蘇比門迪12月以來各項賽事首發(fā)31次,為五大聯(lián)賽中場同期最多
- 新資訊:上海石油化工股份(00338)發(fā)布一季度業(yè)績 歸母凈利潤約4.15億元 同比扭虧為盈
- 億萬富翁比爾·阿克曼旗下Pershing Square雙重上市落地 募資50億美元后仍面臨市場考驗
- 當(dāng)前信息:蔚來李斌談設(shè)計:我們更關(guān)注背后的思考而不是簡單的表象
- 片仔癀:2025年歸母凈利潤同比下降27.49%,擬10派15.7元
- 精選!尋趣江南·“五一”潮游記丨70余個攤位美食飄香,浮橋這個夜集市煥新升級
- 香港沙田新城市廣場購物玩樂特別企劃迎五一
- 士蘭微(600460.SH):2026年一季度歸母凈利潤2.09億元,同比增加40.57%_每日報道
- PriceSeek提醒:尚能石化石油焦價格下調(diào)|新資訊
- 南京熊貓電子股份(00553)發(fā)布一季度業(yè)績 歸母凈虧損約1333.49萬元 同比收窄62.2%
- ?《萬智牌》數(shù)字游戲開發(fā)者成立工會 應(yīng)對孩之寶大規(guī)模裁員 觀天下
- 人民之心·總書記談?wù)冇^②|一詞一觀:真抓實干 每日信息
- 北京城六區(qū)發(fā)布義務(wù)教育入學(xué)政策 每日消息
- Steam開啟東方游戲文化周 國產(chǎn)佳作集體史低! 熱推薦
- 市民建議鹿沖關(guān)森林公園停車場增設(shè)充電樁,官方回應(yīng)來了→|融媒問政·市民關(guān)注
- 英國富時100指數(shù)跌至10285點 創(chuàng)2026年4月以來新低 焦點速訊
- openJiuwen開源社區(qū)首發(fā)Coordination Engineering全棧技術(shù)體系,率先開啟AI團(tuán)隊協(xié)作新紀(jì)元
- 一加 Ace 6 至尊版正式發(fā)布:為射擊游戲而生的雙形態(tài)新裝備
- 主動拒絕生意,反而火遍歐美:以規(guī)則筑壁壘,以真愛贏人心
- 南京公交車“變身”充電寶
- 【焦點熱聞】“五一”臨近 旅游升溫
- 第8輪中超未扣分純凈版!可能才是申花球迷最想要積分榜
- 產(chǎn)量提升 + 油價走高,助推Galp核心盈利指標(biāo)大增
- 盛屯礦業(yè): 盛屯礦業(yè)集團(tuán)股份有限公司關(guān)于參加廈門轄區(qū)上市公司2025年年報業(yè)績說明會暨投資者網(wǎng)上集體接待日活動的公告 天天快報
- 最新:生意社:4月27日華北地區(qū)醋酸行情弱勢下行
- 從試點到示范 吉林省高速公路收費站數(shù)字化提升成果顯著 每日觀點
- 蘇博特:一季度凈利潤3018.70萬元 同比增長24.08%
- 【焦點熱聞】孩子主動表達(dá)的語言發(fā)展支持方法
- 微動態(tài)丨國家能源局:我國電動汽車充電基礎(chǔ)設(shè)施總數(shù)已達(dá)2148.1萬個
- 三部門發(fā)文規(guī)范慈善組織募捐成本支出 焦點速遞
- 焦點資訊:??狄圆铻槊郊せ钹l(xiāng)村振興新動能
- 焦點消息!「Hi, I’m KAI」——超維動力發(fā)布全球最高自由度人形機(jī)器人
- 重慶妹兒期待去湖南就業(yè):想體驗不同的風(fēng)土人情
- 通訊!酒價內(nèi)參4月27日價格發(fā)布:精品茅臺上漲5元
- 菌養(yǎng)健康 上醫(yī)而行 | 健康中國公益行·華菌腸康行動暨衛(wèi)康生物集團(tuán)二十七周年慶典盛大啟幕
- 貴陽今天還要下雨
- 4月27日生意社石油焦基準(zhǔn)價為3161.00元/噸
金融
財經(jīng)
要聞
公司
一系列金融支持民營經(jīng)濟(jì)、民營企業(yè)發(fā)展的政策舉措正密集出臺加速落地。
詳細(xì)>>9月份以來,人民幣匯率持續(xù)走低。9月8日,離岸人民幣對美元匯率盤中最
詳細(xì)>>國家統(tǒng)計局發(fā)布的數(shù)據(jù)顯示,8月份,全國居民消費價格指數(shù)(CPI)同比上
詳細(xì)>>國家統(tǒng)計局9月9日發(fā)布的數(shù)據(jù)顯示,8月全國居民消費價格指數(shù)(CPI)同比
詳細(xì)>>今年前8個月,鄭州商品交易所累計成交量約25億手,同比增長64%。這是記
詳細(xì)>>中國電影觀眾滿意度調(diào)查2023年暑期檔調(diào)查結(jié)果顯示,暑期檔電影觀眾滿意
詳細(xì)>>
















營業(yè)執(zhí)照公示信息