谷歌Genie 3模型支持文本生成3D可實時交互世界

  近日,谷歌Deepmind發(fā)布Genie 3,這是一個世界模型,可根據(jù)文本提示生成實時交互的3D視頻流。

  初代Genie于2024年初發(fā)布,能夠以256×256的分辨率生成2D橫向卷軸游戲,但該模型穩(wěn)定性不佳,只能穩(wěn)定運行幾十幀、幾秒的內(nèi)容。隨后Genie 2于去年12月發(fā)布,此時它已經(jīng)能夠生成3D世界模型,這就像是一款3D游戲,玩家可以基于鼠標(biāo)和鍵盤操縱人物在場景里面進行探索。不過當(dāng)時該版本輸出的世界比較模糊,同時細節(jié)也較少。

  相比之下,Genie 3是一個巨大的飛躍,它以720p 24fps的速度輸出高度逼線 分鐘內(nèi)能保持完全一致,并在幾分鐘內(nèi)保持“基本”一致。值得一提的是,Genie 3生成的虛擬世界已經(jīng)非常趨近真實世界,如門可以打開,運動的物體具有真實的動態(tài)陰影,水面擾動時也會產(chǎn)生水花、漣漪之類的特效。

  此外,Genie 3還增加了對“可提示的世界事件”的支持,如能夠改變天氣、添加新物體和角色等。谷歌透露,Genie 3的端到端控制延遲為50毫秒,已經(jīng)非常接近24 fps平板游戲的理論最低延遲41.67毫秒。

  不過,Genie 3目前還存在不少局限,如無法模擬多個獨立智能體之間的復(fù)雜交互,無法以完美的地理精度模擬真實世界的位置,而且通常只有在文本提示中明確提供才能生成清晰易讀的文本。谷歌將這些問題描述為“持續(xù)的研究挑戰(zhàn)”。

谷歌Genie 3模型支持文本生成3D可實時交互世界(圖1)

  特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

  每戶補助7.2萬元?9月1日起,農(nóng)村“兩改一入戶”落地!村干部每家每戶統(tǒng)計住房?兩種情況全面禁止建房!

  男子除夕夜殺害7個月侄女案開庭,弟弟:案發(fā)前哥哥曾提醒我接走孩子,但自己未理會錯過關(guān)鍵暗示

  王俊杰談郭士強:網(wǎng)上的傳言都不是真的,罵我更能證明對我們年輕隊員有要求

  《編碼物候》展覽開幕 北京時代美術(shù)館以科學(xué)藝術(shù)解讀數(shù)字與生物交織的宇宙節(jié)律

  ag九游會官方網(wǎng)站