一句線D世界,可編輯、可仿線年世界人工智能大會(huì)(WAIC)上,騰訊正式發(fā)布
——首個(gè)開(kāi)源且兼容傳統(tǒng)CG管線的可漫游世界生成模型。在騰訊混元3D生成引擎上即可體驗(yàn),海內(nèi)外均可使用;正式開(kāi)源后,也可在Hugging Face等開(kāi)源社區(qū)模型本地部署體驗(yàn)。
從文本或圖像生成沉浸式且可交互的3D世界,是計(jì)算機(jī)視覺(jué)與圖形學(xué)領(lǐng)域的核心挑戰(zhàn)。在理解混元世界生成模型的創(chuàng)新之前,不妨先看看現(xiàn)有技術(shù)面臨的挑戰(zhàn)?,F(xiàn)有世界生成方法主要分為兩類:
想象一下制作動(dòng)畫片,傳統(tǒng)的視頻生成方法就像是一幀一幀地畫畫。雖然能畫出豐富多彩的內(nèi)容,但存在缺乏3D一致性、逐幀渲染成本高昂、無(wú)法與現(xiàn)有3D建模工具兼容等致命問(wèn)題。
直接生成3D形式的世界場(chǎng)景,而不是視頻序列幀。這種方法雖具備更好的3D結(jié)構(gòu)的一致性,卻受限于3D訓(xùn)練數(shù)據(jù)稀缺與3D表征內(nèi)存效率低下等問(wèn)題。
此外,現(xiàn)有3D生成方法往往將場(chǎng)景表示為一個(gè)整體,無(wú)法對(duì)場(chǎng)景中的物體進(jìn)行單獨(dú)交互。
混元3D世界模型1.0(HunyunWorld-1.0)是融合兩類方法優(yōu)勢(shì)的創(chuàng)新框架,能夠依據(jù)文本或圖像輸入生成沉浸式、可探索、可交互的3D場(chǎng)景。有以下三大核心優(yōu)勢(shì):
?。和ㄟ^(guò)全景圖將復(fù)雜的3D世界高效地表征為360度覆蓋的2D圖像代理,為后續(xù)生成完整的3D世界建模提供了豐富的空間信息;2、
?。荷傻氖澜鐖?chǎng)景支持導(dǎo)出標(biāo)準(zhǔn)的3D網(wǎng)格格式,能夠無(wú)縫導(dǎo)入現(xiàn)有3D建模軟件和主流游戲引擎,用于二次開(kāi)發(fā);3、
?。和ㄟ^(guò)物體解耦的3D建模方式,生成物體和背景可分離的3D世界,支持精準(zhǔn)的物體級(jí)交互控制,提升了生成世界的操作自由度。HunyunWorld-1.0采用生成式架構(gòu),結(jié)合全景圖像合成與分層3D重建技術(shù),實(shí)現(xiàn)了高質(zhì)量、沉浸式的可漫游3D場(chǎng)景生成。
該模型通過(guò)語(yǔ)義分層的3D場(chǎng)景表征與生成算法,同時(shí)支持”文生世界”和”圖生世界”兩種生成方式。主要技術(shù)框架包括三部分,即全景世界代理生成、基于語(yǔ)義的世界分層與分層世界重建。
3D全景可以捕獲場(chǎng)景的360°視覺(jué)信息,可通過(guò)等距柱狀投影(ERP)轉(zhuǎn)化為全景圖像,這使其成為3D世界生成的中間媒介。
HunyunWorld-1.0正是通過(guò)文本或圖像條件生成全景圖,作為驅(qū)動(dòng)3D世界生成的代理媒介。
將文本輸入(prompt)通過(guò)文本編碼器(Text Encoder)轉(zhuǎn)化為擴(kuò)散模型的輸入條件。
該潛在表示會(huì)與隨機(jī)噪聲的潛在表示(Noisy Latent)拼接,輸入擴(kuò)散模型進(jìn)行去噪,生成最終的3D全景世界代理。
相較于通用圖像生成,全景圖生成面臨兩大獨(dú)特挑戰(zhàn):球面投影導(dǎo)致的幾何畸變以及全景拼接引發(fā)的邊界不連續(xù)問(wèn)題。針對(duì)上述挑戰(zhàn),HunyunWorld-1.0引入兩項(xiàng)關(guān)鍵策略:
在訓(xùn)練階段,以一定概率和位移比例對(duì)真實(shí)全景圖像進(jìn)行隨機(jī)垂直偏移,以增強(qiáng)對(duì)視點(diǎn)變化的魯棒性。
在推理階段,在去噪過(guò)程中采用環(huán)形填充(Circular Padding)與漸進(jìn)混合(Progressive Blending)技術(shù),確保全景圖邊界的結(jié)構(gòu)與語(yǔ)義連續(xù)性。
盡管全景圖能有效充當(dāng)世界代理,但其無(wú)法提供被遮擋區(qū)域的信息,無(wú)法實(shí)現(xiàn)自由探索(如視角平移)。
為了解決該問(wèn)題,HunyunWorld-1.0創(chuàng)新性地提出了”語(yǔ)義層次化3D場(chǎng)景表征及生成算法” ,將復(fù)雜的3D世界解構(gòu)為不同的語(yǔ)義層級(jí),實(shí)現(xiàn)前景與背景、地面與天空的智能分離,并基于該分層表示搭建3D世界。
為實(shí)現(xiàn)語(yǔ)義分層的自動(dòng)化,此研究利用智能體(VLM視覺(jué)語(yǔ)言模型)識(shí)別可交互物體,然后采用”洋蔥剝離法”分離天空、背景、前景,最終達(dá)到前景物體與背景分離,地面與天空分層處理的效果。
該智能化的世界分層方法,主要包含三階段流程:實(shí)例識(shí)別(檢測(cè)場(chǎng)景中的獨(dú)立物體),圖層分解(將物體分配到語(yǔ)義層),圖層補(bǔ)全(生成被遮擋區(qū)域的合理內(nèi)容)。通過(guò)該分層方案支持后續(xù)的分層3D重建。
基于全景世界代理,研究人員預(yù)測(cè)各圖層的深度并執(zhí)行跨圖層深度對(duì)齊。采用深度估計(jì)模型(如MoGe或UniK3D)獲取原始全景圖基礎(chǔ)深度圖,并對(duì)后續(xù)圖層分別預(yù)測(cè)深度,最終通過(guò)跨層深度匹配技術(shù)將各層深度向基礎(chǔ)深度圖對(duì)齊。
具體而言,該跨層深度方法最小化不同圖層重疊區(qū)域的深度距離,確保跨圖層深度關(guān)系一致性,維持重建3D場(chǎng)景的幾何連貫性。
給定分層圖像和深度對(duì)齊后的各層深度,研究采用WorldSheet提出的網(wǎng)格表示(Grid Mesh Representation) 進(jìn)行薄板變形(Sheet Warping) ,將3D全景轉(zhuǎn)換為3D網(wǎng)格進(jìn)行實(shí)現(xiàn)世界重建。
針對(duì)每個(gè)前景層,HunyunWorld-1.0提供直接投影法、3D生成兩種重建策略。
前者基于物體深度與語(yǔ)義掩碼,通過(guò)薄板變形將前景物體直接轉(zhuǎn)換為3D網(wǎng)格,研究提出極區(qū)平滑處理(Polar Region Smoothing)與網(wǎng)格邊界抗鋸齒(Mesh Boundary Anti-Aliasing)來(lái)保證重建世界的質(zhì)量。
后者則借助3D物體生成大模型(如Hunyuan3D 2.5),創(chuàng)建高質(zhì)量3D物體資產(chǎn)后通過(guò)自動(dòng)布景算法將生成物體植入3D場(chǎng)景中。
對(duì)于背景層全景圖,研究人員采用自適應(yīng)深度壓縮以確保深度分布合理性,再通過(guò)薄板變形轉(zhuǎn)換為3D網(wǎng)格。天空層則是使用天空?qǐng)D像重建,其深度設(shè)為大于背景深度的固定值,確保天空深度的合理性。
除通過(guò)薄板變形獲取傳統(tǒng)網(wǎng)格表示外,HunyunWorld-1.0也支持HDRI環(huán)境貼圖(HDRI Environment Map)表示法,以在VR應(yīng)用中實(shí)現(xiàn)更逼真的天空光照效果。
盡管分層世界重建提供了初步的場(chǎng)景探索能力,其仍面臨遮擋視圖與探索范圍受限(Limited Exploration Range) 的挑戰(zhàn)。
為突破此局限,HunyunWorld-1.0提出基于視頻生成的視圖補(bǔ)全模型 Voyager,支持空間一致的世界拓展與長(zhǎng)距離探索,從初始場(chǎng)景視圖和用戶指定相機(jī)軌跡中,合成空間連貫的RGB-D視頻。
研究提出可擴(kuò)展的世界緩存機(jī)制,以維持空間一致性并抑制視覺(jué)幻象(Visual Lallucination)。
該機(jī)制利用生成的3D場(chǎng)景構(gòu)建一個(gè)初始的3D點(diǎn)云緩存,然后將此緩存投影到目標(biāo)相機(jī)視圖中,為擴(kuò)散模型生成提供指導(dǎo)。生成的幀不斷更新并擴(kuò)展世界緩存,從而創(chuàng)建一個(gè)閉環(huán)系統(tǒng),該系統(tǒng)支持任意相機(jī)軌跡,同時(shí)保持幾何一致性。
為解決單次生成長(zhǎng)距離視頻的局限,提出結(jié)合平滑視頻采樣的世界緩存方案,用于自回歸世界探索。
得益于HunyuanWorld-1.0的分層3D網(wǎng)格表示法,生成的3D網(wǎng)格世界能夠高效支持多種專業(yè)應(yīng)用場(chǎng)景,包括虛擬現(xiàn)實(shí)(VR)、游戲開(kāi)發(fā)、物體編輯和物理仿真四大核心領(lǐng)域。
通過(guò)全景世界代理(panoramic world proxies),HunyuanWorld-1.0生成360°無(wú)縫覆蓋的環(huán)境,可直接部署至主流VR平臺(tái)如Apple Vision Pro,支持自由視角旋轉(zhuǎn)和探索,適用于虛擬旅游、教育培訓(xùn)等場(chǎng)景,提供真實(shí)的臨場(chǎng)感。
生成的3D網(wǎng)格世界導(dǎo)出為標(biāo)準(zhǔn)格式,無(wú)縫集成行業(yè)引擎如Unity和Unreal Engine,支持快速構(gòu)建多樣化場(chǎng)景,包括外星景觀、中世紀(jì)遺跡和未ag九游會(huì)官方 九游AG來(lái)都市,加速游戲原型開(kāi)發(fā)和內(nèi)容迭代,同時(shí)保持高保真視覺(jué)質(zhì)量。
基于解耦對(duì)象表示(disentangled object representations),用戶可在場(chǎng)景中對(duì)單個(gè)元素進(jìn)行精確3D操控,包括平移、旋轉(zhuǎn)和縮放,而不會(huì)破壞環(huán)境整體性。
這為交互式設(shè)計(jì)提供了靈活性,例如在虛擬環(huán)境中調(diào)整物體布局或創(chuàng)建定制場(chǎng)景,適用于建筑預(yù)覽、藝術(shù)創(chuàng)作等領(lǐng)域,提升用戶控制的自由度。
導(dǎo)出的分層網(wǎng)格兼容主流物理引擎,支持碰撞檢測(cè)、剛體動(dòng)力學(xué)和流體模擬等真實(shí)世界行為仿真。這確保了場(chǎng)景元素(如物體和地形)的物理屬性準(zhǔn)確再現(xiàn),適用于自動(dòng)駕駛測(cè)試、工程模擬等專業(yè)領(lǐng)域,實(shí)現(xiàn)從視覺(jué)到行為的全鏈路一致性。
Github項(xiàng)目地址:項(xiàng)目主頁(yè):體驗(yàn)地址:Hugging Face模型地址: