久久热在线视频只有精品,人人妻人人澡人人爽欧,亚洲国产成人精品天堂

騰訊發(fā)布混元3D世界模型10

　　一句線D世界，可編輯、可仿線年世界人工智能大會(huì)（WAIC）上，騰訊正式發(fā)布

　　——首個(gè)開(kāi)源且兼容傳統(tǒng)CG管線的可漫游世界生成模型。在騰訊混元3D生成引擎上即可體驗(yàn)，海內(nèi)外均可使用；正式開(kāi)源后，也可在Hugging Face等開(kāi)源社區(qū)模型本地部署體驗(yàn)。

騰訊發(fā)布混元3D世界模型10(圖1)

　　從文本或圖像生成沉浸式且可交互的3D世界，是計(jì)算機(jī)視覺(jué)與圖形學(xué)領(lǐng)域的核心挑戰(zhàn)。在理解混元世界生成模型的創(chuàng)新之前，不妨先看看現(xiàn)有技術(shù)面臨的挑戰(zhàn)?，F(xiàn)有世界生成方法主要分為兩類：

　　想象一下制作動(dòng)畫片，傳統(tǒng)的視頻生成方法就像是一幀一幀地畫畫。雖然能畫出豐富多彩的內(nèi)容，但存在缺乏3D一致性、逐幀渲染成本高昂、無(wú)法與現(xiàn)有3D建模工具兼容等致命問(wèn)題。

　　直接生成3D形式的世界場(chǎng)景，而不是視頻序列幀。這種方法雖具備更好的3D結(jié)構(gòu)的一致性，卻受限于3D訓(xùn)練數(shù)據(jù)稀缺與3D表征內(nèi)存效率低下等問(wèn)題。

　　此外，現(xiàn)有3D生成方法往往將場(chǎng)景表示為一個(gè)整體，無(wú)法對(duì)場(chǎng)景中的物體進(jìn)行單獨(dú)交互。

　　混元3D世界模型1.0（HunyunWorld-1.0）是融合兩類方法優(yōu)勢(shì)的創(chuàng)新框架，能夠依據(jù)文本或圖像輸入生成沉浸式、可探索、可交互的3D場(chǎng)景。有以下三大核心優(yōu)勢(shì)：

　?。和ㄟ^(guò)全景圖將復(fù)雜的3D世界高效地表征為360度覆蓋的2D圖像代理，為后續(xù)生成完整的3D世界建模提供了豐富的空間信息；2、

　?。荷傻氖澜鐖?chǎng)景支持導(dǎo)出標(biāo)準(zhǔn)的3D網(wǎng)格格式，能夠無(wú)縫導(dǎo)入現(xiàn)有3D建模軟件和主流游戲引擎，用于二次開(kāi)發(fā)；3、

　?。和ㄟ^(guò)物體解耦的3D建模方式，生成物體和背景可分離的3D世界，支持精準(zhǔn)的物體級(jí)交互控制，提升了生成世界的操作自由度。HunyunWorld-1.0采用生成式架構(gòu)，結(jié)合全景圖像合成與分層3D重建技術(shù)，實(shí)現(xiàn)了高質(zhì)量、沉浸式的可漫游3D場(chǎng)景生成。

　　該模型通過(guò)語(yǔ)義分層的3D場(chǎng)景表征與生成算法，同時(shí)支持”文生世界”和”圖生世界”兩種生成方式。主要技術(shù)框架包括三部分，即全景世界代理生成、基于語(yǔ)義的世界分層與分層世界重建。

騰訊發(fā)布混元3D世界模型10(圖2)

　　3D全景可以捕獲場(chǎng)景的360°視覺(jué)信息，可通過(guò)等距柱狀投影（ERP）轉(zhuǎn)化為全景圖像，這使其成為3D世界生成的中間媒介。

　　HunyunWorld-1.0正是通過(guò)文本或圖像條件生成全景圖，作為驅(qū)動(dòng)3D世界生成的代理媒介。

　　將文本輸入（prompt）通過(guò)文本編碼器（Text Encoder）轉(zhuǎn)化為擴(kuò)散模型的輸入條件。

　　該潛在表示會(huì)與隨機(jī)噪聲的潛在表示（Noisy Latent）拼接，輸入擴(kuò)散模型進(jìn)行去噪，生成最終的3D全景世界代理。

騰訊發(fā)布混元3D世界模型10(圖3)

　　相較于通用圖像生成，全景圖生成面臨兩大獨(dú)特挑戰(zhàn)：球面投影導(dǎo)致的幾何畸變以及全景拼接引發(fā)的邊界不連續(xù)問(wèn)題。針對(duì)上述挑戰(zhàn)，HunyunWorld-1.0引入兩項(xiàng)關(guān)鍵策略：

　　在訓(xùn)練階段，以一定概率和位移比例對(duì)真實(shí)全景圖像進(jìn)行隨機(jī)垂直偏移，以增強(qiáng)對(duì)視點(diǎn)變化的魯棒性。

　　在推理階段，在去噪過(guò)程中采用環(huán)形填充（Circular Padding）與漸進(jìn)混合（Progressive Blending）技術(shù)，確保全景圖邊界的結(jié)構(gòu)與語(yǔ)義連續(xù)性。

　　盡管全景圖能有效充當(dāng)世界代理，但其無(wú)法提供被遮擋區(qū)域的信息，無(wú)法實(shí)現(xiàn)自由探索（如視角平移）。

　　為了解決該問(wèn)題，HunyunWorld-1.0創(chuàng)新性地提出了”語(yǔ)義層次化3D場(chǎng)景表征及生成算法” ，將復(fù)雜的3D世界解構(gòu)為不同的語(yǔ)義層級(jí)，實(shí)現(xiàn)前景與背景、地面與天空的智能分離，并基于該分層表示搭建3D世界。

　　為實(shí)現(xiàn)語(yǔ)義分層的自動(dòng)化，此研究利用智能體（VLM視覺(jué)語(yǔ)言模型）識(shí)別可交互物體，然后采用”洋蔥剝離法”分離天空、背景、前景，最終達(dá)到前景物體與背景分離，地面與天空分層處理的效果。

　　該智能化的世界分層方法，主要包含三階段流程：實(shí)例識(shí)別（檢測(cè)場(chǎng)景中的獨(dú)立物體），圖層分解（將物體分配到語(yǔ)義層），圖層補(bǔ)全（生成被遮擋區(qū)域的合理內(nèi)容）。通過(guò)該分層方案支持后續(xù)的分層3D重建。

　　基于全景世界代理，研究人員預(yù)測(cè)各圖層的深度并執(zhí)行跨圖層深度對(duì)齊。采用深度估計(jì)模型（如MoGe或UniK3D）獲取原始全景圖基礎(chǔ)深度圖，并對(duì)后續(xù)圖層分別預(yù)測(cè)深度，最終通過(guò)跨層深度匹配技術(shù)將各層深度向基礎(chǔ)深度圖對(duì)齊。

　　具體而言，該跨層深度方法最小化不同圖層重疊區(qū)域的深度距離，確保跨圖層深度關(guān)系一致性，維持重建3D場(chǎng)景的幾何連貫性。

騰訊發(fā)布混元3D世界模型10(圖4)

　　給定分層圖像和深度對(duì)齊后的各層深度，研究采用WorldSheet提出的網(wǎng)格表示（Grid Mesh Representation）進(jìn)行薄板變形（Sheet Warping），將3D全景轉(zhuǎn)換為3D網(wǎng)格進(jìn)行實(shí)現(xiàn)世界重建。

　　針對(duì)每個(gè)前景層，HunyunWorld-1.0提供直接投影法、3D生成兩種重建策略。

　　前者基于物體深度與語(yǔ)義掩碼，通過(guò)薄板變形將前景物體直接轉(zhuǎn)換為3D網(wǎng)格，研究提出極區(qū)平滑處理（Polar Region Smoothing）與網(wǎng)格邊界抗鋸齒（Mesh Boundary Anti-Aliasing）來(lái)保證重建世界的質(zhì)量。

　　后者則借助3D物體生成大模型（如Hunyuan3D 2.5），創(chuàng)建高質(zhì)量3D物體資產(chǎn)后通過(guò)自動(dòng)布景算法將生成物體植入3D場(chǎng)景中。

　　對(duì)于背景層全景圖，研究人員采用自適應(yīng)深度壓縮以確保深度分布合理性，再通過(guò)薄板變形轉(zhuǎn)換為3D網(wǎng)格。天空層則是使用天空?qǐng)D像重建，其深度設(shè)為大于背景深度的固定值，確保天空深度的合理性。

　　除通過(guò)薄板變形獲取傳統(tǒng)網(wǎng)格表示外，HunyunWorld-1.0也支持HDRI環(huán)境貼圖（HDRI Environment Map）表示法，以在VR應(yīng)用中實(shí)現(xiàn)更逼真的天空光照效果。

　　盡管分層世界重建提供了初步的場(chǎng)景探索能力，其仍面臨遮擋視圖與探索范圍受限（Limited Exploration Range）的挑戰(zhàn)。

　　為突破此局限，HunyunWorld-1.0提出基于視頻生成的視圖補(bǔ)全模型 Voyager，支持空間一致的世界拓展與長(zhǎng)距離探索，從初始場(chǎng)景視圖和用戶指定相機(jī)軌跡中，合成空間連貫的RGB-D視頻。

騰訊發(fā)布混元3D世界模型10(圖7)

　　研究提出可擴(kuò)展的世界緩存機(jī)制，以維持空間一致性并抑制視覺(jué)幻象（Visual Lallucination）。

　　該機(jī)制利用生成的3D場(chǎng)景構(gòu)建一個(gè)初始的3D點(diǎn)云緩存，然后將此緩存投影到目標(biāo)相機(jī)視圖中，為擴(kuò)散模型生成提供指導(dǎo)。生成的幀不斷更新并擴(kuò)展世界緩存，從而創(chuàng)建一個(gè)閉環(huán)系統(tǒng)，該系統(tǒng)支持任意相機(jī)軌跡，同時(shí)保持幾何一致性。

　　為解決單次生成長(zhǎng)距離視頻的局限，提出結(jié)合平滑視頻采樣的世界緩存方案，用于自回歸世界探索。

　　得益于HunyuanWorld-1.0的分層3D網(wǎng)格表示法，生成的3D網(wǎng)格世界能夠高效支持多種專業(yè)應(yīng)用場(chǎng)景，包括虛擬現(xiàn)實(shí)（VR）、游戲開(kāi)發(fā)、物體編輯和物理仿真四大核心領(lǐng)域。

騰訊發(fā)布混元3D世界模型10(圖8)

　　通過(guò)全景世界代理（panoramic world proxies），HunyuanWorld-1.0生成360°無(wú)縫覆蓋的環(huán)境，可直接部署至主流VR平臺(tái)如Apple Vision Pro，支持自由視角旋轉(zhuǎn)和探索，適用于虛擬旅游、教育培訓(xùn)等場(chǎng)景，提供真實(shí)的臨場(chǎng)感。

　　生成的3D網(wǎng)格世界導(dǎo)出為標(biāo)準(zhǔn)格式，無(wú)縫集成行業(yè)引擎如Unity和Unreal Engine，支持快速構(gòu)建多樣化場(chǎng)景，包括外星景觀、中世紀(jì)遺跡和未ag九游會(huì)官方九游AG來(lái)都市，加速游戲原型開(kāi)發(fā)和內(nèi)容迭代，同時(shí)保持高保真視覺(jué)質(zhì)量。

　　基于解耦對(duì)象表示（disentangled object representations），用戶可在場(chǎng)景中對(duì)單個(gè)元素進(jìn)行精確3D操控，包括平移、旋轉(zhuǎn)和縮放，而不會(huì)破壞環(huán)境整體性。

　　這為交互式設(shè)計(jì)提供了靈活性，例如在虛擬環(huán)境中調(diào)整物體布局或創(chuàng)建定制場(chǎng)景，適用于建筑預(yù)覽、藝術(shù)創(chuàng)作等領(lǐng)域，提升用戶控制的自由度。

　　導(dǎo)出的分層網(wǎng)格兼容主流物理引擎，支持碰撞檢測(cè)、剛體動(dòng)力學(xué)和流體模擬等真實(shí)世界行為仿真。這確保了場(chǎng)景元素（如物體和地形）的物理屬性準(zhǔn)確再現(xiàn)，適用于自動(dòng)駕駛測(cè)試、工程模擬等專業(yè)領(lǐng)域，實(shí)現(xiàn)從視覺(jué)到行為的全鏈路一致性。

　　Github項(xiàng)目地址：項(xiàng)目主頁(yè)：體驗(yàn)地址：Hugging Face模型地址：

久久伊人这里都是精品-欧美日韩精品人妻二区-av成人黄色片在线播放-给我搜一个一级黄色片

AG九游會(huì)(中國(guó)官方網(wǎng)站)AG·真人官方平臺(tái)