0.5秒,無(wú)需GPU,Stability AI與華人團(tuán)隊(duì)VAST開(kāi)源單圖生成3D模型

機(jī)器之心報(bào)道

機(jī)器之心編輯部

最近,文生視頻模型 Sora 掀起了新一輪生成式 AI 模型浪潮,模型的多模態(tài)能力引起廣泛關(guān)注。

現(xiàn)在,AI 模型在 3D 內(nèi)容生成方面又有了新突破。

專(zhuān)長(zhǎng)于視覺(jué)內(nèi)容生成的 Stability AI 繼圖片生成(Stable Difussion 3 上線)、視頻生成(Stable Video 上線)后緊接在 3D 領(lǐng)域發(fā)力,今天宣布攜手華人團(tuán)隊(duì) VAST 開(kāi)源單圖生成 3D 模型 TripoSR。

0.5秒,無(wú)需GPU,Stability AI與華人團(tuán)隊(duì)VAST開(kāi)源單圖生成3D模型

TripoSR 能夠在 0.5s 的時(shí)間內(nèi)由單張圖片生成高質(zhì)量的 3D 模型,甚至無(wú)需 GPU 即可運(yùn)行。

0.5秒,無(wú)需GPU,Stability AI與華人團(tuán)隊(duì)VAST開(kāi)源單圖生成3D模型

  • TripoSR 模型代碼:https://github.com/VAST-AI-Research/TripoSR
  • TripoSR 模型權(quán)重:https://huggingface.co/stabilityai/TripoSR
  • TripoSR Demo:https://huggingface.co/spaces/stabilityai/TripoSR

視頻鏈接:https://mp.weixin.qq.com/s/zbTk0YHEhXurS1RPaN0KNw

TripoSR 在 NVIDIA A100 上測(cè)試時(shí),它能夠在大約 0.5 秒內(nèi)生成草圖質(zhì)量的帶紋理 3D 網(wǎng)格模型,性能超越了其他開(kāi)源圖像到 3D 模型,如 OpenLRM。除了速度之外,TripoSR 對(duì)有無(wú) GPU 的用戶都完全可用。

TripoSR 的靈感來(lái)源于 2023 年 11 月 Adobe 提出的 LRM,這是一個(gè)用于圖生 3D 的大規(guī)模重建模型(Large Reconstruction Model,簡(jiǎn)稱(chēng) LRM),可以基于任意單張輸入圖像在數(shù)秒鐘得到圖像對(duì)應(yīng)的三維模型。

LRM 突破性地將圖生 3D 模型任務(wù)表述成了一個(gè)序列到序列的翻譯任務(wù) —— 把輸入圖像和輸出的 3D 模型分別想象成兩種不同的語(yǔ)言,圖生 3D 任務(wù)可以被理解為把圖像語(yǔ)言翻譯成 3D 模型語(yǔ)言的過(guò)程。圖像語(yǔ)言中的 “單詞”(類(lèi)比語(yǔ)言模型的 token 和視頻模型的 patch)是用戶輸入圖像切分成的一個(gè)個(gè)小塊;而在 LRM 方法中,3D 模型語(yǔ)言的 “單詞” 是一種被稱(chēng)為 “三平面(triplane)” 的三維表示中的一個(gè)個(gè)小塊,LRM 做的事情就是把圖像語(yǔ)言中的 “單詞” 翻譯成 3D 模型語(yǔ)言中的 “單詞”,實(shí)現(xiàn)輸入圖像輸出 3D 模型。

在 transformer 架構(gòu)的支撐下,LRM 在一百余萬(wàn)公開(kāi)三維數(shù)據(jù)上進(jìn)行了訓(xùn)練,展示出了現(xiàn)象級(jí)的圖生 3D 效果和效率,因此在學(xué)界、業(yè)界均引起了很大的轟動(dòng)。然而其相關(guān)代碼和模型均不開(kāi)源,巨大的訓(xùn)練代價(jià)(128 塊 A100 運(yùn)行一周)也令小型研究組織望而生畏,這些因素極大阻礙了該項(xiàng)技術(shù)的平民化發(fā)展。

本次 Tripo AI 和 Stability AI 聯(lián)合共同推出了首個(gè) LRM 的高質(zhì)量開(kāi)源實(shí)現(xiàn) – TripoSR,可以幾乎實(shí)時(shí)根據(jù)用戶提供的圖像生成高質(zhì)量的三維模型,極大地填補(bǔ)了 3D 生成式人工智能領(lǐng)域的一個(gè)關(guān)鍵空白。

0.5秒,無(wú)需GPU,Stability AI與華人團(tuán)隊(duì)VAST開(kāi)源單圖生成3D模型

視頻鏈接:https://mp.weixin.qq.com/s/zbTk0YHEhXurS1RPaN0KNw

根據(jù) Stability 的博客和技術(shù)報(bào)告,該模型基于 LRM 的原始算法,通過(guò)精細(xì)篩選和渲染的 Objaverse 數(shù)據(jù)集子集以及一系列的模型和訓(xùn)練改進(jìn),顯著提高了從有限訓(xùn)練數(shù)據(jù)中泛化的能力,同時(shí)也增強(qiáng)了 3D 重建的保真度。直至 TripoSR 的出現(xiàn),學(xué)術(shù)界和開(kāi)源界一直缺少一個(gè)開(kāi)放、快速、且具備強(qiáng)大泛化能力的 3D 生成基礎(chǔ)模型和框架。之前盡管存在如 threestudio 這樣受到廣泛關(guān)注的開(kāi)源項(xiàng)目,但由于其依賴(lài)的技術(shù)(比如 score distillation sampling)需要較長(zhǎng)的優(yōu)化和計(jì)算時(shí)間,使得生成一個(gè) 3D 模型既緩慢又資源消耗巨大。Stability AI 此前在這一路線上發(fā)布的 Stable Zero123 項(xiàng)目及其在 threestudio 中的集成嘗試,雖然取得了一定進(jìn)展,但仍未能充分解決這些問(wèn)題。

TripoSR 開(kāi)源使全球的研究人員、開(kāi)發(fā)者和創(chuàng)意工作者能夠訪問(wèn)到最先進(jìn)的 3D 生成 AI 模型,使各類(lèi)公司能夠利用 3D 內(nèi)容創(chuàng)建更復(fù)雜的產(chǎn)品和服務(wù)、探索 3D 行業(yè)新的創(chuàng)造可能性,促進(jìn)一個(gè)更加活躍和有競(jìng)爭(zhēng)力的市場(chǎng)。

0.5秒,無(wú)需GPU,Stability AI與華人團(tuán)隊(duì)VAST開(kāi)源單圖生成3D模型

圖表顯示了 3D 性能的 F-Score(越高越好)與推理時(shí)間(越低越好)的關(guān)系。

3D 內(nèi)容生成技術(shù)在計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺(jué)領(lǐng)域近年來(lái)經(jīng)歷著穩(wěn)步的發(fā)展。在過(guò)去一年多時(shí)間內(nèi),特別是隨著大規(guī)模公開(kāi) 3D 數(shù)據(jù)集的出現(xiàn)以及 2D 圖像視頻領(lǐng)域強(qiáng)大生成模型的進(jìn)步,3D 生成技術(shù)實(shí)現(xiàn)了巨大和快速的進(jìn)步,引起了工業(yè)界廣泛關(guān)注。在這一背景下,諸如 DreamFusion(由 Google Research 團(tuán)隊(duì)提出)等基于 score distillation sampling(SDS)的技術(shù),雖然在多視角生成 3D 模型方面取得了突破,但在實(shí)際應(yīng)用中仍面臨生成時(shí)間長(zhǎng)、難以精細(xì)控制生成模型等限制。

與此相對(duì),基于大規(guī)模 3D 數(shù)據(jù)集和大規(guī)??蓴U(kuò)展模型架構(gòu)的生成技術(shù)方案,如此次發(fā)布的 TripoSR,展現(xiàn)了在不同 3D 數(shù)據(jù)集上進(jìn)行高效訓(xùn)練的能力,其生成 3D 模型過(guò)程僅需快速前向推理,并能在生成過(guò)程中易于對(duì) 3D 模型結(jié)果進(jìn)行精細(xì)控制。該類(lèi)技術(shù)的出現(xiàn),不僅為 3D 生成技術(shù)的快速發(fā)展開(kāi)辟了新的道路,也為業(yè)界的更廣泛應(yīng)用提供了新的可能性。

0.5秒,無(wú)需GPU,Stability AI與華人團(tuán)隊(duì)VAST開(kāi)源單圖生成3D模型0.5秒,無(wú)需GPU,Stability AI與華人團(tuán)隊(duì)VAST開(kāi)源單圖生成3D模型

圖片和數(shù)據(jù)來(lái)源:TripoSR: Fast 3D Object Reconstruction from a Single Image

值得關(guān)注的是,Stability AI 此次與 Tripo AI 聯(lián)合開(kāi)源。Tripo AI 背后的研究機(jī)構(gòu) VAST AI Research 作為 3D 內(nèi)容生成領(lǐng)域的新銳研究團(tuán)隊(duì),從創(chuàng)立之初就致力于開(kāi)源社區(qū)貢獻(xiàn),相繼開(kāi)源了 Wonder3D、CSD、TGS 等優(yōu)質(zhì)研究工作的代碼和權(quán)重。

Tripo 是 VAST 自 2023 年 12 月推出的通用 3D 生成模型(www.tripo3d.ai)。能實(shí)現(xiàn) 8 秒內(nèi)通過(guò)文字或圖片生成 3D 網(wǎng)格模型,并通過(guò) 5 分鐘進(jìn)行精細(xì)化生成,生成模型質(zhì)量在幾何和材質(zhì)層面都接近手工水平。

根據(jù) VAST AI Research 的博客,AI 在 3D 生成領(lǐng)域的長(zhǎng)足發(fā)展需要采取一種 “通用方法”,跳出對(duì)人類(lèi)經(jīng)驗(yàn)的依賴(lài),通過(guò)更龐大的數(shù)據(jù)、更可擴(kuò)展的模型和充分利用強(qiáng)大計(jì)算能力來(lái) “學(xué)習(xí)”。這一 “通用方法” 應(yīng)包含多種模態(tài)訓(xùn)練數(shù)據(jù)的統(tǒng)一、多種模態(tài)控制條件的統(tǒng)一以及多種模態(tài)通用的生成模型基礎(chǔ)架構(gòu)。

為實(shí)現(xiàn)這一目標(biāo),VAST 認(rèn)為需要從表示、模型和數(shù)據(jù)三個(gè)方向進(jìn)行工作。其中,“表示” 的選擇至關(guān)重要,需要尋找一種既靈活、又利于計(jì)算的 3D 表示形式,同時(shí)確保與現(xiàn)有圖形管線的兼容性。此外,探索 “3D tokenizer” 也是一種有前景的方向,將 3D 表示轉(zhuǎn)化為類(lèi)似于語(yǔ)言 token 的形式,有助于將現(xiàn)有的理解和生成模型應(yīng)用于 3D 領(lǐng)域。

在 “模型” 層面,VAST 的研究旨在充分利用大模型在其他模態(tài)下的先驗(yàn)知識(shí)、設(shè)計(jì)準(zhǔn)則和訓(xùn)練經(jīng)驗(yàn),以增強(qiáng)模型對(duì) 3D 數(shù)據(jù)的學(xué)習(xí)能力。而 “數(shù)據(jù)” 層面的挑戰(zhàn)也不容忽視,優(yōu)質(zhì)、原生、多樣化的 3D 數(shù)據(jù)集資源的稀缺限制了模型的最終表現(xiàn)和泛化能力。

TripoSR 讓我們看到了生成式 AI 模型在 3D 方向的潛力,我們期待 2024 年 3D 生成領(lǐng)域?qū)?huì)有更多新的探索。

參考鏈接:

https://stability.ai/news/triposr-3d-generation?utm_source=x&utm_medium=website&utm_campaign=blog

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線咨詢(xún)
分享本頁(yè)
返回頂部