日产精品久久久久婷婷,国产精品1区,超碰95资源站,乱码Av一区二区三区,懂色蜜偷拍,亚洲69精品,精品久久久污污,亚洲成人人体久久久,欧美色图五月天

報(bào)告服務(wù)熱線400-068-7188

2025年中國(guó)多模態(tài)大模型行業(yè)模型現(xiàn)狀 圖像、視頻、音頻、3D模型等終將打通和融合【組圖】

分享到:
20 黃纓杰 ? 2025-06-01 13:00:29  來源:前瞻產(chǎn)業(yè)研究院 E16641G1

行業(yè)主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);騰訊(00700.HK, TCEHY);科大訊飛(002230.SZ);萬興科技(300624.SZ);三六零(601360.SH);昆侖萬維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態(tài)大模型的模型路徑

多模態(tài)大模型的探索正在逐步取得進(jìn)展,近年來產(chǎn)業(yè)聚焦在視覺等重點(diǎn)模態(tài)領(lǐng)域突破。理想中的“Any-to-Any”大模型,Google Gemini、Codi-2等均是處于探索階段的方案,其最終技術(shù)方案的成熟還需要在各個(gè)模態(tài)領(lǐng)域的路線跑通,實(shí)現(xiàn)多模態(tài)知識(shí)學(xué)習(xí),跨模態(tài)信息對(duì)齊共享,進(jìn)而實(shí)現(xiàn)理想中多模態(tài)大模型?,F(xiàn)階段產(chǎn)業(yè)主要的工作還是聚焦在視覺等典型的重點(diǎn)模態(tài),試圖將Transformer大模型架構(gòu)進(jìn)一步在圖像、視頻、3D模型等模態(tài)領(lǐng)域引入使用,完善各個(gè)模態(tài)領(lǐng)域的感知和生成模型,再進(jìn)一步實(shí)現(xiàn)更多模態(tài)之間的跨模態(tài)打通和融合。

圖表1:多模態(tài)大模型的圖像、音頻、視頻的輸入和輸出路徑

多模態(tài)大模型的圖像模型

早在2023年LLM的流行之前,過去產(chǎn)業(yè)界在對(duì)于圖像的理解和生成模型領(lǐng)域已經(jīng)打下了堅(jiān)實(shí)的基礎(chǔ),其中也產(chǎn)生了CLIP、Stable Diffusion、GAN等典型的模型成果,孕育出了Midjourney、DALL·E等成熟的文生圖應(yīng)用。而更進(jìn)一步,產(chǎn)業(yè)界也在積極探索將Transformer大模型引入圖像相關(guān)任務(wù)領(lǐng)域(ViT,Vision Transformer;DiT,Diffusion Transformer),探索統(tǒng)一視覺大模型的建立,以及將LLM大語(yǔ)言模型與視覺模型進(jìn)行更加密切的融合,包括近年來的GLIP、SAM、GPT-V都是其中的重點(diǎn)成果。

圖表2:多模態(tài)大模型的圖像模型

注:利用真實(shí)文本描述,通過CLIP生成的圖像特征

多模態(tài)大模型的視頻模型

由于視頻本質(zhì)上是由很多幀的圖像疊加而成,因此本質(zhì)上語(yǔ)言與視頻模態(tài)的融合和語(yǔ)言和圖像具有相當(dāng)多的互通之處,產(chǎn)業(yè)界也在嘗試將圖像生成模型遷移到視頻生成,先基于圖像數(shù)據(jù)進(jìn)行訓(xùn)練,再結(jié)合時(shí)間維度上的對(duì)齊,最終實(shí)現(xiàn)文生視頻的效果。其中近年來也產(chǎn)生了VideoLDM、W.A.L.T.等典型的成果,并在近期也出現(xiàn)了Sora這樣具有明顯突破性效果的模型,其在視頻生成領(lǐng)域沿用了Diffusion Transformer架構(gòu),并在視頻類場(chǎng)景首次呈現(xiàn)出“智能涌現(xiàn)”的跡象。

視頻本質(zhì)上是一系列圖像的連續(xù)展示,圖片生成是視頻生成的基礎(chǔ)。圖片生成的主流技術(shù)即擴(kuò)散模型同樣也是視頻生成的主流技術(shù),目前主流的文生視頻模型的技術(shù)路線為基于文生圖模型,通過在時(shí)間維度加入卷積或注意力,在生成的關(guān)鍵幀基礎(chǔ)上實(shí)現(xiàn)時(shí)序?qū)R得到視頻。在此基礎(chǔ)上,插幀+超分、初始噪聲對(duì)齊、基于LLM增強(qiáng)描述等方法均有助于增強(qiáng)時(shí)序?qū)R能力,實(shí)現(xiàn)更高質(zhì)量的視頻生成。Zero-shot領(lǐng)域的一系列研究則能夠?qū)崿F(xiàn)無需訓(xùn)練,直接將圖片生成模型轉(zhuǎn)化為視頻生成模型。

圖表3:多模態(tài)大模型的文生視頻

多模態(tài)大模型的3D模型

實(shí)際上3D是由2D+空間信息構(gòu)成,因此類似于由圖像生成到視頻生成的延伸,2D圖片的生成方法理論上也可以遷移到3D中。近年來產(chǎn)業(yè)界也在積極探索將圖像領(lǐng)域的GAN、自回歸、Diffusion、VAE等骨干模型在3D模型生成任務(wù)中的擴(kuò)展,其中也產(chǎn)生了3D GAN、MeshDiffusion、Instant3D等重點(diǎn)的模型成果。但相比圖像和視頻生成,目前的3D模型生成技術(shù)還處于早期發(fā)展階段,相關(guān)模型的成熟度仍有較大提升空間。

3D數(shù)據(jù)表征:包括網(wǎng)格(Mesh)、點(diǎn)云(Point clouds)等顯式表示,以及NeRF(Neural radiance fields,神經(jīng)輻射場(chǎng))等隱式表示,還包括體素(Voxel grids,3D空間中的像素)這類混合表示,其中NeRF具有強(qiáng)大的三維表達(dá)能力和潛在的廣泛應(yīng)用范圍,是3D數(shù)據(jù)表征的關(guān)鍵技術(shù);

3D數(shù)據(jù)集:包括3D數(shù)據(jù)(數(shù)據(jù)量和精度有限)、多視角圖片(用途最為廣泛)、單張圖片(使用仍具有較大難度)等。目前3D對(duì)象數(shù)據(jù)集仍然稀缺,代表性的數(shù)據(jù)集包括ShapeNet(Chang等,2015)構(gòu)建了5.1萬個(gè)3D CAD模型,為3D數(shù)據(jù)集的充實(shí)做出開創(chuàng)貢獻(xiàn);Deitke等(2023)構(gòu)建了Objaverse和Objaverse-xl數(shù)據(jù)集,分別有80萬和1000萬個(gè)3D對(duì)象;

3D生成模型:前饋生成(通過前向傳遞中直接生成結(jié)果)、基于優(yōu)化的生成(每次生成需要迭代優(yōu)化)、程序生成(根據(jù)規(guī)則創(chuàng)建3D模型)、生成式新視圖合成(生成多視角圖像);

3D應(yīng)用:包括3D人生成、3D人臉生成、3D物體生成、3D場(chǎng)景生成等應(yīng)用。

《Advances in 3D Generation: A Survey》 圖表4:多模態(tài)大模型的3D模型

多模態(tài)大模型的音頻模型

語(yǔ)音相關(guān)的AI技術(shù)在過去多年中已經(jīng)較為成熟,但近年來Transformer大模型在AI音頻領(lǐng)域的投入應(yīng)用,還是成功推動(dòng)了相關(guān)技術(shù)再上臺(tái)階,實(shí)現(xiàn)更優(yōu)的音頻理解和生成效果,其中重點(diǎn)的項(xiàng)目成果包括Whisper large-v3、VALL-E等。語(yǔ)音技術(shù)沿革可分為三階段,深度學(xué)習(xí)驅(qū)動(dòng)發(fā)展加速。語(yǔ)音技術(shù)主要向增強(qiáng)泛化能力的方向持續(xù)延伸,Transformer架構(gòu)引領(lǐng)語(yǔ)音技術(shù)迭代浪潮。泛化能力是指模型對(duì)于未經(jīng)訓(xùn)練的數(shù)據(jù)的適應(yīng)能力,技術(shù)基礎(chǔ)來自具有強(qiáng)大學(xué)習(xí)能力的網(wǎng)絡(luò)架構(gòu)和大量多樣化的數(shù)據(jù)訓(xùn)練。語(yǔ)音模型泛化能力的增強(qiáng)主要體現(xiàn)在:從覆蓋單一語(yǔ)種到多語(yǔ)種和方言,從處理人聲到自然聲音、音樂,從簡(jiǎn)單語(yǔ)音識(shí)別或合成到零樣本學(xué)習(xí)和多任務(wù)集成。

Omni模型是利用neural audio codec,主要是對(duì)音頻進(jìn)行編碼以實(shí)現(xiàn)音頻合成。文本和聲波會(huì)先分別進(jìn)入embedding和adapter進(jìn)行編碼,再通過Omni模型進(jìn)行合成和預(yù)測(cè)音頻的token,最后通過擴(kuò)散模型進(jìn)行訓(xùn)練,量化再用解碼器合成音頻。

圖表5:多模態(tài)大模型的音頻模型Omni

更多本行業(yè)研究分析詳見前瞻產(chǎn)業(yè)研究院《全球及中國(guó)多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告

同時(shí)前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)新賽道研究投資可行性研究產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、產(chǎn)業(yè)招商、產(chǎn)業(yè)圖譜、產(chǎn)業(yè)大數(shù)據(jù)、智慧招商系統(tǒng)、行業(yè)地位證明、IPO咨詢/募投可研、專精特新小巨人申報(bào)、十五五規(guī)劃等解決方案。如需轉(zhuǎn)載引用本篇文章內(nèi)容,請(qǐng)注明資料來源(前瞻產(chǎn)業(yè)研究院)。

更多深度行業(yè)分析盡在【前瞻經(jīng)濟(jì)學(xué)人APP】,還可以與500+經(jīng)濟(jì)學(xué)家/資深行業(yè)研究員交流互動(dòng)。更多企業(yè)數(shù)據(jù)、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】,性價(jià)比最高功能最全的企業(yè)查詢平臺(tái)。

前瞻產(chǎn)業(yè)研究院 - 深度報(bào)告 REPORTS

2025-2030年全球及中國(guó)多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告
2025-2030年全球及中國(guó)多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告

本報(bào)告前瞻性、適時(shí)性地對(duì)多模態(tài)大模型行業(yè)的發(fā)展背景、供需情況、市場(chǎng)規(guī)模、競(jìng)爭(zhēng)格局等行業(yè)現(xiàn)狀進(jìn)行分析,并結(jié)合多年來多模態(tài)大模型行業(yè)發(fā)展軌跡及實(shí)踐經(jīng)驗(yàn),對(duì)多模態(tài)大...

查看詳情

本文來源前瞻產(chǎn)業(yè)研究院,內(nèi)容僅代表作者個(gè)人觀點(diǎn),本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問題,請(qǐng)聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請(qǐng)聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

如在招股說明書、公司年度報(bào)告中引用本篇文章數(shù)據(jù),請(qǐng)聯(lián)系前瞻產(chǎn)業(yè)研究院,聯(lián)系電話:400-068-7188。

p17 q1 我要投稿

分享:

品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››

前瞻經(jīng)濟(jì)學(xué)人

專注于中國(guó)各行業(yè)市場(chǎng)分析、未來發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國(guó)產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者,專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻數(shù)據(jù)庫(kù)
企查貓
作者 黃纓杰
產(chǎn)業(yè)研究院、分析師
1901229
關(guān)注
310
文章
前瞻經(jīng)濟(jì)學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟(jì)學(xué)家互動(dòng)交流讓您成為更懂趨勢(shì)的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經(jīng)濟(jì)學(xué)人》APP提問

 
在線咨詢
×
在線咨詢

項(xiàng)目熱線 0755-33015070

AAPP
前瞻經(jīng)濟(jì)學(xué)人APP下載二維碼

下載前瞻經(jīng)濟(jì)學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號(hào)

掃一掃關(guān)注我們

我要投稿

×
J
上杭县| 嘉禾县| 东莞市| 上高县| 根河市| 南江县| 九台市| 忻城县| 开原市| 金川县| 崇明县| 垫江县| 衡水市| 荆门市| 溧水县| 华池县| 辽源市| 息烽县| 昌平区| 固镇县| 怀集县| 韶山市| 敖汉旗| 光泽县| 奉节县| 高陵县| 桦川县| 望谟县| 杂多县| 阜平县| 永丰县| 横山县| 格尔木市| 丹东市| 宜春市| 东源县| 隆昌县| 丘北县| 岗巴县| 岐山县| 合肥市|