中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出

4月(yuè)27日，在中(zhōng)关村论(lùn)坛未来人工智(zhì)能先锋论坛上，生数科技联合清华大学正式发布中国(guó)首个长时长、高(gāo)一致性、高动态性视(shì)频大(dà)模型——Vidu。该模(mó)型采用团队原创的Diffusion与Transformer融合的架构(gòu)U-ViT，支持一键生成长(zhǎng)达16秒(miǎo)、分辨(biàn)率高达1080P的高清视频内容(róng)。Vidu不仅能够模拟真实物理世界，还拥有丰富想(xiǎng)象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先(xiān)取得重大(dà)突破的视频大模型(xíng)，性能全面对(duì)标国际(jì)顶尖(jiān)水平(píng)，并在加速迭代提升中。

与Sora一致(zhì)，Vidu能够根据提供的文本描(miáo)述直接生成(chéng)长达16秒的高质量视频(pín)。除了(le)在时长方面(miàn)的突(tū)破外，Vidu在视频效果方面实现显著提升，主要体现在几个方面：第一(yī)、模拟真实(shí)物(wù)理世界：能够生成(chéng)细节复杂的场景，且符合真实的物理(lǐ)规律，例如合理的光影效(xiào)果、细腻的人(rén)物表(biǎo)情等；第二、具有丰富想象曹县汉服“火出圈”的背后力：能够生成(chéng)真实世界(jiè)不存在(zài)的虚构画面，创造出具有深度和复杂性的超现实主义内容；第三、多镜(jìng)头语言：能(néng)够生成复杂的(de)动态镜头，不再局限于简单(dān)的推、拉、移等固定镜头，而是能够围绕统(tǒng)一主体在(zài)一段画面里就实现远景、近景、中景、特(tè)写等不同镜头的切换(huàn)，包括能直接生成(chéng)长镜头、追焦、转场等效果(guǒ)，给视频注入镜(jìng)头语言；第四、时空一(yī)致(zhì)性(xìng)高：在16秒的时长上(shàng)保持连贯流畅，随着镜头的移动，人物和(hé)场景在(zài)时(shí)间、空间中能够保持一致；第五、理解中国元素：能够生(shēng)成特(tè)有的中国元(yuán)素，例如熊猫(māo)、龙等。

值(zhí)得一提(tí)的是，短片中的片段都是从头(tóu)到尾连续生成，没有明显(xiǎn)的插帧现象，从这种“一镜到(dào)底”的表现能够推测出，Vidu采用(yòng)的是“一步到位”的生成方(fāng)式，与Sora一样，文本到视(shì)频的转换是直接(jiē)且连续的，在底层(céng)算(suàn)法实现上是基于(yú)单(dān)一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

Vidu的快速突破源自于团队(duì)在贝叶斯机器学习和多(duō)模态大模型的长期(qī)积累和(hé)多项原创(chuàng)性(xìng)成果(guǒ)。其(qí)核心技术U-ViT架(jià)构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全(quán)由团队自主研发。

2023年(nián)3月，团队开源全球首个基于U-ViT架构的(de)多模态扩散大模(mó)型UniDiffuser，在全球(qiú)范围内率先(xiān)完(wán)成融合架构的大规模可(kě)扩展性（Scaling Law）验证。UniDiffuser是(shì)在大规模图文数据集LAION-5B上训练出的近(jìn)10亿参数(shù)量(liàng)模型，支持图文模态(tài)间的任(rèn)意生成和(hé)转换(huàn)。在架(jià)构(gòu)上，UniDiffuser比同样DiT架构的Stable Diffusion 3领(lǐng)先了一年。

自今年2月Sora发布(bù)推出后，团队基于对U-ViT架构的(de)深入理解以及长期积累的工程与数据经验，在短短两个月进(jìn)一步突破长视频表示与处理关键(jiàn)技术，研发推出Vidu视频大模(mó)型，显著提升视频的连贯性与动态性。

从图文任务的统一到融(róng)合视频能(néng)力(lì)，作为(wèi)通用视觉模型(xíng)，Vidu能够支持生成更加多样化、更长时(shí)长(zhǎng)的视(shì)频内容，同时面向未来，灵活架构(gòu)也将能够兼容更广泛(fàn)的模(mó)态，进一步拓展多模态(tài)通(tōng)用能力的边界。

Vidu的问世，不仅是U-ViT融合(hé)架(jià)构在大规模视(shì)觉任(rèn)务中的又一(yī)次(cì)成功验证(zhèng)，也代表了(le)生数科技在多模态(tài)原(yuán)生(shēng)大模型领域的持续创新能力和领先性。同时生(shēng)数科技表示，大模型的突破是一个多维度(dù)、跨领域的综合性过程，需要技术与产业应用的深度融(róng)合。生数科技正式(shì)推出“Vidu大模型(xíng)合作(zuò)伙伴计划”，希望产业链上下游企(qǐ)业(yè曹县汉服“火出圈”的背后)、研究机构能一起加入，共同构建合作生态。

校对：廖胜超

未经允许不得转载：连云港装饰公司,豪泽装饰曹县汉服“火出圈”的背后