连云港装饰公司,豪泽装饰连云港装饰公司,豪泽装饰

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

4月(yuè)27日,在中(zhōng)关村论(lùn)坛未来人工智(zhì)能先锋论坛上,生数科技联合清华大学正式发布中国(guó)首个长时长、高(gāo)一致性、高动态性视(shì)频大(dà)模型——Vidu。该模(mó)型采用团队原创的Diffusion与Transformer融合的架构(gòu)U-ViT,支持一键生成长(zhǎng)达16秒(miǎo)、分辨(biàn)率高达1080P的 高清视频内容(róng)。Vidu不仅能够模拟真实物理世界,还拥有丰富想(xiǎng)象力,具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先(xiān)取得重大(dà)突破的 视频大模型(xíng),性能全面对(duì)标国际(jì)顶尖(jiān)水平(píng),并在加速迭代提升中。

与Sora一致(zhì),Vidu能够根据提供的文本描(miáo)述直接生成(chéng)长达16秒的高质量视频(pín)。除了(le)在时长方面(miàn)的突(tū)破外,Vidu在视频效果方面实现显著提升,主要体现在几个方面:第一(yī)、模拟真实(shí)物(wù)理世界:能够生成(chéng)细节复杂的场景 ,且符合真实的物理(lǐ)规律,例如合理的光影效(xiào)果、细腻的人(rén)物表(biǎo)情等;第二、具有丰富想象曹县汉服“火出圈”的背后力:能够生成(chéng)真实世界(jiè)不存在(zài)的虚构画面,创造出具有深度和复杂性的超现实主义内容;第三、多镜(jìng)头语言:能(néng)够生成复杂的(de)动态镜头,不再局限于简单(dān)的推、拉、移等固定镜头,而是能够围绕统(tǒng)一主体在(zài)一段画面里就实现远景、近景、中景、特(tè)写等不同镜头的切换(huàn),包括能直接生成(chéng)长镜头、追焦、转场等效果(guǒ),给视 频注入镜(jìng)头语言;第四、时空一(yī)致(zhì)性(xìng)高:在16秒的时长上(shàng)保持连贯流畅,随着镜头的移动,人物和(hé)场景在(zài)时(shí)间、空间中能够保持一致;第五、理解中国元素:能够生(shēng)成特(tè)有的中国元(yuán)素,例如熊猫(māo)、龙等。

值(zhí)得一提(tí)的是,短片中的片段都是从头(tóu)到尾连续生成,没有明显(xiǎn)的插帧现象,从这种“一镜到(dào)底”的表现能够推测出,Vidu采用(yòng)的是“一步到位”的生成方(fāng)式,与Sora一样,文本到视(shì)频的转换是直接(jiē)且连 续的,在底层(céng)算(suàn)法实现上是基于(yú)单(dān)一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。 

Vidu的快速突破源自于团队(duì)在贝叶斯机器学习和多(duō)模态大模型的长期(qī)积累和(hé)多项原创(chuàng)性(xìng)成果(guǒ)。其(qí)核心技术U-ViT架(jià)构 由团队于2022年9月提出,早于Sora采用的DiT架构,是全 球首个Diffusion与Transformer融合的架构,完全(quán)由团队自主研发。

2023年(nián)3月,团队开源全球首个基于U-ViT架构的(de)多模态扩散大模(mó)型UniDiffuser,在全球(qiú)范围内率先(xiān)完(wán)成融合架构的大规模可(kě)扩展性(Scaling Law)验证。UniDiffuser是(shì)在大规模图文数据集LAION-5B上训练出的近(jìn)10亿参数(shù)量(liàng)模型,支持图文模态(tài)间的任(rèn)意生成和(hé)转换(huàn)。在架(jià)构(gòu)上,UniDiffuser比同样DiT架构的Stable Diffusion 3领(lǐng)先了一年。

自今年2月Sora发布(bù)推出后,团队基于对U-ViT架构的(de)深入理解以及长期积累的工程与数据经 验,在短短两个月进(jìn)一步突破长视频表示与处理关键(jiàn)技术,研发推出Vidu视频大模(mó)型,显著提升视频的连贯性与动态性。

从图文任务的统一到融(róng)合视频能(néng)力(lì),作为(wèi)通用视觉模型(xíng),Vidu能够支持生成更加多样化、更长时(shí)长(zhǎng)的视(shì)频内容,同时面向未来,灵活架构(gòu)也将能够兼容更广泛(fàn)的模(mó)态,进一步拓展多模态(tài)通(tōng)用能力的边界。

Vidu的问世,不仅是U-ViT融合(hé)架(jià)构在大规模视(shì)觉任(rèn)务中的又一(yī)次(cì)成功验证(zhèng),也代表了(le)生数科技在多模态(tài)原(yuán)生(shēng)大模型领域的持续创新能力和领先性。同时生(shēng)数科技表示,大模型的突破是一个多维度(dù)、跨领域的综合性过程,需要技术与产业应用的深度融(róng)合 。生数科技正式(shì)推出“Vidu大模型(xíng)合作(zuò)伙伴计划”,希望产业链上下游企(qǐ)业(yè曹县汉服“火出圈”的背后)、研究机构能一起加入,共同 构建合作生态。

校对:廖胜超

未经允许不得转载:连云港装饰公司,豪泽装饰 曹县汉服“火出圈”的背后

评论

5+2=