中国福利彩票正版下载

图片
?
 
作者:高雨桐,陈彬 来源:中国科学报 发布时间:2024/3/29 17:33:42
选择字号:
南开新成果可让Sora核心组件训练提速10多倍

 

中国福利彩票正版下载

图片

2024年伊始,人工智能大模型ChatGPT母公司Open AI发布首个人工智能文字生成视频大模型Sora,通过计算机视觉技术模拟现实世界的动态变化,可以一次生成60秒流畅逼真的视频,被视为继ChatGPT之后人工智能技术的又一重大突破。但从实测Sora的一些“翻车”视频中可以看出,AI仍然存在着无法快速、准确“理解”物理世界的困难。

近日,南开大学、南开国际先进研究院(深圳福田)教授程明明团队发布一项国际联合研究成果MDT,相比Sora核心组件DiT训练速度提升10倍以上,再次刷新SoTA(最佳)图像生成质量和学习速度,实现了大型图像分类数据集性能测试(ImageNet benchmark)上1.58的FID score(图片质量的度量),超过Meta、Nvidia等知名公司提出的模型。研究团队也已将MDT源代码全部开放。

以Sora核心组件之一DiT为代表的扩散模型,可以实现“无中生有”得到一张高质量图像,是近年来人工智能技术最大亮点之一。但DiT往往难以高效地学习图像中物体各部分之间的语义关系,这一局限性导致了训练过程的低收敛效率。同时,更大的模型规模和数据规模也会消耗大量的算力能耗,导致训练成本飙升。

“以DiT生成一张小狗图像举例,它在第5万次训练步骤时已经学会生成狗的毛发纹理,然后在第20万次训练步骤时才学会生成狗的一只眼睛和嘴巴,却漏生成了另一只眼睛。即使在第30万次训练步骤时,DiT生成的狗的两只耳朵的相对位置也不是非常准确。”程明明说,“简单来说,就像做阅读理解时忽视了上下文的语义关系,导致生成图像中经常出现偏差需要反复修正,大幅增加了训练成本。”

如何降低训练成本、提升训练效率?研究团队通过在扩散训练过程中引入上下文表征学习,能够利用图像物体的上下文信息,重建不完整输入图像的完整信息,从而学习图像中语义部分之间的关联关系,提升图像生成的质量和学习速度。成果相关论文已在计算机视觉顶级会议计算机视觉国际大会发表。

近日,研究团队又将MDT升级到v2版本,在MDTv2中引入了一个更为高效的宏观网络结构,进一步优化了学习过程,同时通过采用更快的Adan优化器、扩大掩码比率等更优的训练策略来进一步加速模型的训练过程。实验结果证明,通过视觉表征学习增强对物理世界的语义理解,能够提升生成模型对物理世界的模拟效果。

程明明说:“希望我们的工作能够激发更多关于统一表征学习和生成学习的工作,提升AI大模型的‘智慧’水平,解决更多场景的现实问题。”

相关论文链接:https://arxiv.org/abs/2303.14389

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给:      
 
相关新闻 相关论文
?
图片新闻
大规模基因研究重绘开花植物的生命之树 彭慧胜院士团队把“充电宝”做成衣服
缓解肠易激综合征  饮食比服药更有效 银河系发现巨大黑洞
>>更多
 
一周新闻排行
 
编辑部推荐博文