真·拿嘴做视频Meta“AI导演”一句话搞定视频素材

  不错,那厢一句话让AI画画的Text to Image正搞得风生水起,这厢Meta AI的研究人员又双叒给生成AI来了个超进化。

  给它几个单词或几行文字,就能生成这个世界上其实并不存在的视频画面,掌握的风格还很多元。

  毕竟一句话生成视频这事儿,之前就有不少业内人士觉得“快了快了”。只不过Meta这一手,确实有点神速:

  前面提到,Make-A-Video是文本图像生成(T2I)模型的超进化,那是因为这个AI工作的第一步,其实还是依靠文本生成图像。

  从数据的角度来说,就是DALLE等静态图像生成模型的训练数据,是成对的文本-图像数据。

  而Make-A-Video虽然最终生成的是视频,但并没有专门用成对的文本-视频数据训练,而是依然靠文本-图像对数据,来让AI学会根据文字复现画面。

  视频数据当然也有涉及,但主要是使用单独的视频片段来教给AI真实世界的运动方式。

  接着,第一重超分网络会将画面的分辨率提高到256×256。第二重超分网络则继续优化,将画质进一步提升至768×768。

  基于这样的原理,Make-A-Video不仅能根据文字生成视频,还具备了以下几种能力。

  其实,Meta的Make-A-Video并不是文本生成视频(T2V)的首次尝试。

  比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。

  他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。

  有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。

  对了,虽然Make-A-Video尚未公开,但Meta AI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了~

  原标题:《真拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度》

  不错,那厢一句话让AI画画的Text to Image正搞得风生水起,这厢Meta AI的研究人员又双叒给…

  不错,那厢一句话让AI画画的Text to Image正搞得风生水起,这厢Meta AI的研究人员又双叒给…

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注