OpenAI新模型,会冲击影视行业吗?——技术解读

user avatar
Bun

2月16日,OpenAI全新的文生视频模型Sora,成为全球的焦点,很多人惊呼,认为OpenAI的新模型会冲击当前的影视行业,本文从新发布的Sora模型技术原理角度解读,看看Sora是如何直接从文字生成视频,未来又有哪些技术上的应用;从目前OpenAI透露的消息来看,Sora可能并不仅仅只是用来生成视频,在模拟物理世界方面也有很大的潜力,未来升级版的Sora也可能与传说中的“GPT-5”一同发布,真正推动AGI时代的到来!

OpenAI新模型,会冲击影视行业吗?——技术解读


GPT问世后,大家普遍对多模态通用人工智能抱有很大的期待,ChatGPT作为聊天机器人,DALLE解决图像,文生视频应用在去年也有Runaway、Pika等作为焦点应用,OpenAI科学家Andrej Karpathy更是表示,Pika帮助每个人成为多模态梦境的导演。

OpenAI新模型,会冲击影视行业吗?——技术解读

相比于其他的文生视频应用,SORA优点在于生成连贯视频的时长达到1分钟,分辨率和宽高比可控,达到基于文本利用扩散模型(Diffusion Model)训练生成视频和图像的目标,如果是生成单帧,就相当于DALLE文生图模型(关于DALLE3技术解读可以参考往期,今年OpenAI也发布了Sora的技术报告)。

OpenAI新模型,会冲击影视行业吗?——技术解读

其实就目前各家文生视频长度来看,Sora确实做到了碾压级别,在视频生成质量以及对Prompt提示词的还原程度来看,甚至连水中的倒影乍一看还有那么些虚幻5的感觉。

OpenAI新模型,会冲击影视行业吗?——技术解读

上面是奥特曼放出的生成视频,一位女子走在东京夜晚的街上,拉近甚至能看到女子脸上的褶皱斑点,这样的精度确实超越了笔者之前介绍过的Pika(视频版GPT?AI生成视频爆火!)。

OpenAI新模型,会冲击影视行业吗?——技术解读

OpenAI技术上同样从LLM大型语言模型获得了灵感,此前也是尝试了很多坑,比如循环神经网络RNN、生成对抗模型GAN、自回归变换(Autoregressive Transformers),以及最后的扩散模型(Diffusion Model),在过去很多文生视频聚焦于较短的视频,或者生成视频的题材局限于小部分视觉数据——

OpenAI新模型,会冲击影视行业吗?——技术解读

而Sora足足能够提供1分钟的高清输出。OpenAI主要是通过互联网大规模的视频数据进行训练,像大模型那样将不同形式的文本、代码和数字通过tokens统一,Sora则是将视觉数据转化成补丁数据包(patches)的统一形式。

OpenAI新模型,会冲击影视行业吗?——技术解读

这里可以参考何恺明经典论文MAE,利用自监督学习在更大规模的数据,输入随机“Patch”对图像进行重建,OpenAI这里将“Patch”先压缩到了低维潜特征空间(latent space),然后再分解成时空“Patch”(Spacetime Patches),将视频数据的时间和空间统一。

OpenAI新模型,会冲击影视行业吗?——技术解读

这里OpenAI的训练步骤很像今年初放在arxiv上的沙漏扩散模型HDiT,在Transformer的基础上支持在像素空间(pixel-space)中进行高分训练。

OpenAI新模型,会冲击影视行业吗?——技术解读

Sora仍然是基于Transformers模型(可以详看Karpathy对Transformer的小白科普介绍),OpenAI给定输入的噪声“Patch”,包括文本prompts提示等信息,用来训练预测一个原始干净的“Patch”,在实际训练中,OpenAI发现扩散模型在文生视频领域的巨大潜力。

OpenAI新模型,会冲击影视行业吗?——技术解读

下面展示的是对固定种子和输入Prompt的样本对比,随着训练计算量增加,扩散模型的输出质量有显著提高,之前的Pika也是利用的扩散模型,即Transformer+Diffusion model的思路。

OpenAI新模型,会冲击影视行业吗?——技术解读

这里OpenAI和PIka、Runaway们的差距,主要是很多扩散模型都是先将视频进行裁剪到标准尺寸,比如输出一个256×256的4秒视频,而OpenAI认为应该直接使用原始大小的数据,第一个优点是采样(Sampling)更加灵活,Sora可以直接采样1920x1080p-1080×1920任意分辨率的所有视频。

OpenAI新模型,会冲击影视行业吗?——技术解读

第二个优点是用原始长宽比视频进行训练,能够大幅改善构图和取景能力,下图左侧是常规将训练视频裁剪到正方形,右侧(Sora)是用原始尺寸视频训练,Sora有了明显改善。

OpenAI新模型,会冲击影视行业吗?——技术解读

Recaptioning

扩散模型可能对复杂Prompt理解能力较弱,OpenAI在Sora上还利用了DALL·E 3的重新描述转译(re-captioning),首先训练生成一个高度描述性的captioner描述模型,再用它作为训练集中所有生成视频的文本描述进行训练,实机测试中发现可以提高文本描述的准确度和视频的整体质量。

OpenAI新模型,会冲击影视行业吗?——技术解读

DALLE图像动画

之前大力3还有个小Trick,就是对简短的用户Prompt提示,先进行转换变得更长,然后再生成,Sora也用了这个小技巧,提高语言理解能力,下面是DALLE2和DALLE3图像生成的实例,从单张图片喂给Sora,生成一段视频。

OpenAI新模型,会冲击影视行业吗?——技术解读

扩展视频

上面这个DALLE→Sora的小应用(图生视频)就给人无限遐想,影视行业当然会受到冲击,但如果能将Sora用好,也是生产力质的飞跃,在计算资源充足的情况下,将大幅度降低视频制作的时间成本;Sora还可以在时间维度上对视频进行扩展,或者是将视频进行无缝拼接,理论上来说可以营造一种视频无缝无限循环的错觉。

OpenAI新模型,会冲击影视行业吗?——技术解读

拼接视频

另一个技巧是对输入视频进行拼接插值,将两个风格近似的视频进行拼接,Sora的理解能力和生成连贯视频的能力得以体现。综上所述,从技术来看Sora用的也是扩散模型+Transformer,但是训练视频并没有像Pika那样先进行裁剪,而是直接秀操作秀资源训练原始尺寸模型,在模拟物理世界上潜力很大,生成视频效果已经是业界内遥遥领先的水平。

OpenAI新模型,会冲击影视行业吗?——技术解读

对于风格完全不同的视频,Sora也能将不同主题和场景构成的视频之间,创建无缝过渡,比如下图无人机飞行过程中,无缝变成蝴蝶的形成,效果丝滑无比。

OpenAI新模型,会冲击影视行业吗?——技术解读

3D一致性

Sora可以生成带有动态摄像角度的视频,镜头移动旋转,人和场景元素在三维空间中一起移动,过去的文生视频模型在长视频中,3D一致性很差,Sora可以有效地对短期和长期依赖关系进行建模,比如模型可以保留人、动物和物体,或者实现在单个样本中生成同一角色的多个镜头。

OpenAI新模型,会冲击影视行业吗?——技术解读

接下来缺点也是笔者昨天提到的问题,Sora很难准确模拟复杂场景的物理原理,无法理解实例间的因果关系,在长时间样本中也会有不连贯性,这也是为何OpenAI提供最长一分钟的限制(尽管目前看1分钟也已经超出了我们的预期),包括大量的对齐(Alignment)工作,这也是下阶段Sora将要解决的问题。从GPT3.5turbo-GPT4的跃升来看,OpenAI可能会在今年后面推出更加强大的Sora,如果集成在GPT-5中一同发布,将是绝杀!

OpenAI新模型,会冲击影视行业吗?——技术解读

最后一点,在所生成的视频数据中,我个人感觉OpenAI拿到了大量虚幻5生成的视频,想象一下用Sora模拟高清渲染的游戏视频,在《我的世界》中,Sora理解了玩家的物理动作,直接用“我的世界”提示词让Sora生成游戏视频,也就是常常说的零样本学习(zero-shot),无需训练文本-视频数据,直接实现文生视频,这样的梦幻场景正在成为现实,与大模型类似,Sora也具备涌现的模拟能力,总体来看,未来Sora也不会只局限于影视行业,OpenAI将Sora直接形容成现实世界模拟器,未来也会在物理世界和数字世界上爆发巨大潜力!

OpenAI新模型,会冲击影视行业吗?——技术解读


ChatGPT:

聊天机器人——ChatGPT全网爆红,马斯克惊叹夸赞!

聊天机器人——ChatGPT小白注册教程,勿被电商割韭菜!

ChatGPT移动端——使用教程,5分钟注册iOS账号!

微软——解散元宇宙,900亿投资压注ChatGPT!

ChatGPT王炸官宣——仅需2.7美元,即可输出100万词!

火爆全网——AI生成的漂亮小姐姐,形象逼近真人!

英伟达重磅:AI读取视频,可直出3D游戏模型!

黄仁勋:给AI圈一点小小的英伟达震撼,11分钟训练ChatGPT!

ChatGPT免费开源平替——200亿参数,前OpenAI团队打造!

ChatGPT王炸升级——可识别图片,考试成绩超九成人类!

ChatGPT史诗升级——1秒生成网站,看图玩梗能力堪比真人!

ChatGPT加强版——60秒生成弹球游戏,零基础也能开发游戏!

ChatGPT王炸官宣——正式解除封印,接入互联网开放插件!

ChatGPT重磅升级——新增函数功能,价格大幅下降!

ChatGPT:预计3亿人将失业,斯坦福封神开源GPT平替版!

ChatGPT突发:iOS版应用上线,冲到总榜第二!

ChatGPT之父:重磅推出世界币,将成为AI时代“身份证”!

ChatGPT之父:奥特曼没有公司股份,因为热爱创造了GPT!

ChatGPT:微软联手奥特曼,重磅投资核聚变发电!

游戏界大变天:斯坦福最新成果,AI角色可模拟真人小镇!

人工智能“觉醒”:自主学习,AutoGPT会颠覆ChatGPT吗?

ChatGPT最强挑战者:谷歌Claude,免注册支持中文!

ChatGPT最强竞品:谷歌免费升级克劳德,20秒逆天速通百页论文!

ChatGPT:显卡每日电费500万,谷歌大脑合并阿尔法狗母公司!

ChatGPT:玩转《我的世界》,北京大学强化学习攻克复杂任务!

ChatGPT:成功让AI听懂人话,学会与人类合作!

ChatGPT:7分钟开发一款游戏,成本仅0.3美元!

OpenAI重磅突破:用AI学习AI,开创人工智能新道路!

OpenAI王炸——AI绘画集成ChatGPT,“大力3”来了!

微软重磅官宣:GPT-4接入Win11,下周二免费推送更新!

乔布斯剧本:奥特曼被OpenAI开除,美女工程师接任!

奥特曼回归?OpenAI员工施压希望召回奥特曼!

奥特曼宣布:加入微软,光速跳槽甲方!

奥特曼回归:OpenAI上演“宫斗”大结局!

GPT商店上线:“AI女友”机器人成热门应用!

#gd的ai&游戏杂谈#

#ai人工智能#

声明:本站内容,如无特殊说明或标注,均为本站原创发布。未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,请联系。
0 条回复
comment avatar
{{show.info ? '确认修改' : '修改资料'}}
upImage
  1. 暂无讨论,说说你的看法吧
有新私信 私信列表
搜索