OpenAI首个AI视频模型登场彻底端掉行业饭碗

发布时间: 2024-2-16 16:26| 查看: 2684| 评论: 0|来自: 新智元

卷疯了卷疯了，短短十几小时内，OpenAI和谷歌接连发布核弹级成果。

国内还没睡的人们，经历了过山车般的疯狂一晚。

就在刚刚，OpenAI突然发布首款文生视频模型——Sora。简单来说就是，AI视频要变天了！

它不仅能够根据文字指令创造出既逼真又充满想象力的场景，而且生成长达1分钟的超长视频，还是一镜到底那种。

Runway Gen 2、Pika等AI视频工具，都还在突破几秒内的连贯性，而OpenAI，已经达到了史诗级的纪录。

60秒的一镜到底，视频中的女主角、背景人物，都达到了惊人的一致性，各种镜头随意切换，人物都是保持了神一般的稳定性。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

OpenAI究竟是怎么做到的？根据官网介绍，“通过一次性为模型提供多帧的预测，我们解决了一个具有挑战性的问题。”

显然，这个王炸级技术有着革命般的意义，连Sam Altman都沉迷到不能自拔！

他不仅疯狂发推安利，而且还亲自下场为网友生成视频：你们随意来prompt，我一一输出。

一位戴着尖顶帽，身披绣有白色星星的蓝色长袍的巫师正在施法，他的一只手射出闪电，另一只手中拿着一本旧书。

在一间拥有电影级灯光设置的充满托斯卡纳乡村风情的厨房里，一位擅长利用社交媒体的奶奶，正在教你制作美味的自制诺奇面。

我们将带你进行一次未来城市的街头巡览，在这里，高科技与自然和谐共处，展现出一种独特的赛博朋克风格。

这座城市洁净无瑕，到处可见的是先进的未来式有轨电车、绚丽的喷泉、巨型的全息投影以及四处巡逻的机器人。

想象一下，一个来自未来的人类导游正带领一群好奇的外星访客，向他们展示人类极致创造力的结晶——这座无与伦比、充满魅力的未来城市。

多项技术破纪录

借助于对语言的深刻理解，Sora能够准确地理解用户指令中所表达的需求，把握这些元素在现实世界中的表现形式。

也因此，Sora创造出的角色，能够表达丰富的情感！

它所制作出的复杂场景，不仅可以包括多个角色，还有特定的动作类型，以及对对象和背景的精确细节描绘。

看，下图中人物的瞳孔、睫毛、皮肤纹理，都逼真到看不出一丝破绽，完全没有AI味儿。

从此，视频和现实究竟还有什么差别？！

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

此外，Sora还能在同一视频中设计出多个镜头，同时保持角色和视觉风格的一致性。

要知道，以前的AI视频，都单镜头生成的。

而这次OpenAI能在多角度的镜头切换中，就能实现对象的一致性，这不得不说是个奇迹！

这种级别的多镜头一致性，是Gen 2和Pika都完全无法企及的……

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

举个例子：“雪后的东京熙熙攘攘。镜头穿过繁忙的街道，跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。”

Sora根据这个提示所呈现的，便是东京在冬日里梦幻的一幕。

无人机的镜头跟随一对悠闲散步的情侣穿梭在街道上，左侧是车辆在河岸路上行驶的声音，右侧是顾客在一排小店之间穿梭的景象。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

可以说，Sora的效果已经领先到了恐怖的级别，完全跳出了用冷兵器短兵相接的时代，其他AI视频被彻底干趴。

世界模型成真了？？

最最最可怕的一点来了，Sora身上，竟已经有了世界模型的雏形？

通过观察大量数据，它竟然学会了许多关于世界的物理规律。

下面这个片段太令人印象深刻了：prompt中描绘了“一个短毛绒怪物跪在一支红蜡烛旁的动画场景”，同时描述了怪物的动作和视频的氛围。

随后，Sora就创造了一个类似皮克斯作品的生物，它似乎融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。

让人震惊的是，Sora对于毛发纹理物理特性的理解，准确得令人惊掉下巴！

想当初，在《怪兽公司》上映时，皮克斯为了创造出怪物在移动时超级复杂的毛发纹理，可是费了好大一番功夫，技术团队直接连肝几个月。

而这一点，Sora轻而易举地就实现了，而且从没有人教过它！

“它学会了关于 3D 几何形状和一致性的知识，”项目的研究科学家Tim Brooks表示。

“这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。”

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

得益于DALL·E 3所使用的扩散模型，以及GPT-4的Transformer引擎，Sora不仅能够生成满足特定要求的视频，而且能够展示出对电影拍摄语法的自发理解。

这种能力体现在它对讲故事的独特才能上。

例如，在一个以“色彩缤纷的鱼类和海洋生物充斥的，由纸艺精心构建的珊瑚礁世界”为主题的视频中，项目研究员Bill Peebles指出，Sora通过其摄影角度和拍摄时机，成功地推进了故事的发展。

“视频中实际上发生了多次镜头转换——这些镜头并非后期拼接而成，而是模型一气呵成地生成的，”他解释道。“我们并没有特别指令它这么做，它却能自动完成。”