Sora来临，它能抢了谁的饭碗？

克劳锐 2024-02-20 23:22:33

继ChatGPT后，OpenAI在2024年初又掀起了人们的讨论热情。

2月16日清晨，OpenAI发布了文生视频AI模型Sora，引爆全球网络。与以往的文生视频模型Runway和Pika不同，Sora可以持续地模拟人物、动物和物体，并生成同一角色的多个景别的镜头，在整个视频中保持其外观和背景。

此外，Sora还可以生成图片。与以往相比，这些图片中的细节更清晰，包括脸上的斑点和嘴唇上的细纹，分辨率最高可达2048×2048。

一石激起千层浪，Sora发布后，一众科技圈大佬纷纷下场讨论。马斯克表示“gg humans”（gg/good games原指游戏结束时玩家互相致意，后引申为“游戏结束”）;周鸿祎预言：“这可能给广告业、电影预告片、短视频行业带来巨大颠覆”；前阿里副总裁贾扬清则评价：“真的非常牛”。

“霸榜”近日科技板块热点的Sora大模型亮点在哪里？具体来看，这会对影视制作行业起到怎样的影响？

01 高质量、长时间、多景别

简单来讲，Sora能够根据文本提示，创建60秒的视频、扩展现有视频以及从图像中生成视频，视频中还包含复杂的场景和镜头运动。

OpenAI官网展现了多段Sora制作的视频，身着黑色皮衣、红色裙子的女子在雨后的夜晚行走在东京市区街道上，女子皮肤毛孔色沉清晰可见，路面积水反映着路灯倒影，视频真实度十分之高，如果不是偶尔穿帮的左右腿，很难一眼判断是AI制作的视频。

在运镜、构图等方面，Sora视频都呈现出大幅度的提升，一举将AI视频提升至“next level” 。

Sora来临，它能抢了谁的饭碗？

图源OpenAI

此外，Sora不仅能够生成完整的60秒视频，还能延长已生成的视频。也就是说，给Sora一段视频，它可以自动生成前面或者后面的视频。

更离谱的是，Sora可以生成不同机位、不同景别的视频，并进行剪辑。且在不同的机位下，无论是广角、中景、近景、特写，室内还是室外，视频中人物和背景的关系都一致，不受影响。

Sora来临，它能抢了谁的饭碗？

图源OpenAI

也就是说，仅需要一段文字，Sora模型就可以生成一段60s的1080p视频，包含不同景别镜头。不由得让人感叹——“真实和虚幻的差别，到底还有多大距离？”

值得注意的是，文生视频早已存在，根据知名投资机构a16z统计，截至2023年底，市场上共有21个公开的AI视频模型，例如Google的Lumiere、Stability AI的SVD、以及视频生成大模型Gen-2的开发商Runway。其中，Runway2023年6月底完成C轮融资后，估值则是超过15亿美元。

Sora 公开后，东吴证券对目前主要的视频生成模型做了对比。他将Sora、W.A.L.T、Gen-2和Emu Video、Pika 1.0、Stable Video六个模型的特点、生成视频表现等特点进行对比分析。结论是，Sora在生成时长、一致性等方面都有显著的优势，具有突破性的语义理解能力。

Sora来临，它能抢了谁的饭碗？