张一鸣姗姗来迟，却更迟了

字母榜 2024-09-26 20:20:39

进入9月，视频大模型成为了大厂的AI新赛点。而这一次，张一鸣再次姗姗来迟。

距离阿里通义千问文生视频上线5天，距离6月份快手发布可灵，时间已经过去3个月，9月24日，字节终于推出了自己的豆包·视频生成模型。

而值得关注的是，一向看重投资回报率（ROI）、偏实用主义的张一鸣，一开始就为豆包视频大模型定了“商业化”的调。

在活动现场，火山引擎总裁谭待表示，豆包视频生成模型从一落地就开始考虑商业化，使用领域包括电商营销、动画教育、城市文旅和微剧本，例如音乐MV、微电影和短剧等。

图注：输入“一个戴着圣诞帽的小女孩抱着布偶猫”生成效果图源：字母榜

同时谭待也强调，在豆包视频大模型发布前，就已经在抖音不少短剧项目“露脸”。而上个月，昆仑万维发布 AI 短剧生成平台SkyReels，7月，美图秀秀发布AI 短片生成工具MOKI。

“现在已经有上百家短剧出海企业成为AI大模型用户。”某头部AI 工具服务商亦表示，对于大模型厂商如字节而言，用AI打下高昂的影视制作成本，AI加持下，短剧、MV将成为类似网文、短视频一样有更多用户参与的内容产品，在他看来，“晚来的字节，下的是商业化的棋。”

事实上，当Sora“平地一声雷”炸圈，能否推出视频大模型，成为了2024年衡量大模型厂商技术是否先进的“新标准”。

在这场齐追Sora的追逐战里，“不紧不慢”的字节，拖到9月底才在豆包大模型Pro升级的当口，为视频大模型“留了一个版面”。

当字母榜打开即梦AI，注意到应用豆包视频大模型后，C端用户能够在即梦AI内体验视频生成。

最长12秒“中规中矩”的生成时长，对齐可灵的生成效果，“不算惊艳，但迟了几个月，也没被先发的视频大模型甩出技术差距。”作为首批内测豆包视频大模型的AI从业者，张洋告诉字母榜，尽管国内视频大模型扎堆更新，但字节姗姗来迟的底气，或许正在于此前AI视频生成的效果，都并未能让用户“惊艳”。

而国产模型追Sora的同时，OpenAI却已经通过GPT-o1的推出，为基座大模型展示了强化学习的新路径，OpenAI或即将迎来估值超万亿的新时代，大模型厂商们，也将面临新的赛点。

01

剪映此前推出的即梦AI只支持3秒的视频时长；加载豆包大模型后，即梦AI内可以生成3-12秒的视频。

相比之下，可灵1.0版本，在未开通会员的情况下，只能体验5秒的视频生成，而字节的即梦AI通过每天登录发放66积分的形式，支持用户的免费试用。

不过，不像豆包大模型凭借低于行业98%的价格，开始卷起“大模型零元购”，引发热议，豆包大模型似乎不符合字节一贯“闷声干大事”的传统，显得有些粗糙。

输入“一个小女孩怀抱着布偶猫”的关键词，在豆包视频大模型发布前的内测版，第一次，AI似乎将布偶猫理解成了玩偶，生成的视频是怀抱着假猫，视频内的人脸也略显僵硬。

而等9月25日再次生成后，布偶猫又变成了田园猫，第三次生成时，才AI大模型才准确完成了指令。张洋告诉字母榜，作为首批内测的AI从业者，豆包视频大模型的使用效果并不算惊艳。

不过，豆包视频大模型可以切换3D动画、2D动画、国画、黑白、厚涂等不同风格，还可以选择随机运镜，或者自定义推近、拉远等运镜形式，相比起只提供16:9、9:16、1:1三种画面比例的可灵，豆包显然更加适配不同的画面比例，包括3:4、2:3、4:3、3:2等更多的比例选择。

在张洋看来，在用户的互动的体验上，豆包确实提供了更多的选择。不过，虽然豆包视频大模型可以实现一个prompt内的多镜头切换，但“整体画面的衔接仍有些不流畅，人物的表情有些失真。”

不过，张一鸣这次也毫不意外地将“实用主义”刻在了豆包视频大模型的基因里。

豆包视频大模型一经发布，便面向企业市场开启邀测，同时火山引擎总裁谭待更表示，豆包视频生成模型从一落地就开始考虑商业化，使用领域包括电商营销、动画教育、城市文旅和微剧本，例如音乐MV、微电影和短剧等。

不同于其他“拿着锤子找钉子”的AI创企，不论是字节还是快手，“本身有内容有平台，钉子在手，做视频大模型天然有着更多的应用场景。”张洋表示，

7月24日，可灵AI官方微信发文透露，目前申请权限的用户数已突破100万，并在同一天上线付费会员体系，包含黄金、铂金、钻石3个会员类别，年度会员价格从500多元到5000多元不等。对于姗姗来迟的字节而言，或许能在技术上与可灵不分上下，但在商业化路径上，已经开启C端付费的可灵，似乎再次快了一步。

02

5月，面对“OpenAI 在谷歌发布I/O的前一天发布GPT-4o”的问题，谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言，“当我们正处于AI的拐点上时，我看到的是机会，所以如果把这个时间线拉长，那么某一天发生的某一件事就都无关紧要了。”

如同被OpenAI时时抢跑的谷歌，晚来的字节，手握钉子，似乎打的还是后来居上的主意。

根据QuestMobile数据显示，截止到7月份，AI APP月活用户规模已突破6630万。其中，豆包、文小言、Kimi、星野、通义位居top5，月活用户规模分别为3042万、1008万、625万、466万、424万。

尽管豆包APP的发布时间明显晚于阿里的通义千问、更晚于百度的文心一言、Kimi，但豆包的月活用户规模已经大于其他四家APP用户活跃数的总和。

因此，在AI视频生成领域，面对国内技术突破迟滞的现状，字节也似乎有着晚来的底气。

不管是先出圈的可灵，还是姗姗来迟的字节豆包视频大模型，7月、9月扎堆推出视频大模型的厂商们，似乎谁都没能追赶上Sora。

从快手的《山海奇镜之劈波斩浪》，到字节的《三星堆：未来启示录》，用AI做短剧成为了头部厂商AI视频生成效果的“炼金石”。

显然，相比起需要真实人物出现并互动的传统短剧，神话、科幻等类型的短剧，更适合现阶段的AI大模型。

“现在的AI生成水平不稳定，大场景的炸弹爆炸、烟火升空等等的效果已经真假难辨，但也需要调试人员先生图，再进行1-2个小时的调整，”张洋告诉字母榜，现在的AI大模型生成的视频，更细节的人物表情和动作生成，仍然存在表情不自然，动作幅度小、表现形式机械的问题。

而AI短剧平台 Reel.AI 朱江也在采访中直言，“非动漫短剧预计要在今年下半年才能达到可消费水平。

李彦宏曾表示，“所谓领先12个月或落后18个月并不重要，每个公司都处在完全竞争的市场内，你不管做什么都有很多竞争对手。”

手握亿级用户规模的抖音APP，字节的从容不难解释。甚至如今还未发布视频大模型的腾讯，也手握着微信这一最大的社交APP，对于“手握钉子”的张一鸣和马化腾，他们似乎有着更多的选择。

03

“现在用哪家的视频大模型，都在抽卡。”

“生成10次里大概有1次能真的达到商用标准，但调试10次的过程，或许还不如人工更有效率。”试用过市面上的几家视频大模型后，影视从业者单杉直言，现在的大模型在生成效果上，没有达到用户的期望。

“输入生成一段布偶猫的视频，结果要不就是理解成玩具猫，要不就是田园猫，当用户2-3次试用无法得到稳定且超出预期的结果，就很难真正地完成用户留存”。在单杉眼里，这或许也能解释为何发布已超半年，Sora却迟迟没有公测。

年初便曾有报道称，OpenAI CEO奥特曼将投入7万亿美元与台积电合作建设晶圆厂，意在跳过英伟达自研芯片，而9月，OpenAI被爆出台积电正在为其“Sore视频模型”开发一款定制A16埃米级工艺芯片，目的在于提升其视频生成能力。

而这款A16的芯片，密度提升1.10倍，在相同工作电压下，速度提升了8%—10%;在相同速度下，功耗却降低了15%—20%。用“更低的价格和能耗，推进更快的AI视频生成”，显然是OpenAI押后Sora公测的重要原因。

想要实现更好的AI视频生成效果，更大的算力成本的支出，更低的价格和能耗，这也成为了国内视频大模型最终能否“跑出来”的关键因素。

而近日，字节又被爆出计划与台积电就AI芯片开展合作，尽管字节随后回应称报道不实，并表示在芯片领域的探索更多集中于推荐和广告的业务优化。但在字节招聘网页输入“芯片”等关键词，包含AI芯片架构、芯片SIL测试工程师在内，已经有200多个相关岗位。

但对于张一鸣乃至国内的大模型头部厂商而言，摆在他们面前的挑战或许更为棘手。

9月19日，在2024云栖大会上，月之暗面创始人杨植麟表示，GPT-o1的推出的主要意义在于提升了 AI上限。“提升10%的生产力，还是说10倍GDP，这里面最重要的问题，就是能不能通过强化学习去进一步scaling。”

在GPT-o1时代，当如今的豆包、通义千问、文心、Kimi的即时聊天，从思考10秒、20秒生成答案，到能够调用各种工具，去执行分钟级别甚至天级别的任务，国内用户已熟知的AI即时聊天产品形态将迎来巨大的改变，“AI更像人，或者一位助理”，这似乎成为了月之暗面们下一次追赶OpenAI的新赛程。

当新的竞争时刻再次到来，国内大模型厂商的基座大模型彼时未见“新水花”，但对于张一鸣们而言，则又一次面临抉择。

是将大把的“人、钱、算力”继续投向文生视频这样的功能场景做迭代，还是学习OpenAI，引进强化迭代路线？对于不缺钱的字节来说，当然可以“两个都要”。

而当“强化学习”带来的想象空间足够大、足够诱人，新的发令枪打响，没能起早的字节，这一次能冲在前头吗？

（文中张洋、单杉为化名）

作者：字母榜
让未来不止大

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：业界综合即梦AI 字节跳动文生视频

上一篇 > 联盟模式探究：电商联盟vs本地生活联盟
下一篇 > 李诞成不了小红书“一哥”

视频生成大模型赛道，只是看上去拥挤

看完抖音电商，你就明白字节AI终局布局

字节跳动的海外版「小红书」：有热度，没用户？

AI 原生时代，字节想要复刻第三次增长奇迹

深度剖析豆包AI耳机Ola friend

字节AI为何凶猛：重启App工厂，争抢“豆包”，连模型也要赛马

背靠字节，红果能跑通免费短剧吗？

AI视频生成的场景痛点及产品功能设想（7000字）

AI视频赛道，要变天了

惊人突破！AI视频生成技术竟成2024年YYDS，揭秘行业内部的罕见挑战与危机

在海外，字节跳动再造一个“小红书”

张一鸣难寻TikTok平替

没人想错过TikTok

美团Keeta 上线利雅得一周：商户开心，对手警惕

没见过世面的老美，居然让字节跳动版“小红书”海外爆火了

AI视频新战场：字节对决快手、反击Sora

AI硬件会缓解字节的FOMO情绪吗

张一鸣姗姗来迟，却更迟了

大厂硬件梦：字节、腾讯“向首”，华为、小米“向手”

拼多多要实行双休？网友评论，该不会是一个月休两天吧

字节再战搜索下半场，百度要打一场硬仗

互联网巨头的默契

抖音快手新战场，视频生成大模型的同与异

AI给《黑神话：悟空》生成了一个宣传片…看完我沉默了

火山引擎和巨量引擎，抖音最烧钱和最赚钱的业务之变

激进的可灵背后是一个内敛的快手

旷野流行，校招生为什么依然想进大厂？

张一鸣的对手，多了一个又一个

张一鸣姗姗来迟，却更迟了

01

02

03

相关文章