AIGC 中的大模型摩尔定律与范式转移
本文核心观点来自红杉在 9 月发布的一篇文章《Generative AI: A Creative New World》,我按大白话翻译并做了删减和补充。
原文想要表达的意思是——“随着 AIGC(AI Generative Content)变得更快更强以及更低成本,在某些程度上将比人类手工创作得更好,AIGC 将使得知识性与创造性工作的边际成本降至 0 ,从而产生巨大的生产效率和经济价值,它将有潜力产生数万亿美元的经济价值,这些领域不限于社交媒体、游戏、广告、建筑、设计、法律、销售以及营销,每一个需要我们原创的领域都或多或少将有 AI 的参与。”
01 Why Now?为什么是现在
原作者将 AI 模型的发展划分为四波浪潮:
1)2015 年以前,小模型占优
小模型在当时被认为是最优选,它们擅长分析任务,并应用在各类预测和欺诈分类的工作上,但是这些模型对通用任务的处理表现并不好,想要让 AI 输出人类水平的内容或者代码是不可能的。
2)2015 年至今,大模型发展
Google Research 在 2017 年发表了一篇里程碑意义的论文《Attention is All You Need》,通过被称为 Transformer 的神经网络架构来生成高质量的语言模型,同时提高了并发处理能力,降低了训练时间,这些模型可以容易地针对特定领域进行定制。
随着这些 AI 模型变得越来越大,开始提供人类水平的处理能力。在 2015 年~2020 年期间,这些模型的计算量提高了 6 个数量级,这意味着在输出结果上超过了人类在书写、语音、图像识别、阅读和语言理解上的基准。
Source:公开网络
2020年 5月,OpenAI 推出的 GPT-3 模型从中脱颖而出,相对于此前的 GPT-2 是一个巨大的飞跃,它的参数量是前代的百倍之多,达到 1750 亿个参数量, GPT-3 能通过输入的自然语言判断和生成我们想要的内容,从某种意义上说它更像人类了,但是该模型并没有人类那样的价值观和约束,只是在形式上依靠庞大的数据量和更优的算法更加接近人类智能。
当然,这类模型取得了研究上的进展,但离商业普及仍然有一段距离,无非是部署起来成本高,存在诸多方面的商业化限制。
3)2022年开始,多快好省
2022 年开始至今的数月,AIGC 的发展可以说是超预期的,先是去年 10月一名叫 Somnai 的工程师在 Github 上发布了名为 Disco Diffusion 的 text2img (文本到图像)项目开始走红网络,再是今年 4 月 OpenAI 发布了 DALL.E 2 模型,一款融合了艺术家达利+机器人瓦力能力,能够生成高度逼真的原创图像的模型。
再到 5 月,Google 推出了在精度和质量上更出色的 Imagen 模型,7 月原 Leap Motion 联创 David Holz 的项目 Midjourney 开始走进大众视野,例如少楠的《产品沉思录》近期的封面创意就来源于此,还是宫崎骏风味的:
Source:shaonan with Midjourney
接下来是 8 月 Stable Diffusion 项目开源,Stable Diffusion 项目带来的主要革新是大幅降低了模型对内存和计算的要求,举个例子,原先 512 x 512 对图像一下子变成了 64 x 64,需要的内存减少了 98%!这就像是在上世纪把一台 Eniac 计算机塞到了乔布斯的 Apple II 个人电脑里,这种普及为技术的商业化提供了合适的条件。
Stable Diffusion 的革新或许刺激到了资本们敏锐的神经,今年以来 AIGC 的概念也是非常火,感兴趣的朋友可以访问我近日写的这篇《从 Stability AI 和 Stable Diffusion 看 AIGC》展开阅读。
4)当前,杀手应用的养料
就像是 4G 移动网络的成熟,千元机、网络速度提升以及网络资费下降,让大众进行短视频内容消费成为可能,随之出现的一波短视频&直播创业中杀出了抖音和 Tiktok,在 AIGC 领域预计或许也会出现这样的押韵,甚至也会有平台的出现,但红杉认为这个机会还是比较小的,更偏向于垂直应用。
02 市场生态和细分机会
AI 不仅影响业务和行业层面,按照技术语言叫多模态,按照大白话就是文字、代码、声音、图像、视频、3D 模型以及其它基础性载体,如生物化学分子等产生碰撞,这些不同的内容载体在更好的 AI 模型加持下,产生质量更高、容量更大、领域更垂直以及更创意有趣的市场机会。
Source:Sequoia
如果把这些参数量和晶体管对照,将大模型对照成 AI 领域的摩尔定律,红杉美国的观点是在 2025 年及以后看到较为成熟的商业化案例。
以下是红杉观察到的几个场景案例供参考:
- 文案(Copywriting):随着个性化和电子邮件需求增长,销售、营销以及客户支持这些场景都是 AI 模型的用武之处,这些场景下对文本的要求简洁明了,对时间和成本有一定要求, 在这些 B 端领域做自动化和增效解决方案是一个不错的机会;
- 专业写作(Vertical specific writing assistants):不像是通用的文本创作,在专业领域如法律合同起草和剧本创作会有机会,当然不同的垂类其工作流程和用户体验会有差异;
- 代码生成(Code generation):GitHub Copilot 是一款 AI 编程工具,它为当前使用这款工具的开发者创造了近 40% 的代码,未来将有机会服务于更广大的消费者,而不仅仅是软件工程师,毕竟在硅谷,工程师是个创造型的职业「doge」;
- 艺术生成(Art generation):目前艺术和潮流内容都已经可以通过 AI 大模型去完成,人人都可以通过这些模型创作以前只有专业艺术人员才能完成的风格,例如骑马的宇航员和在古埃及买面包的泰迪熊;
- 游戏(Gaming):理想情况是通过自然语言脚本叙述来创建复杂的游戏场景或模型,但这是最终状态,从当前看还有很长的路要走,当然短期来讲也有可行的机会,例如在微观的素材创作上,生成纹理这些;
- 媒体/广告(Media/Advertising):这是非常好的落地场景,将销售信息与动态视觉效果以多模态的形式展现在消费者面前,我展开举个栗子(未经严格验证)——抖音里的广告都是广告商的分发,或许未来是通过算法根据你的数据推荐生成展现在你面前,而不是推荐分发;
- 设计(Design):对于像我这样学设计和艺术背景的同学太有感触了,你还在为赛博网络画线搭模型而烦恼么?动嘴就能生成的模型谁不喜欢,无论是交给你的导师还是交给老板,AI 模型为你省去了繁重的执行工作,剩下需要的只是你的创意!最近在建筑领域已经看到了不少的案例,以及你或许有一天在 Photoshop、Figma 以及 Sketch 这些平面设计领域通过 AI 插件或者小功能一句话找到你心水的素材;
- 社交媒体和数字社区(Social media and digital communities):这个我就直接以国内的场景和个人理解表述吧,比如我在某博某红书某刻发一个有趣的图文动态,这个图可能是平台提供给我的有趣 AI 小工具,它可能是集成在表情包下面,我原来的搜索动作变成了即时的 AI 生成,可能有一天我的微信容量也不用这么大了……
03 产品形态与技术趋势
AIGC 的产品形态未来会是什么样的?以下是红杉的预测:
1)关于模型
AIGC 的产品构建在 GPT-3 或者 Stable Diffusion 等大模型上面,并且随着产品的应用以及用户数据的增长,将会反过来促进模型的优化:
- 模型在特定问题上的质量与性能
- 模型的大小和成本优化
2)关于产品
部分 AIGC 产品将作为现有软件生态系统中的插件存在,融入在 IDE、Figma 和 Discord中,例如 Midjourney 就一款依托于 Discord 的文本到图像创作工具,另外还有少量以独立形态存在的产品,例如:
- 文案创作:Jasper 和 Copy.ai
- 视频编辑:Runway
- 记笔记的:Mem
从现有的软件生态以插件形式存在,然后独立出来或许是一个冷启动的好方式,红杉表示已经在消费和社交领域观察到这种策略的成功。
3)关于交互
当前许多 AIGC 的 Demo 产品几乎是一次性完成的,即用户输入内容,模型输出结果,这些结果可以自动保存,又或者放弃重新生成,模型也在持续迭代,用户也可以将模型生成的结果进行进一步编辑、优化或二创。
今天,AIGC 的结果可以被用在原型或初稿制作中,这类产品很擅长将不同的创意点子融入其中,以推进整个创作过程,例如在建筑设计领域或者平面设计中起草各种 Logo 方案,然后由用户来做进一步“精修”。
随着模型越来越聪明,并积累了使用者越来越多的数据,这些原型或初稿也将越来越完善,直到缩短整个创作周期,甚至被作为成品。
4)关于品类
最好的 AIGC 公司通过打造用户使用数据与模型性能之间的飞轮来持续建立竞争优势。初创企业想要赢得这一胜利,必须建立这样的商业模型:
- 第一步:更多用户参与,迭代产品与数据积累;
- 第二步:更好的模型,反哺更好的产品体验;
- 第三步:进一步用户增长和更多参与。
这样的商业模型将会诞生在比较垂类的市场中,比如代码、设计或者游戏,而不是妄想做个大产品,什么群体都想服务。最好的切入方式还是在一些现有的应用体系中深嵌来得到增长,然后通过原生的 AI 方式慢慢替代落后的服务流程,当然积累数据和用户是需要花时间的,相信这是一种行之有效的增长策略。
04 风险提示
最后,红杉在文章中提示—— 虽然 AIGC 具有很大的潜力,但是就当前而言还有很多商业模式和技术上的问题没有解决,例如在版权、隐私安全和成本等方面。
总的来说,AIGC 还处在一个早期阶段,平台层的发展还不错,应用层还有很大的发挥空间;需要澄清的是,用户并不需要一些大的语言模型来长篇大论写一篇托尔斯泰式的小说,现有的模型已经足够创作一些博客初稿了,后期还有很多可以被释放与创造的价值。
第一波 AIGC 的产品犹如 iPhone 刚刚诞生的那样,充满噱头但还没有明确的商业模式和差异价值,虽然我们能从现有的产品和技术中对未来管中窥豹,例如刷到一些 AI 生成的精美图片。
最后,谈一点个人理解,这里的机会可能是模型在某个垂类上的内容供给效率高于当前人类工作人员的效率才会出现,就像推荐算法当初改变了传统的内容和商品分发效率那样,但就当前而言还不会有一个通用大模型一招吃遍鲜去生产所有各种形态的内容、脚本、方案、配方、公式、素材等等。
Reference:
[1] 《Generative AI: A Creative New World》,Sequoia
免责声明:在任何情况下,本文信息或表述,不构成任何投资建议;若有侵权,请后台联系删除。
作者:TimJ;来源公众号:江天Tim
本文作者 @江天Tim
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!