AIGC 中的大模型摩尔定律与范式转移

有新Newin 2023-08-08 12:22:07

本文核心观点来自红杉在 9 月发布的一篇文章《Generative AI: A Creative New World》，我按大白话翻译并做了删减和补充。

原文想要表达的意思是——“随着 AIGC（AI Generative Content）变得更快更强以及更低成本，在某些程度上将比人类手工创作得更好，AIGC 将使得知识性与创造性工作的边际成本降至 0 ，从而产生巨大的生产效率和经济价值，它将有潜力产生数万亿美元的经济价值，这些领域不限于社交媒体、游戏、广告、建筑、设计、法律、销售以及营销，每一个需要我们原创的领域都或多或少将有 AI 的参与。”

01 Why Now？为什么是现在

原作者将 AI 模型的发展划分为四波浪潮：

1）2015 年以前，小模型占优

小模型在当时被认为是最优选，它们擅长分析任务，并应用在各类预测和欺诈分类的工作上，但是这些模型对通用任务的处理表现并不好，想要让 AI 输出人类水平的内容或者代码是不可能的。

2）2015 年至今，大模型发展

Google Research 在 2017 年发表了一篇里程碑意义的论文《Attention is All You Need》，通过被称为 Transformer 的神经网络架构来生成高质量的语言模型，同时提高了并发处理能力，降低了训练时间，这些模型可以容易地针对特定领域进行定制。

AIGC 中的大模型摩尔定律与范式转移

随着这些 AI 模型变得越来越大，开始提供人类水平的处理能力。在 2015 年～2020 年期间，这些模型的计算量提高了 6 个数量级，这意味着在输出结果上超过了人类在书写、语音、图像识别、阅读和语言理解上的基准。

AIGC 中的大模型摩尔定律与范式转移

Source：公开网络

2020年 5月，OpenAI 推出的 GPT-3 模型从中脱颖而出，相对于此前的 GPT-2 是一个巨大的飞跃，它的参数量是前代的百倍之多，达到 1750 亿个参数量， GPT-3 能通过输入的自然语言判断和生成我们想要的内容，从某种意义上说它更像人类了，但是该模型并没有人类那样的价值观和约束，只是在形式上依靠庞大的数据量和更优的算法更加接近人类智能。

当然，这类模型取得了研究上的进展，但离商业普及仍然有一段距离，无非是部署起来成本高，存在诸多方面的商业化限制。

3）2022年开始，多快好省

2022 年开始至今的数月，AIGC 的发展可以说是超预期的，先是去年 10月一名叫 Somnai 的工程师在 Github 上发布了名为 Disco Diffusion 的 text2img （文本到图像）项目开始走红网络，再是今年 4 月 OpenAI 发布了 DALL.E 2 模型，一款融合了艺术家达利+机器人瓦力能力，能够生成高度逼真的原创图像的模型。

再到 5 月，Google 推出了在精度和质量上更出色的 Imagen 模型，7 月原 Leap Motion 联创 David Holz 的项目 Midjourney 开始走进大众视野，例如少楠的《产品沉思录》近期的封面创意就来源于此，还是宫崎骏风味的：

AIGC 中的大模型摩尔定律与范式转移

Source：shaonan with Midjourney

接下来是 8 月 Stable Diffusion 项目开源，Stable Diffusion 项目带来的主要革新是大幅降低了模型对内存和计算的要求，举个例子，原先 512 x 512 对图像一下子变成了 64 x 64，需要的内存减少了 98%！这就像是在上世纪把一台 Eniac 计算机塞到了乔布斯的 Apple II 个人电脑里，这种普及为技术的商业化提供了合适的条件。

Stable Diffusion 的革新或许刺激到了资本们敏锐的神经，今年以来 AIGC 的概念也是非常火，感兴趣的朋友可以访问我近日写的这篇《从 Stability AI 和 Stable Diffusion 看 AIGC》展开阅读。

4）当前，杀手应用的养料

就像是 4G 移动网络的成熟，千元机、网络速度提升以及网络资费下降，让大众进行短视频内容消费成为可能，随之出现的一波短视频&直播创业中杀出了抖音和 Tiktok，在 AIGC 领域预计或许也会出现这样的押韵，甚至也会有平台的出现，但红杉认为这个机会还是比较小的，更偏向于垂直应用。

02 市场生态和细分机会

AI 不仅影响业务和行业层面，按照技术语言叫多模态，按照大白话就是文字、代码、声音、图像、视频、3D 模型以及其它基础性载体，如生物化学分子等产生碰撞，这些不同的内容载体在更好的 AI 模型加持下，产生质量更高、容量更大、领域更垂直以及更创意有趣的市场机会。

AIGC 中的大模型摩尔定律与范式转移

Source：Sequoia

如果把这些参数量和晶体管对照，将大模型对照成 AI 领域的摩尔定律，红杉美国的观点是在 2025 年及以后看到较为成熟的商业化案例。

以下是红杉观察到的几个场景案例供参考：

文案（Copywriting）：随着个性化和电子邮件需求增长，销售、营销以及客户支持这些场景都是 AI 模型的用武之处，这些场景下对文本的要求简洁明了，对时间和成本有一定要求，在这些 B 端领域做自动化和增效解决方案是一个不错的机会；
专业写作（Vertical specific writing assistants）：不像是通用的文本创作，在专业领域如法律合同起草和剧本创作会有机会，当然不同的垂类其工作流程和用户体验会有差异；
代码生成（Code generation）：GitHub Copilot 是一款 AI 编程工具，它为当前使用这款工具的开发者创造了近 40% 的代码，未来将有机会服务于更广大的消费者，而不仅仅是软件工程师，毕竟在硅谷，工程师是个创造型的职业「doge」；
艺术生成（Art generation）：目前艺术和潮流内容都已经可以通过 AI 大模型去完成，人人都可以通过这些模型创作以前只有专业艺术人员才能完成的风格，例如骑马的宇航员和在古埃及买面包的泰迪熊；
游戏（Gaming）：理想情况是通过自然语言脚本叙述来创建复杂的游戏场景或模型，但这是最终状态，从当前看还有很长的路要走，当然短期来讲也有可行的机会，例如在微观的素材创作上，生成纹理这些；
媒体/广告（Media/Advertising）：这是非常好的落地场景，将销售信息与动态视觉效果以多模态的形式展现在消费者面前，我展开举个栗子（未经严格验证）——抖音里的广告都是广告商的分发，或许未来是通过算法根据你的数据推荐生成展现在你面前，而不是推荐分发；
设计（Design）：对于像我这样学设计和艺术背景的同学太有感触了，你还在为赛博网络画线搭模型而烦恼么？动嘴就能生成的模型谁不喜欢，无论是交给你的导师还是交给老板，AI 模型为你省去了繁重的执行工作，剩下需要的只是你的创意！最近在建筑领域已经看到了不少的案例，以及你或许有一天在 Photoshop、Figma 以及 Sketch 这些平面设计领域通过 AI 插件或者小功能一句话找到你心水的素材；
社交媒体和数字社区（Social media and digital communities）：这个我就直接以国内的场景和个人理解表述吧，比如我在某博某红书某刻发一个有趣的图文动态，这个图可能是平台提供给我的有趣 AI 小工具，它可能是集成在表情包下面，我原来的搜索动作变成了即时的 AI 生成，可能有一天我的微信容量也不用这么大了……