投身LLM（大型语言模型），要从本质上想明白3个问题

马丁的面包屑 2023-08-08 20:53:27

最近我自己在看LLM的机会，也和创业者、投资人、从业者进行非常多的交流。大家普遍的感觉是“我知道他很好，但我应该怎么做？”。在被OpenAI拖着狂奔的过程中，涌现出了很多机会，大家都处于一种兴奋而迷茫的状态。

特别在OpenAI联手微软依次打翻文本应用（Jasper/Grammarly），办公软件（微软 Copilot），开发框架（OpenAI插件之于langchain），低代码（今天刚出的新闻）后，这种迷茫更进一步叠加了对中心化LLM巨头鲸鱼翻身的恐惧。

在深度思考后，我总结出这三个问题，并从底层本质进行了回答。他将会是我接下来看LLM机会的核心框架，希望对你有所帮助。欢迎点赞，转发，再看。

LLM下一个发展未来是什么
哪些落地方向更有前景
我们要做些什么准备

01 LLM下一个发展未来是什么

我在2月26日、3月2日分别做过LLM的未来预判，正确率几近100%，其中一篇是：重磅：盘点7大方向，谁将诞生ChatGPT领域的尤里卡时刻（七个方向仅有一个未被兑奖）

思考框架

但有一位朋友问了我一个印象很深刻的问题，“你是怎么做出这些预判的呢？”。这就是知其然和知其所以然的区别了，当时我回答不上来，现在我有了思考后的初步框架，与各位分享：

现在存在哪些问题需要解决
做哪些尝试可以带来更大的空间（当然也带来更多的待解决问题）
这些方向技术上是否可行
4. 这些方向的商业价值是否值得投入去改变

由此，我将LLM的未来分为两类：现状修复，开拓增量。同时施加技术和商业的双重判断进行校准。

表层知识

现状修复

No.1 居高不下的推理成本

目前表现最优的OpenAI GPT-3 Davanci 价格是0.02美元/1Ktoken（大约3800汉字/元），特化微调后的GPT-3.5 turbo价格是0.002美元/1Ktoken（38000汉字/元）。同期国内的百度文心一言据说API价格是0.12元/1Ktoken，比Davanci版本略微便宜一点。

列举这么多数据，是为了直观告诉大家现在的推理成本到底有多贵，只有少数业务能够满足到这个价格/成本的剪刀差。

基于这个问题，可以延伸出若干个子方向：

开源平替小模型，例如Meta开源的LLama及延伸出Alpaca-lora，ColossalChat等等，通过针对性微调，在更小参数量级（10B或100B）级别上对齐千亿参数的效果。

上下文压缩，通过文件分块后语义检索，或者长文分段摘要在合并等方式缩减上下文长度。例如ChatPDF，乃至bing（虽然他没公开，但我猜是）。

LLM本身的优化，例如英伟达在芯片层的工作，以及算法、模型结构、任务调度方面的优化。

可谓是八仙过海，各显神通，大语言核心厂家在做优化的同时，小玩家也通过各种手段拼命压缩成本。要让LLM进一步踏入千家万户，迎来像AI绘画侧SD算法那种爆发，推理成本一定是最重要的第一个方向。

并且他也一定能快速被解决，不管从LLM本身出发，还是上下文压缩的技术迭进，还是开源平替小模型，他的各项技术前景都是现实的。所以如果4月1号OpenAI又宣布降价，别惊讶，常规操作。

No.2 垂直适配难题

目前要微调一些专用于垂直领域的LLM，会面临若干问题：

头部大模型价格高昂：OpenAI的Davanci基本模型调用价格为0.02美元/1Ktoken，但微调后模型的使用价格变成了0.12美元/1Ktoken，翻了6倍。

而事实上，基于Lora机制（冻结大部分模型参数，仅微调调整少量参数）实现的微调新模型，他的成本不可能翻6倍之多。我怀疑OpenAI在通过这种极其高昂的定价策略，逼迫使用者进行低阶模型的微调（在次一级模型上微调后，尽管价格仍然翻6倍，但只是上一级模型价格的60%），从而获得低阶模型微调适配的珍贵数据。所以OpenAI下调微调模型价格的空间理论上是存在的。

而现在开源平替模型的出现可能冲击OpenAI的这种策略，他的微调价格可能会产生相应调整，并可能也开放自己的小模型平替。但这种情况其实和Google推出LLM一样，是自己在刨自己的根，非常难做出决定。

另一方面，微调的任务能力有限，目前常见的微调主要为通用领域，例如更好的营销文案写作，更友好/更专业/更严肃的回答方式，针对性的文本提取，情绪分类等传统NLP任务。真正迫切的知识更新效果很差的，即让LLM专门记住我这批专业数据，并老实回答，这也是为什么ChatGPT到现在还是只有21年以前记忆的原因之一。

No.3 上下文中注意力失控

在这里要简单科普一下上下文和注意力是什么。大家会看到GPT的原始版本是2K左右的token上下文支持，GPT-3时代变成4K，GPT-4时代变成8K和32K。

那么为什么上下文会是一个要逐步被解决的问题呢？因为他的本质是，当你输入一个超长上下文（包括你的指示、你的补充知识、你的示例等），LLM需要对你的上下文进行全面的理解，用到一个叫“注意力”的技术去计算每个字与字之间的关系，甚至这种关系产生在你输入的第一个字和你回答的最后一个字之间也存在。

当LLM生成回答的时候，他会基于注意力权重来计算本次应该生成哪个字来形成答案。而这个注意力权重他是要对所有你输入的上下文文本进行计算的，文本越多，他的计算资源要求就越多（这也是为什么OpenAI以token计费，并且输入的文本也要钱）。

大概了解上下文和注意力后，我们回归这个问题——那么当我计算了所有的注意力后，哪些注意力是更重要的呢？

这就是所谓注意力失控，或者说根本就不给我控。通俗来说，如果我希望你记得某个关键信息，我会把那个字体标红、放大10倍。

而在LLM的技术中，其实也有类似手段。在GPT-3.5 turbo API（即CHatGPT这个版本）中，他们定义了一个叫System的字段，可以看为是允许开发者自行定义最关键的注意力点。但实践中，system中的内容总是被遗忘，并且仅有一个字段来承载也不够适配业务中的丰富需求。

所以，可控，可配，可调的自定义注意力，是一个非常关键的优化点，可能在后续版本出现。

No.4 安全性补足

我写这篇文章的时候，马斯克发起的公开信已经有1000个人联署了，大概内容就是“AI很可怕，在找到约束方法前，你们（OpenAI）不准再迭代拉！”。

在LLM安全方面，其实OpenAI建立了第一套标准，主要分为两个方面：

幻觉，即不要回答你不知道的东西，不知为不知是智也。

有毒，不要种族歧视，不要性别歧视，不要地域歧视，不要引导做负面事情，阳光向上保持健康做个好AI等等。

在他们的公开论文中，GPT-4在2022年8月已就位，拖到23年3月才发布，全是为了解决上述的安全问题。

我对这个方向的看法是：翻版的西方环保问题。

他是不是问题？是的。为什么大家要说这个问题？有真正的担忧，也有利益上的诉求。他真的会被执行吗？领先者用它敲打追随者，追随者用它声讨领先者，双方肯定会挥舞大棒打成一团(我原本以为还要再等一段时间)。

他稍微与环保问题不一样的地方是：环保不存在技术实现问题，更多是利益的纠缠。而LLM的幻觉和有毒性，真的没办法完全解决，这一点的判断我完全站在杨老板这边。

有一个有趣的公司，Anthropic，成员来自OpenAI中脱离而出的创业者。一开始被Google投资了，和OpenAI一起上线了Poe应用做对比，效果实差。而且他的金主Google也发力自己搞了，整个情况风雨交加。但是他找到了一条合适的路子，站在了LLM安全这个领域，并推出所谓的RLAIF（人类反馈约束安全变成AI反馈约束安全）。

如果让我说，这就是时代的风口，环保问题解决不了，但是环保会撑起来一个庞大市场，并诞生如同环保少女这样的顶流。

No.5 可解释

这是我在7大方向文章中唯一不被现实兑奖的预测。但我仍然认为这是一个很重要的方向，解释性在所有决策类业务上都是非常重要的。

我最近几年没在做AI，做的是搜索推荐，你可以把这个搜索推荐也看成某种意义上的AI决策（AI决定什么东西到你面前）。而这个领域中，越是高行动成本的，就越需要可解释性和信息背书。

例如推荐你看某个短视频，你的成本几乎没有，不准的代价是手指划走；推荐你看某个电影，你的成本是几十块+现场观影的两小时，不准则收获坏心情；推荐你买金融产品，你的成本是一堆钱，不准则失去这笔钱。

你会发现，越是高行动成本的事情，你越需要推荐的解释理由以及更丰富的信息背书（影评，导演，精彩片段等等）。LLM也是这样的，他如果要进一步发展，就一定需要更深入地介入人类生活，更进一步地去接管，辅助高行动成本的事情，在这个过程中缺乏解释性是一个超级大的问题。

从纯粹LLM技术本身，我不看好他被解决——神经网络的可解释性都是一个超级古老的大难题，更何况LLM这种集大成技术的可解释性。但通过Cot，产品设计，信源定位等方式总是能部分缓解的，这也可能成为未来所有LLM设计必涉及的一个范式。

No.6 本质学习

这个观念来自下面这篇文章，是OpenAI技术人员分享的的LLM迭进理念https://mp.weixin.qq.com/s/hQmvltuMlClBonM6UJmtLg

文章中OpenAI的人员认为LLM的正确做法是：“明确 AGI 基础模型的目标（任务）并搜集尽可能多的有效数据，然后使用所有可能的无损压缩方式，从而得到对任务方法的最小描述长度。”我的理解就是学习本质，而不是学习表层知识。

整个思路有点像我本文的分享框架，比起给你表层知识，不如给你获得、分析这个知识的思考框架，用哲学上的话来说，就是先验胜于后验。例如我知道特朗普是美国总统，不如我理解总统、美国这些概念，进而再通过Bing获取信息来整合。

这也是我认为OpenAI放弃进一步堆叠知识，而借由外部工具（计算器，wiki，Bing）来提升能力的原因。他并不是对现实妥协了，而是始终在坚持他心中的最优策略，就像这几年他一直坚持GPT方向一样。

但可惜的是，即使他发现了一些新知识，大概也不会发paper了。

No.7 业务安全

这个部分逻辑很简单，排除成本问题，很多企业还面临数据安全问题。并且这种安全问题可能到了云端私有化也解决不了的程度。

因此OpenAI下一个重点一定会包括与Azure一起推进的云端私有化开放，但与此同时大量的小模型厂家（基于开源模型改一改自研的那些）也一定会迎来属于他们的机会。

这个真的很简单，我不多说什么了，只是这个事实确实还未完全发生，勉强算是预测，所以我放上来写一下。

No.8 降低门槛

门槛的一部分来自成本，在第一个章节已经讲过了。

门槛的第二部分来自各种开发框架，例如langchain或者Colossal-AI，支持开发者更便捷的实现应用。

门槛的第三部分我不太确定，有点怀疑是低代码+AI绘画+开发框架串起来的APP工作流。即未来每个人都能极低成本实现自己的APP。

这部分OpenAI有可能会亲自下场，特别是门槛三种专注表达想法，而Notion负责输出时的多样化演绎。

那么Notion，或者说现在的Notion AI 就是最终的形式吗？或者说像Office Copilot那样快捷实现多种文件的互相转换和便捷操作是最终的形式吗?

会不会有一种新的文件格式“.ai”，只需要你写好你的大纲论点，就可以在演示过程中实时自由延伸（扩写），并变换多种展示方式（从导图到PPT，又在局部变成可交互表格）？

我也无从得知，这种空想也没有意义，需要许许多多细微的创新堆叠起来才能成为新时代的标准范式。

事实上，新技术出现初期，人类的想象力总会被约束在旧的思维框架中而不自知。例如《Power and Prediction》这本书中的例子，当电力出现时，要用它取代工厂中蒸汽机。

仅仅只是替换就可以吗？蒸汽是有管道链接到各个机器的，而电力只需要一根电线。蒸汽是必须常开的，而电力却可以即时开关。蒸汽动力举例衰减严重，所以他需要在工厂中间，而电力却不用。所有这些本质不同最终催生了对工业生产在技术，工具，管理等多维度的深刻改变。

因此，我不相信目前简单在旧模式上叠加的创作，生产提效就是终局范式，更不要说生活范式由于更娱乐化的手机、VR、音箱等端还未完全落地，更是起步初期。

在这样一个时期，谁先打磨出新的文件格式，先打磨出新的范式（创作/工作/生活），谁就有可能吃到最好的机会。——但是感觉巨头们绝不会放过这个场景。

No.3 AI化浪潮中的机会

AI化是浪潮，那么帮助他人跟上浪潮的过程就会产生机会。这个他人，又可以分为2C和2B。

但不管2C2B，我们都可以把他们粗略地分为三类：

1. 赚信息差的钱

2C：教画画，教注册，教写作，教分销，10天涨粉30000，批量起号日赚5000。
2B：每月20美元，帮助你开掉数据分析人员，5000元快速接入CHatGPT进直播间/小程序/公众号

2. 赚工具+AI差价的钱

2C：ChatPDF，ChatPaper，或其他任何工作、娱乐价值的AI应用
2B：SaaS服务叠加AI，有些观点认为LLM会摧毁大部分SaaS，我的观点恰恰相反。LLM能够提升SaaS的能力上限，并降低他的适配成本，从而推动SaaS繁荣。

3. 赚自主训练模型的钱

2C：单机版LLM，劣化但能用
2B：私有化部署，或MaaS但相比巨头LLM更低价

No.4 劳动力迁移中的机会

农业革命后，单位农业生产力溢出，导致农民流向了工业。工业革命后期，溢出劳动力流向了第三产业。那么现在，因为AI溢出的劳动力（并且较为优质），他们会流向哪里？

是附生在新AI的周边服务上，还是流向内容产业（我们的内容供给到极限了吗？），还是像有的朋友所说，回流到第一第二产业？

这种劳动力迁移中，一定会伴随着相应的机会出现。机会在哪里，我看不出来。但一个好的方法是观察美国，他们的劳动力市场更敏锐，他们的资本家也更冷酷，整个迁移方向有可能在美国先表现出来。

No.5 人文思潮的变化

生产力的变化也会带来人文思潮的变化，例如工业革命抹除了男性和女性的体力差距，并使女性具备经济独立，从而推动人格独立。再例如移动时代的碎片化特性使得短平快的奶头乐内容逐步取代长篇深度内容。

那么LLM技术会带来什么？一个猜想是前面提及的“信任感”，人类可能在未来逐步更相信AI，不再具备初次使用时的恶意。另一个极端则是对“AI危机”的警惕抗拒，例如今天马斯克发起的联名信其实就借用了这样的焦虑。

但是否还有其他更深远的影响呢？例如AI内容提效后，进一步推动创作者的两级分化：99.9%的好作者，和0.1%的超级好作者？例如AIGC飞速爆发后，对机器推荐的信任转向真实KOL的信任（人肉信息过滤器）？

不过人文思潮的变化更多影响通常集中在内容行业，或者说创作者领域，我能想到的就是赶紧开个反AI的号，从今天开始立人设。

No.6 能不能更具体点

看到这里你可能会有些失望，你说得这些似乎都很宽泛，有没有更实在具体一点的干货。

首先，如果你自己没有任何方向上的思考判断（并且是结合你自己过往经验的），我奉劝不要下场，任何只消化表层知识而不建立自身框架的行为都是雁过无痕的，就像收藏=已读一样。

其次，如果你真的要…看我的分析库链接吧，里面有69个方向（在这个大章节的开头），但是这个库我后面的更新频率会越来越低，因为他对我的价值越来越低了。我已经过了看遍青山的阶段。

03 我们要做些什么准备

思考框架

我们要去判断这次技术浪潮带来的改变，基于变化决定我们要做什么准备

生产力的飞跃，带来生产效率的提升，重复性工作消亡，并产生更广阔的生产范围
生产力飞跃带来的认知错乱，观念建立就被打破，认知共识后就被抛弃
生产力与生产关系不适配时产生的阵痛，包括劳动力市场、人文思潮、经济变化

表层知识

1. 拥抱UGA元年

在这里，让我创造一个词语：UGA，User Generated application，区别于UGC。

现在越来越多的趋势表明，LLM的辐射范围不仅仅局限在内容创作领域，更包括应用创作领域，OpenAI接口的易用性，Github Copilot、Microsoft Power platform的发布都证明这一点。

以下是一个APP搭建过程中的一些必要劳动：

原型图/设计稿/宣传画：AI绘画工具搞定
后端/算法/前端：开源框架/Github Cpilot/Microsoft Power platform搞定
数据：LLM生成搞定
运营：好吧好像暂时还得我自己来

所以你需要做的第一件事是，开始你的创意，并用各种工具努力去把它做出来，不要管他多丑陋、多无聊，开始才是最重要的。

2. 找本质，先验胜于后验

在LLM盛行的未来，表层知识的价值会越来越低，有史可证：

在没有搜索引擎的时候，我们会记录所有知识，有了搜索引擎后，知识随用随取。

而LLM时代，他比搜索引擎更进一步，能够帮我们更高效，更匹配地找到所需知识。

那么当LLM落地到手机端甚至VR端的未来，你不仅在电脑面前无所不知，而是随时随地无所不知了。

在这种情况下，你最稀缺的能力就是更本质，更先验的底层思考框架，就像OpenAI的他们的目标一样——始终找到更优雅的理解这个世界的方式。

3. 保持好奇心，但做好信息管理

飞速变化的世界，会有非常多的信息涌进来，在这方面，我以个人的经验给一些建议：

第一，挑选你的信源。这里要注意你的信源是跟随你的成长而变化的，有些作者在你初期会觉得很有帮助，但随着你的自我迭代，他们理应是从信源被移出的——这就是你已经平视甚至俯视他了。永远不要觉得“万一他发了一些有用的怎么办？”，注意力是非常珍贵的，果断、勇敢下手干掉！移出关注，不看朋友圈，取消订阅！
第二，做高效飞速的阅读。我的阅读习惯是，先从顶部到尾部快速浏览一遍，根据标题或关键字判断内容质量，然后再判断是否值得深入阅读。所以英文世界其实对我很不友好，我不是不能读英文，但是我的语言水平没有到一目十行的地步……这个时候就用一些语言翻译工具吧。从这个角度来说——文字，其实也是视觉模态。
第三，做有输入的阅读。我现在基本不在移动端阅读，移动端用来做过滤筛选，我会通过第二点中的方法判断信息质量，然后转发到稍后阅读。当天在PC端进行扫货，然后转译摘要，记录到flomo中。如果读过而不提取精华，那么本质和收藏是没有区别的。

投身LLM，要从本质上想明白的三个问题：未来是什么，哪些机会更好，我们要怎么准备

4.拥抱不可控性

很多人问我，AI产品经理有别于其他行业产品的本质区别是什么。

我的观点发表在AIGC之我见 Vol.12，到目前都没有变过：“技术理解，商业判断，产品设计这些都是产品的基本功，不会因为他是AI产品就有本质上的区别。AI产品经理最大的本质区别在于对不可控性的控制，他手里的工具在技术、市场、效果等各方面都呈现出极大的不可控性，而产品经理最核心的能力就是控制它，在起伏的海浪中寻找One piece”

现在将这句话送给读到这里的各位，现在这不仅是AI产品经理的核心能力了，也是这场时代风暴下所有人应当共有的能力。

本文作者@马丁的面包屑。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！