一个大模型是如何被炼出来的

贝琳_belin 2024-06-24 12:07:23

在大语言模型（Large Language Model，LLM）中，无监督学习、有监督学习和强化学习是机器学习的三个组成部分，也是训练一个大模型的三个基础阶段。他们各自扮演着不同的角色，并应用于不同的训练阶段和任务中。

第一步：无监督学习阶段

无监督学习也就是模型的预训练阶段，简单来说就是给模型投喂大量大量的文本，进行无监督学习的预训练，这样我们就会得到一个能够进行文本生成的基座。

一个大模型是如何被炼出来的

在预训练中，需要大量的文本作为原料，让模型从中学习，比如gpt-3这个基座模型的训练数据，就有非常多的互联网文本语料库，包含有新闻、图书和文献、科学论文、特定领域的数据集、社交媒体和论坛等等。训练数据的整体规模有三千亿的Token（具体什么是token我们将在下一个帖子中详细解释。先简单来理解的话就是基本文本单位）。

此时预训练的结束之后我们会得到一个基座模型，而这个基座模型并不擅长对话，你给他一个问题，他可能模仿上文，帮你继续生成更多的问题，但并不回答你的问题。这时我们开始进行第二步有监督学习

第二步：有监督学习阶段

有了大量的训练文本之后，我们就要采用“有监督学习”的方式，也就是通过一些人类撰写的高质量对话数据，对基座模型进行监督微调。

微调就是在已有模型上做进一步的训练，这个阶段呢，我们需要给基座模型看更多的对话数据，包括单轮的对话数据还有多轮对话的数据等，目的呢就是为了训练一个擅长对话的AI助手。

微调的成本相比预训练要低很多，因为需要的训练数据的规模相比较小，训练时长更短，在这一阶段里，模型不需要从海量文本中学习了，而是从一些人类写的专业且高质量的对话里学习（在这个阶段就产生了一个职业叫做AI训练师或者数据标注员，这个我们后边的帖子在慢慢细聊），这相当于既给了模型问题，也给了模型我们人类中意的回答，属于监督学习了。

这个过程被叫做监督微调（Supervised Fine-Tuning）简称：SFT。

完成后会得到一个SFT模型。

第三步：强化学习阶段

在强化学习阶段，模型进一步优化以提升在实际应用中的表现，从而模型能够自主的学习。

这个阶段主要包含一下两个步骤：

a. 人类反馈强化学习（Reinforcement Learning from Human Feedback, RLHF）

这个部分包含：人类评价、奖励模型（Reward Model）、策略优化

b. 反馈和调整

通过多次迭代的反馈和调整，模型逐渐学会生成更高质量的响应。这一过程通常涉及反复的生成、评估、调整和优化。

这些都相对比较好理解，但我重点要说的是奖励模型（Reward Model）

要让一个模型，能乖乖当一个乐于助人的AI助手，我们可以让模型对问题做出回答，然后让人类评测人员去给回答打分，打分的标准主要是基于3H原则（帮助性、真实性、无害性）

帮助性-helpful：模型的输出应该对用户有实际帮助，能够解决用户的问题或满足用户的需求。
真实性-honest：模型的输出应该真实可靠，不应捏造事实或误导用户。
无害性-harmless：判断模型的输出是否适当、是否包含偏见有害性信息等内容

如果打分高的话，模型能学习到要再接再厉，如果打分低的话，模型就学习到要予以改进。

但是靠人类给回答一个个打分，成本极高、效率极低。所以我们要训练出另一个模型，让模型给模型打分。在这一步里，需要训练一个reward奖励模型。他是从回答以及回答对应的评分里进行学习的。

模型得到评分数据的方式是：我们会使用不同模型构造同一问题下不同的回答，然后让人类标注员对回答质量进行比较排序，还有部分情况下是由人工补充满分的答案。让模型知道哪个答案是最好的。

虽然还是免不了要借助人类的劳动。但一旦有了足够的排序数据，就可以把数据用在训练奖励模型上。让奖励模型学习预测回答的评分。

奖励模型训练出来后，就可以用在强化学习上了，强化学习里，大模型的最初参数来自之前得到的SFT模型，但会随着训练被更新，奖励模型的参数则不会再被更新，他的任务就是对模型生成的内容打分，经过一轮又一轮迭代后，模型会不断优化策略，回答的质量也就会进一步提升。

最后这样一个大模型就在不断学习中炼成了。🎉

版权声明

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：产品经理产品思考发展历史大模型

上一篇 > 大致没差的AI判断，和大佬说的不怎么一样
下一篇 > 产品经理，从中级到高级，太难了！

相关文章

大模型来了，我还用搜索吗？

轮到抖音追快手了

从产品演进过程猜测AI产品趋势

梁宁：下一个10年，拼的是关怀

为什么互联网时代，你还有信息差？

疯狂卷投流的大模型应用们，到底哪款最好用？

华为三折屏未来的概念在于组合，而不是折叠

未来产品经理的角色演进与应对之策

与其说产品是被设计出来的，不如说是被表达出来的

订单的含金量在分化

质疑徕芬、理解徕芬、成为徕芬

一个初中生如何用hao123颠覆了互联网世界？

对AI大模型应用场景的深入思考（下篇）

深度剖析豆包AI耳机Ola friend

那些自欺欺人的产品规划

社交产品成功最核心的因素——得体

05-社区不要迷恋推荐体系

03-社区发展的两大阶段（第二篇）

数字营销的发展历程，数字营销的6大阶段

产品经理的价值到底是啥？

2025，互联网产品经理，因何而存在，又将往何方？

对AI大模型应用场景的深入思考（上篇）

个人商业模式思考：财富积累的秘诀

亲情卡背后的经济账：用户追求性价比视频网站防堵黑灰产

Few Shot：最少的样本，最大的可能

我敢打赌，这几类体验设计缺陷，你肯定犯过！

和纯银级别的大佬聊他的产品方法论

产品经理天赋：无中生有

商品计量单位转化关系管理

中国自动驾驶时代记：技术、理想和“真经路”

产品思维与人际关系：从用户体验到长期关系的启示

AI产品经理必修课：大热的AIGC究竟是什么

微信公众账号

微信扫一扫加关注