如何形象化地理解“AI、大模型、GPT”？

朱百宁 2023-08-09 00:41:02

自从ChatGPT横空出世以来，AI领域再次引起了广泛关注。

最近，有关AI的讨论络绎不绝，其中不可避免地涉及到一些诸如“样本、预训练、大模型”等概念和术语。

然而，要用浅显易懂的方式向非专业人士解释这些概念是相当具有挑战性的。

但这对于自己和他人，都很有价值。

正如爱因斯坦所言：“If you can’t explain it simply, you don’t understand it well enough（如果你不能简单地解释，那就说明你理解不够）”。

今天，我尝试把AI与人类学习和成长的类比，通过将AI与人们熟悉的事物进行比较的方式，简要介绍AI相关的原理、进展和意义。

1、“咿呀学语、蹒跚学步” vs “涌现”

带过小孩的家长都会有这样一个感觉：突然有一天发现孩子会说话了、会走路了。

这个过程并非像“0%、1%、2%…98%、99%、100%”这样逐个百分点缓慢提升，而是有一天突然发生了变化。

模型的“涌现”指的是在大量训练数据和复杂模型结构的支持下，模型突然表现出较高的性能和新的能力。

简单来说，就是“量变引起质变”的过程。

当训练样本足够大、算法迭代达到一定阶段时，模型的能力会突然提高。

能力“涌现”的前提，是大量不断的输入。

自孩子出生起，尽管他们听不懂、不会说，但家长要不断与孩子互动，跟他说话。在日积月累的过程中，有一天孩子的说话能力就会“涌现”出来。

模型的发展过程也类似。一开始可能什么都不会，即使“能说会道”，也可能表现出“智障”或者“一本正经地胡说八道”。

然而，在持续的大样本训练和算法不断迭代的过程中，有一天它就能达到像ChatGPT、GPT-4那样让人惊艳的理解能力、推理能力和表达能力。

2、“读万卷书、行万里路、与万人谈” vs“预训练（Pre-Train）、精调(Fine-Tuning)”

孩子们会说话、会走路之后，人的学习才正式开始。

一个人的学习成长，通常先经过基础教育、广泛的学习，再发展为专业的、深入某个领域的学习。

不仅要广泛涉猎，大量学习书本知识，还要进行实践和与人交流。

在这个过程中，应用所学知识，获取反馈，对大脑中的知识进行修正和提炼，即从“知识到智慧”，实现“知行合一”。

掌握了基本的知识和技能后，人们需要找到自己的专长领域。

在学校里，硕士生、博士生和教授需要选择一个细分领域进行深入研究。

每个人，也都需要找到自己的行业和职业。

对于GPT这样的大型模型，它们的发展也是通过类似的过程。

首先进行“大规模数据集”进行“预训练”，然后利用有标签的样本以及人类反馈，通过增强学习（Reinforcement Learning by Human Feedback，RLHF）进行微调和迭代。

模型的预训练，指的是在大量无标签数据上训练模型以学习基本知识。

这就像人在婴儿阶段以及从小学到高中阶段进行大量学习一样。不局限于某个领域，而是需要广泛且大量地输入信息。

精调指的是在特定任务上，利用有标签数据对模型进行微调，以便更好地适应特定任务。

这就像人在阅读了大量书籍后，还需要进行实践，从实践中获得反馈并成长。

许多伟人和名人，如毛泽东、列宁、马斯克、查理·芒格等，都非常热爱阅读，并乐于与人交流，在实际工作中大量实践。

只有这样，才能获得足够多的知识，才能塑造出过人的智慧。

3、“娇生惯养” vs“过拟合”

我们时常看到一些关于“孩子因为鸡毛蒜皮之类的琐事而做出傻事”的新闻，这通常是“娇生惯养”的结果，与模型中的“过拟合”现象有相似之处。

所谓机器学习，就是让机器从样本中学习，从而“拟合”出规律，进而掌握技能。

在训练模型时，如果样本过于单一或特征选择不当，就容易出现过拟合现象。

过拟合意味着模型将训练样本中的特殊情况误认为是普遍情况。

如此一来，在面对新的样本时，模型就无法做出正确的处理。

同样，娇生惯养（过拟合：over-fitting）导致的脆弱心智（模型）在面临现实世界中的各种挫折时，往往无法正确应对（预测不准确、泛化能力差），从而很容易导致不幸的结果。

因此，我们应该让孩子面对各种情况，并给予反馈，让他们了解并适应真实世界。

4、“职业教育/基础教育” vs “大模型、小模型”

人的教育有两种类型，一种是从小就教他一门手艺。比如“做菜、开车、做铁匠、木匠”等等，这样他就成为了一个专才。另外，就是先是漫长的基础教育，再是高等、专业教育。先打好基础，再选择专业方向。模型跟人一样，你给他输入什么，他就有什么样的输出，他就有什么样的知识技能。在大模型之前，大家熟知的猫狗识别、指纹识别、人脸识别等等模型，就是做特定的事情，类似于职业教育。

这样的模型可以称为“小模型”，一方面是模型的size小，另外一方面是模型的能力范围比较窄。GPT这样的模型之所以称为大模型，既是因为训练数据集规模大、训练出的模型size大，也指的是模型有广泛的能力，好像是“上知天文、下知地理”。读万卷书，就是大模型，发展出通用智能。只读菜谱、只练厨技，就是小模型，发展特定技能。