Chain of Thought:AI一思考,人类就……

01 引子:不算久远的AI往事

2023年底,Google大张旗鼓地发布了自己的多模态大模型Gemini,《Introducing Gemini: our largest and most capable AI model》。当时宣传之盛,大有要复刻Chatgpt横空出世时的风光。

但是,任凭谷歌如何大开香槟,业内并不买账,反而纷纷吐槽起谷歌竟也为了“优等生”的面子刷榜、水数据。刷榜迹象铁证如山,其中有一项尤为瞩目:在跟 GPT-4 对比推理能力的时候,谷歌“鸡贼”地给自己的模型用了叫做 Chain of Thought(链式思维)的提示策略,而用来作为对照组的GPT-4 呢,并没有。

这个提示策略能给大模型带来多大的差异呢?嗯,大约就是考试的时候一个人允许用草稿纸,另一个人只允许口算的差别。所以,当Gemini用了这样的开挂神器,要和“裸考”的Gpt-4比高下,自然会引来非议。

经此一役,Gemini有没有如愿被硬捧上宝座,不得而知。但CoT(链式思维)的江湖地位更为牢固了。几乎没有人能否认,它是提示工程中重要的策略之一,大模型们能不能跑出复杂的推理,生成符合逻辑的响应,端赖此君。

既然CoT如此重要,自然很值得一篇文章来好好讨论:

  • CoT到底是什么?它是如何产生的?
  • 为什么大语言模型有它没它,会有如此大的差异?
  • 在非技术领域,它有哪些应用?

02 诞生:进化而来的“思考力”

CoT全称是Chain of Thought,中文通常翻译为链式思维、思维链等。它是在提示词工程中被广泛使用的核心技术之一。它的中心思想就是当模型碰到复杂的推理问题的时候,要拆解成多个简单的子问题,并依次求解,形成一条完整的推理链条,再让大模型回答。

AI科学家之所以会提出这种“逐层拆解”的方式,还要从人工智能进化历史说起。

如果我们要给大语言模型“短暂又辉煌”的历史找一个关键的里程碑,那无疑是2017到2019年。那时候,Transformer模型的出现,为机器学习带来了新的方向。传统的全监督学习方法逐渐显得力不从心,研究者们开始探索以预训练模型为基础,辅以Fine-tuning的新方向。

但是,随着预训练模型的规模日益增大,Fine-tuning的成本也随之上升,而效果却不尽如人意。为了解决这个问题,提示工程应运而生。它通过提供任务指示和专家知识,使得AI的输入和输出更加符合训练时的数据模式。

到了2022年,LLM的提示效果有了显著提升,许多之前难以处理的任务,如对话和上下文理解,都取得了突破。然而,在复杂推理方面,大模型的表现仍有提升空间。如果让LLM处理算术推理、常识推理和符号推理,它给出的答案可能并不总是准确。

为了改善这一点,链式思维被提出。这种方法旨在帮助AI更好地处理复杂推理任务,提高其准确性和可靠性。这种逐步推理的方式不仅降低了问题的难度,还使得模型的推理过程更加透明和可解释。

我们用一个例子来说明CoT有多重要:

提问:这个餐厅原来有23个苹果。中午用掉了20个,然后又买进了6个。请问现在餐厅一共有多少个苹果。

这个在人类看起来平平无奇的计算题,在没有“链式思维(CoT)”的大模型时代,简直是黑暗降临。

因为没有链式思维的LLM会直接回答你:还有27个。

你甚至不知道它为什么会生成这么个离谱的答案。

好在我们有了CoT,它能要求模型逐步拆解这个问题:

  1. 这个餐厅最开始有23个苹果。
  2. 用掉了20个,所以是23-20=3。
  3. 又买了6个,所以是6+3 = 9。

所以,答案是9个。回答正确!

自此,大模型有了“思考之光”。此后技术界对于CoT,有了一系列的衍生研究,大致成果如下:

  1. 结合验证和细化:思维链推理过程中可能会出现误差,产生错误的推理步骤。为了减少这种现象,结合验证来获取反馈,并根据反馈改进推理过程。
  2. 问题分解:通过将多步骤推理问题分解成多个中间步骤,分配给更多的计算量,生成更多的token,再进行求解。
  3. 利用外部知识:结合外部知识对不确定的例子进行重新推理,减少分析中的事实错误。
  4. 投票排序:利用投票机制消除错误答案,然后对每个推理步骤进行独立的细粒度验证。
  5. 提高效率:通过优化模型结构和算法,减少不必要的计算量,提高推理的效率。
  6. 减少偏见:针对CoT可能产生的系统性偏见问题,引入了BCT无监督微调方案。这种方法可以训练模型在包含和不包含偏见特征的提示下给出一致的推理,减少偏见推理。
  7. Let’s think step by step:引入了一种简单的提示方法,通过在问题的结尾附加“Let’s think step by step”等词语,使大语言模型能够生成一个回答问题的思维链。这种方法无需额外的训练数据,可以直接应用于各种推理任务。

这些增强的技术手段,让大模型的“链式思维”除了“在中间加步骤”的总原则,有了更多的推理保障,让整个推理过程更严谨,生成的结果质量也更好。

03 应用:充分开发CoT,为我所用

到这里,也许你会问:CoT的功效我知道了,但我并不是算法工程师,平时只是要应用提示词进行工作,了解CoT对我来说有什么用?

在我们的经验中,即便是在内容创作、产品设计或项目规划等领域,只需掌握一些基本的增强技巧,依然能充分利用大型语言模型的推理潜能,点亮它的“思考之光”。

我们总结了五种实用的场景:

1. Let’s think step by step

做法:在输入问题之后,加一句后缀:Let’s think step by step。

收益:这是最简单的“链式思维”的启动语。在问题后加入这句话,会要求LLM不要直接跳结论,而是以一种逐步推理的方式来处理问题。因此,在一些简单的需要分步骤思考的场景,它会促进LLM主动分步骤,提高它回答的靠谱程度。

2. 复杂决策/评估的报告产出

做法:在一些复杂的决策/评估报告的生成场景中,我们可以用后缀“请说明理由/请说出你的推理过程”来让LLM说明他的评估理由,让它提供的报告不仅仅只有结果,还会决策/评估过程,使结果更具参考性。比如:

  • 当你提供一些人才绩效信息让它解读,并要求评估“我们如何确定销售团队中哪些成员是高潜力人才,哪些需要进一步培训,以及哪些可能考虑职位调整?请给出高潜力人才的评估,并说明理由”。
  • 当你收到了多方面的调研反馈,要对调研信息的重要性做一个排序,你可以这样要求“请根据XXX的标准,对反馈信息做一个分类以及重要性排序,并说出你的推理过程。

收益:在做一些复杂决策或评估时,决策的理由其实比单一结果更重要。而加上这一个短短的后缀,不仅仅能让LLM的产出更准确,我们也能收获一份有着合理决策过程的产出。

3. 头脑风暴,创意产出更精准

做法:我们可以用CoT的方式,让大模型帮助我们进行头脑风暴,产出方案。

举例:假设你是一家广告公司的创意总监,你需要为一家新兴的环保型清洁用品公司设计一个广告活动。

输入:我们如何创造一个广告活动,以提高这家环保清洁用品公司的市场知名度,并吸引对环保有高度意识的消费者?”请用链式思维头脑风暴出至少五个方案。

大模型:链式思维头脑风暴方案

目标:为新兴的环保型清洁用品公司设计广告活动,提高市场知名度,吸引环保意识强的消费者。

方案一

目标受众分析:环保意识强的消费者通常关注可持续发展,喜欢在社交媒体上分享环保生活方式。

创意概念:##“绿色生活,从选择开始”##

执行策略

制作一系列短视频,展示使用我们的产品如何减少对环境的影响。在Instagram和Facebook上发起#绿色生活挑战#,鼓励用户分享他们使用环保产品的照片和故事。

方案二

目标受众分析:环保消费者倾向于信任和支持那些公开透明、有社会责任感的品牌。

创意概念:##“透明化生产,清洁你我他”##

执行策略

开发一个微型网站,详细展示我们产品的生产过程和环保实践。

邀请消费者参观工厂,让他们亲眼看到产品的环保生产流程。

方案三

目标受众分析:环保消费者更愿意为有故事、有情感的产品买单。

创意概念:##“每一滴,都承载着地球的未来”##

执行策略

制作情感化的广告,讲述我们的产品如何帮助保护环境,比如减少水资源浪费。

与环保组织合作,通过公益活动提升品牌形象。

方案四

目标受众分析:年轻一代的环保消费者喜欢通过他们的消费行为来表达自己的身份和价值观。

创意概念:##“选择环保,选择潮流”##

执行策略

设计一系列时尚、有趣的环保清洁用品包装,吸引年轻消费者的注意。

在大学校园和音乐节等年轻人聚集的地方进行产品展示和推广。

方案五

目标受众分析:环保消费者通常对产品的成分和来源非常关心。

创意概念:##“源自自然,馈于自然”##

执行策略

制作一系列教育性的内容,如博客文章和视频,介绍我们产品中的天然成分及其对环境的积极影响。

在产品包装上增加二维码,消费者扫描后可以了解更多关于产品成分和环保故事的信息。

方案六

目标受众分析:环保消费者可能会对那些提供可持续生活方式解决方案的品牌感兴趣。

创意概念:##“全方位绿色生活”##

执行策略

与生活方式博主和环保KOL合作,展示我们的产品是如何融入日常生活的。

开发一个绿色生活指南,提供使用我们产品的各种环保小贴士。

通过以上链式思维头脑风暴,我们得到了六个针对不同方面和策略的广告活动方案,每个方案都旨在提高新兴环保型清洁用品公司的市场知名度,并吸引目标消费者。

收益:如果我们少了“请用链式思维的方式”,只是简单要求大模型“请给我五个方案”,我们收获的只有五个方案的描述。但是由于多了链式思维的要求,大模型就会从受众、概念、策略等步骤逐一进行分解,给出更精准的答案。

4. 为思考流程进行“自定义”

做法:以上的3种做法,我们都只是给到了LLM“你要进行分步骤思考”的要求,但并没有定义具体的步骤。但事实上,如果你已有成熟的思考步骤,也可以要求LLM跟着你的要求走。

举例:你想创作一个时间旅行的故事,想让LLM帮着构思情节,但你有着严格的思考要求,并不想让大模型放飞自我。你可以这样写:

我是一个科幻小说家,我希望你能帮我构思一部时间旅行的作品。请根据CoT逐步思考以下问题:

1. 定义核心概念:时间旅行如何影响人物和事件?

2. 探索可能性:如果一个角色可以回到过去,他们可能会改变什么?

3. 构建情节:角色的行动如何引发一系列事件,导致意想不到的后果?

4. 深化主题:时间旅行的道德困境和哲学问题是什么?

产出:一篇完善的故事大纲,不得少于2000字

AI的回答:

故事大纲:《时间的织者》

1. 定义核心概念:时间旅行如何影响人物和事件?

核心概念:

时间旅行不是简单的历史重写,而是一系列复杂的因果链。每一次旅行都是对时间织物的编织,每一次改变都可能产生无法预料的连锁反应。

影响:

人物:时间旅行者会经历身份的转变,从历史的旁观者变为参与者,甚至可能成为历史的创造者。

事件:历史不再是固定的,而是流动的,每一次旅行都可能导致完全不同的历史走向。

2. 探索可能性:如果一个角色可以回到过去,他们可能会改变什么?

角色:艾丽森,一位物理学家,发现了时间旅行的秘密。

可能的改变

个人层面:艾丽森试图修正自己过去的错误,比如挽救亲人的生命。

社会层面:她考虑改变历史上的重大事件,如阻止战争或灾难。

科学层面:她试图带回未来的科技,以加速当前社会的发展。

3. 构建情节:角色的行动如何引发一系列事件,导致意想不到的后果?

情节概述

艾丽森首次尝试时间旅行,成功回到了十年前,试图阻止一场导致她弟弟死亡的车祸。然而,她的行动意外地改变了历史,导致了一个平行宇宙的出现,其中她的弟弟成为了一个科技巨头,但同时也引发了一场全球性的经济危机。

事件链

初始行动:艾丽森回到过去,阻止了车祸。

第一次后果:弟弟幸存,成为科技巨头。

第二次后果:弟弟的公司开发了一种新的能源技术,导致全球能源市场崩溃。

第三次后果:经济危机引发社会动荡,艾丽森发现自己的世界变得陌生和危险。

4. 深化主题:时间旅行的道德困境和哲学问题是什么?

道德困境

个人与集体:艾丽森的个人行动对整个社会产生了深远的影响,她是否应该为了个人的利益而改变历史?

预知与责任:如果知道未来会发生什么,是否有责任去改变它?

哲学问题

自由意志与命运:时间旅行是否意味着命运是可塑的,还是说时间旅行本身就是命运的一部分?

历史的真实性:如果历史可以被改变,那么什么是真实的历史?

存在的意义:如果过去可以被重写,那么现在的存在是否还有意义?

故事大纲:

第一章:发现

艾丽森在实验室中偶然发现了时间旅行的可能性。

她对时间旅行的理论和实践进行了深入研究。

第二章:第一次旅行

艾丽森决定回到过去,阻止弟弟的死亡。

她成功改变了历史,但发现自己的世界开始变得陌生。

第三章:新世界

艾丽森探索新的历史线,发现弟弟成为了科技巨头。

她开始意识到自己的行动可能带来了更大的问题。

第四章:连锁反应

弟弟的公司引发了全球经济危机。

艾丽森试图找到解决问题的方法。

第五章:道德困境

艾丽森面临道德抉择:是否应该再次干预历史?

她开始思考时间旅行的道德和哲学意义。

第六章:时间的织者

艾丽森决定成为一个“时间的织者”,谨慎地修复时间织物的裂痕。

她学习如何平衡个人愿望和对历史的责任。

第七章:回归与接受

艾丽森最终接受了时间旅行的后果,决定活在当下。

她开始利用自己的知识帮助当前的世界,而不是试图改变过去。

第八章:新的开始

艾丽森关闭了时间旅行的实验,专注于当前的生活。

她成为了一个时间旅行理论的讲师,教导人们关于时间、历史和责任的重要性。

结语

艾丽森的故事成为了一个警示,提醒人们珍惜现在,理解每一个选择的重要性。

时间旅行不再是一个逃避现实的手段,而是一个关于责任和接受的教训。

这个故事大纲提供了一个关于时间旅行的复杂叙事,探讨了个人选择如何影响整个宇宙的深刻主题。通过艾丽森的旅程,读者可以思考时间、历史和存在的意义。

收益:

  • 无论是小说、演讲稿和方案,CoT方法通过逐步构建思维链条,每个步骤都建立在前一个步骤的基础上,使得整个故事或论述更加缜密、前后呼应。
  • 而且有了中间步骤之后,如果需要微调其中的某一个步骤,只需要继续给出指令,修改局部即可。不会影响到整体的框架,调整的效率大为提高。

5. 多轮对话时,重新唤起记忆

做法:有时候我们在做复杂的设计/分析时,可能会涉及到多轮产出。此时,CoT也有用武之地。由于每轮的设计可能都会有较长的文本输入输出,如果上下文内容多了,LLM就和人类一样,对较早的内容就“淡忘”。所以,我们在多轮讨论中,要提醒它结合上下文思考。

举例:我们要通过LLM来设计一个虚拟的游戏角色,已经跟LLM进行多轮设计:角色的核心概念、背景、形象、技能。最后一步是要结合以上所有内容,来设计角色的人际关系,那么在输入设计要求之后,可以加入后缀:<请根据以下流程来工作>

  1. 思考角色的核心概念
  2. 思考角色的视觉形象
  3. 思考角色的能力与技能
  4. 思考人际关系的设计要求

收益:能确保LLM综合多轮大文本的理解和思考,再给出结论。

04 结语:人脑的特权 vs 智脑的“模仿”

认知心理学教授斯坦尼斯拉斯·迪昂(Stanislas Dehaene)曾这样描述过“人脑的特权”:缓慢地、理智地、符号化地运作,是人脑的特权。只有它可以在任何可能的时候,提取具有普遍性、逻辑性的、明确的原则。

人类的大脑思考非线性和多维的,思维可以快速跳跃,受到情感、直觉和过往经验的影响。这种思考的结果高度个性化,且思考路径也是独一无二的。它有时并没有路径和步骤可循,但依然能推演出一个优质的结果。

而大语言模型的CoT技术,则更像是对人脑的一种“仿作”。它严格遵循线性,通过一系列有序的步骤来处理信息,每一步都基于前一步的输出,以此来确保推理的连贯性和准确性。但是在面对复杂、未知的问题,它依然缺乏人类情感的深度和直觉的灵光一现。

这似乎让人们可以松一口气:至少在未来不短的时间内,人类依然能稳居于智能生物链的顶端。同样的,在面对未知与不确定的路上,我们也只能踽踽独行。

作者:AI 实践干货
两位深耕AI产品设计的宝藏女孩 不间断实践干货分享

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部