算法人生（1）：从“强化学习”看如何“战胜拖延”

养心进行时 2024-03-18 14:09:08

强化学习简介：

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它模拟了有机体在环境中的学习过程，通过不断尝试和获得反馈来优化其行为策略。在强化学习中，智能体并不是被告知应该采取何种行动，而是基于执行特定动作后获得的奖励或惩罚来调整其行为，旨在让模型通过尝试和错误，学习如何在特定环境中采取行动以最大化累积奖励。

强化学习的步骤大致为：

初始化：智能体（学习主体）首先与环境互动，根据初始策略选择一个动作。
执行动作：智能体在当前状态下执行一个动作，环境对此作出响应，进入一个新的状态。
接收奖励：智能体从环境接收一个奖励信号，该信号反映了环境对智能体当前动作价值的评价，可能是是正向的激励或负向的惩罚。正向激励可以理解为当智能体执行的动作导致环境产生了有利的结果，或者朝着目标更近了一步时，环境会给智能体一个正向奖励，如 1，以此来表明这次动作是值得学习并保留的策略。负向惩罚则是智能体的动作导致了不利结果或者远离了目标，环境会给智能体一个负向奖励，如-1，以此告诉智能体应尽量避免在未来采取同样的行动。
学习：智能体根据接收到的奖励和新的状态更新其内部的价值函数、策略或者其他学习参数。
决策：根据更新后的策略选择下一个动作，再次进入执行动作与接收奖励的循环。

这个过程会一直持续，直到智能体收敛到一个相对稳定的策略。强化学习是一个动态的、迭代的过程，需要大量的试错和时间来找到最优策略。通过不断地与环境交互，模型才能学习到如何在给定的任务中做出最佳决策，以实现长期目标的最大化。

由强化学习的原理，我们可以看出强化学习有以下常见的思路：

识别环境：智能体首先需要定义环境，这个环境决定了学习任务的规则和边界。
小步快跑：这跟敏捷开发的思路也类似，选定一个动作，环境做出响应，根据结果调整策略，进行下一个动作。
强正避负：正向行为的结果保留或发扬光大，负向行为的结果警惕不要再犯。
持续调优：同样跟敏捷开发类似，强化学习的过程是个动态持续调整的过程，只有不断地试错调整才能让让长期价值最大化。

对于拖延来说，我们同样可以采用类似的思路来克服拖延症对自身的影响：

1、识别原因，分解目标（类似强化学习中的状态与动作）：

拖延产生的原因可能很多，比如完美主义，害怕失败，约拿情结，被动攻击的心理或者是本身就讨厌做这件事等等，针对不同的拖延症原因，需要针对性地先解开“心结”，也就是识别自己拖延的原因，然后才能针对性的找到解决方法。

在识别自身拖延产生的原因之后，为了能走出拖延，需要将“宏伟的目标”分解成一个个小目标，以减轻给自己的压力过大，从而更没有动力战胜拖延。

举个例子，有的时候我们并不是讨厌做这件事情，但总是给自己找理由拖着不做，在对自我分析后，发现是“完美主义”在作祟，内在的潜意识总想要做到最好，才能对得起自己，对得起别人的期待，但是越是这样的自我期待，越让自己拖着不做，等待着以后的“好状态”，“好时机”来让未来变得“完美”，这时候需要先调整自己对做事的认知，学习接受不完美是常态。西游记里，唐僧一行取来的经书还因为落入水里少了一角，孙悟空劝唐僧说：天地本不全，何况是经书呢！此外，有时候适当地向下比较，学习原谅不完美，设定合理的目标和期望，遵循效果优先等等都是很好的方法应对“完美主义”产生的拖延。

在了解了自我拖延的原因是完美主义之后，就需要为自己克服拖延的目标分解成小任务，比如有件事因为完美主义被拖了很久，做起来可能需要花上几天的时间，那此时可以把这件事情分解成几个阶段性的小目标，每个小目标只有半天的工作量，然后不要管整件事情有多少个半天，先只想第一个半天的工作量，这样减化了工作量后，可以在这半天范围内尽可能的“完美”，但时间一到，就不再纠结这个半天的结果是否完美与否，整理下思路进入下个半天的“完美”准备工作中。

2、强正拖负，及时反馈（类似强化学习中的奖惩机制）：

对于造成我们拖延的刺激物（思想）要警醒，比如最近某个流行的剧更新了，很久没买能能让自己开心的手办了，这些思想在某些场景下能让我们及时获得应有的“放松”，是正向的。但在拖延的场景下，这些刺激物（思想）就会加重我们的拖延，本来就因为各种原因不想做，这些刺激物（思想）正好给了我们理由可以不做，心想着等做完了那些刺激物（思想）的事情再做这个“被拖延”的事情吧，可谁知道多巴胺刺激让自己“停不下来”，从而错过了“被拖延之事”最该做的时间点。

这时候，我们应该警惕这类型的刺激物（思想），如果发现它们会加重自身的拖延，可以采用以下方法来面对负面刺激物（思想）:

延迟满足：也就是延迟做刺激事情，当看到刺激物（思想），告诉自己等2个小时就可以满足自己，而不是当下满足自己；
替换刺激物：也就是为导致拖延的刺激物（思想）找到替换物（思想），此处的替换物（思想）需要不会让自己上瘾，但是又可适当“满足”自己，比如很想刷短视频放松下，但是当前又有必须要做的事情，可以喝一杯咖啡来放松，这个方法也满足了自己放松的想法，又不会占用太多时间；
更大的奖励满足：在拖延场景下，可以用更大的奖赏物来诱惑自己先做完“被拖延的事情”。比如，一口气把拖延的事情做完后，可以买个最爱剧的点映券，一口气看完想追的剧，就不用等后面几天的更新了。（想想就很美的奖励）

同样地，对于能让我们克服拖延的刺激物（思想），也需要识别并发扬光大，比如自己想拖延不学习的时候，一看到旁边的学霸，不服输的劲就来了，就很想跟他比个高下，然后就学起来了。而看不到这个学霸时，就没什么“比”的动力，就会拖着不学习。再比如，发现自己在定时定量工作后就固定休息一段时间，这样能有效减少自己拖延的频率或缩短拖延的时间，那么以后就可以重复沿用、多用这一策略。

注意，不同的方法在不同的场景下，产生的效果是不同的，同样的方法有的场景会产生正向效果，有的场景则会产生负面效果，因此在应用时要根据场景小心甄别方法的实用性，以及要掌握好平衡，再适用的方法一旦过了度，到了“执着”，也会转积极为消极的效果的。上述的举例中，如果过度运用“比”或者是在其他不适合“比”的场景应用这个思想，都会带来负面的效果，大家需要小心甄别。

以上方法，举例仅是为了让大家了解方法如何用，具体还要根据各自的情况，小心甄别。

3、持续调整，最大化效果（类似强化学习中的策略迭代）：

在治疗拖延症时，通过不断尝试不同的方法，观察并体验哪种方法带来的即时效果最好。同时，个体需要不断反思自己的行为和策略，根据完成任务的实际情况再进行调整，比如调整时间管理方法，或者优化工作环境以减少干扰等。

尽管强化学习中的算法通过短期奖励来学习，但其最终目标是优化长期的累积奖励。而在治疗拖延症的过程中，虽然采用了分解任务和及时的奖惩策略，但最终目的是帮助个体克服拖延，提高长期的工作效率和生活质量。所以个体也需要持之以恒地执行新的行为模式，并根据实际效果进行微调，最终形成一个适合自己的、能够有效克服拖延的行为习惯系统。划重点：任何行为习惯如果没有得到有效地“重复”，都可能被遗忘或思维链接被弱化而起不到应有的效果，所以持续调优很重要！

拖延，已经成为了现代人的普遍问题，工作压力大，个人对自我的期待高，害怕让别人失望等等都会让我们或多或少的有拖延心理。但只要自己愿意“识别自我”、“持续改善”，总能找到法子来应对！

生活中的思想很多是相通的，无论是程序还是人生，都可以互为启发，互为扶持，互为激励！如果你也有更好的想法，欢迎分享交流！

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！