心智社会：从细胞到人工智能，人类思维的优雅解读_7.5 学习与记忆_马文·明斯基

只有得到奖励我们才会学习，这是一个古老而盛行的理念。一些心理学家声称，人类的学习完全是以奖励的“强化”为基础的：就算训练自己不需要外部激励，我们仍然是为了奖励而学习，只不过这种奖励是来自我们内部的信号而已。但是如果一个论据的前提假设正是它要证明的内容，那么它并不可信。而且无论如何，当我们试图用这一理念来解释人们为什么学习解决困难的问题时，就会进入一个死循环。你首先必须有能力做某件事，才能因为做这件事得到奖励！

一个世纪前，伊万·巴甫洛夫研究条件反射的时候，这种死循环并不是什么大问题。因为在他的实验中，动物从不需要产生某些新行为，它们只需把新刺激与旧行为相联系就可以了。几十年后，哈佛心理学家B.F.斯金纳扩展了巴甫洛夫的研究，他发现更高级的动物有时确实会展示出新的行为，并将其称为“操作”。斯金纳的实验证实，如果某个特定的操作之后伴随着一个奖励的话，之后这个行为更有可能经常出现。他还发现，如果动物无法预测奖励将会在何时出现，这种学习的效果更好。斯金纳的发现被称为“操作性条件反射”或“行为调节”，这在心理学和教育学中产生了很大的影响力，但还是没能解释头脑究竟如何产生新行为。此外，这些动物实验也很少能说明人类是如何学会制订和执行复杂计划的，因为问题在于，那些动物几乎无法学会这样的事。奖励/成功和惩罚/失败，这些成对出现的理念不足以解释这一点：人类如何学会产生新的理念，让他们可以解决困难的问题。这些问题如果没有多年徒劳无益地试错是无法解决的。

答案一定是：学习更好的学习方法。为了讨论这些事，我们要开始使用一些普通的词汇，比如目标、奖励、学习、思考、识别、喜欢、想要、想象和记忆，所有这些词都基于古老而模糊的理念。我们会发现这里面的许多词都要用新的特性和理念来替换。但它们之间仍然有一些共性：要解决任何一个难题，我们都必须利用各种类型的记忆。在每个时刻，我们都要记录刚刚做了什么，否则可能会把同样的步骤重复一遍又一遍。此外，在某种程度上，我们还必须维持自己的目标，否则最终可能做的是无用功。最后，一旦问题得到解决，我们需要提取如何完成这件事的记录，当未来出现类似的问题就可以拿出来用。

本书中有很多内容都会涉及记忆，也就是对过去思维的记录。为什么、如何以及什么时候做这种记录呢？人类的头脑解决一个困难的问题时，好几百万的智能体和程序都参与其中。哪些智能体足够聪明，可以猜到那时需要做出什么改变呢？高级的智能体无法知道这种事，它们几乎不知道存在哪些低层级的程序。低层级的智能体也不知道自己的哪些行动帮助我们实现了高层级的目标，它们也几乎不知道高级目标的存在。负责移动我们腿部的智能组并不关心我们是往家走还是往工作场所走，负责目的地的智能体也完全不知道怎样控制肌肉单元。那么是思维中的哪个部分来判断哪些智能体应该表扬，哪些应该批评呢？