无标签

发布日期: 2025-11-16

我们凭什么自称“智能”？

今年读到最惊喜的一本书就是《智能简史》。坦白讲，没有读这本书之前，我是被“简史”这两个字劝退的，因为现在“简史”类图书太泛滥了，过去的“史”被简完了，甚至还开始简起了未来的“史”。因此，从第一次听到戴雨森在播客上说他去年读过最好的书有这本时，到我开始阅读整整过去了一年。

智能本身就是一种生物现象，而且我们人类在这里面最有发言权。然而，很多产品，商家喜欢冠以“智能”二字，无非就是在其中引入了一些 AI 的元素，甚至在大语言模型兴盛之前，大多数被冠以“智能”的产品，都和 AI 没啥关系，最常见的比如说“智能手机”。

这本书给这个泛滥的词正本清源了：到底什么是智能。换句话说：我们人类携智能以令诸生物，雄踞智力鄙视链顶端，到底是怎么做到的？这本书从进化史入手，将智能这种现象总结为五次突破。每一次突破，都对 AI 的发展有所启发，有所应用，只是 AI 连人的百分之一都没有学到。这五次突破，时间上逐渐进化而来，在解剖学上，一层一层建成了我们今天的大脑。

第一次突破：转向

第一次突破，是从无脑到有脑的突破，是 0-1 的突破。这次突破，是我们开始区别于无法移动的生物（植物），变成一种两侧对称的生物，两侧对称可以移动的生物，为了生存，学会了转向。前进？左转？右转？不动？产生了一种基于效价（valence）的神经结构。每个神经元对刺激物形成了所谓“好”和“坏”的编码机制，有了诸多神经递质来承担具体的效价功能，比如多巴胺和血清素。不同效价的神经元被整合在一起，也就是神经网络，共同决策转向这件事。就是这样一次突破，两侧对称的动物，形成了两种本能：情绪、学习。

因为有了效价，定义好坏，也就是有了情绪。情绪通常有两个特征：效价和唤醒。效价当然就是区分好与坏的，而唤醒则决定着生物要不要消耗能量来移动。高唤醒正效价的情绪典型如：兴奋；低唤醒负效价的情绪典型如：抑郁；高唤醒负效价的情绪典型如：愤怒；低唤醒正效价的情绪典型如：幸福。

正是因为有了效价，那么生物就顺理成章要根据环境调整：希望得到更多的正效价，减少负效价。这就是最本能的学习：趋利避害。对于两侧对称生物来说，学习就是找关联，趋利就是，什么东东出现后会迎来正效价？避害就相反。而现实往往很复杂，正负效价出现之前，环境中千千万万的元素存在，怎么发现真正的关联呢？有四种技巧：选择效价事件发生前一刻的那件事；选择效价事件发生前，最明确的那件事；选择第一次出现那件事；选择之前已经验证过的那件事。

学习，就是改变神经网络中突触之间的连接机制。学习之所以有效，源于神经网络的可塑性，也就是神经元之间的突触连接可以强化，或者弱化甚至断开。这是第一次突破时就已经形成的机制。此后的每一次突破，无非就是复杂程度不同，层级不同。这也是人可以终身学习的生物学基础。

第二次突破：强化

第二次突破发生在寒武纪物种大爆发时期，一言以蔽之，就是脊椎动物的出现：在这场生存军备竞赛中，原本以线虫等简单生物为主的地球，进化出了有脊椎、有大脑的物种。大脑已经不是一个简单的转向小玩意儿了，而是有层次结构的机器，而脊椎显然可以做比移动更多的事。

这次突破，脑首先分化成了前中后三个区域，其中前脑更为复杂，还包含两个子系统，第一个子系统展开就是皮质和基底神经节；第二个子系统展开就是丘脑和下丘脑。而后脑连接着脊髓，控制着全身。这次突破，基本上给大脑确定了主体框架，鱼类的大脑和人类的大脑高度相似，也就是因为我们在这一阶段有相同的祖先。

脊椎动物面对的生存环境更加复杂，生存所需的“好坏反馈”（效价）来得比无脊椎时代要慢得多。以前那一套学习机制已经无法适应，两侧对称生物的效价单元进化成了下丘脑，上一代的全部脑，在新一代脑中只是一个模块。与下丘脑配合的是前脑中的基底神经节，基底神经节不仅控制着身体的运动，还有一个内置的预测模块，这个预测模块会预测哪些行为能带来效价，从而让身体去从事这些行为。可见，脑中有两个地方能控制行动：下丘脑和基底神经节。下丘脑控制行动也要通过基底神经节，可以说身体的运动指令被基底神经节统一管理了。因为下丘脑和基底神经节都是通过释放或者抑制多巴胺这种神经递质来控制运动的，不同的是，下丘脑只管本能（因为是两侧对称动物那部分嘛），而基底神经节会预测，是做长远计划的。

强化学习这门学科，从神经科学借鉴颇多。Sutton 发明的时序差分算法，是强化学习甚至是人工智能历史上的里程碑算法，第一次应用在双陆棋程序上就打败了人类。而生物学家对动物的解剖和训练实验发现了基底神经节功能之后，和 Sutton 的时序差分算法思想竟然不谋而合！写到这里，想起我曾经有一个想法：有效的人工智能算法都是通过实验验证过的有效学习方法，人可以从实验验证过的人工智能算法中借鉴学习方法。我在阅读这本书时，发现作者麦克斯·班尼特做了我想做的事。

这一阶段的大脑还具备了模式识别的能力。所谓模式，就是在纷繁复杂的世界中，重复出现的东西，例如气味、颜色、不同打扮的同一个人、不同角度的同一个物体等。因为物理世界输入大脑的只是信号，这些信号不一定一模一样，但对我们生存造成的影响却是一样的，这就促使大脑形成了模式识别的能力。大脑通过解码被激活的神经元来识别特定的事物，只要是识别过的模式，就不再需要学习就能在新的环境下识别出来。这意味着神经网络的神经元数量已经非常巨大了。人工智能中也有一个模式识别的分支，历史也悠久了，人工智能的模式识别，通常用一种叫做监督学习的方式学习，也就是从一堆标注有正确答案的数据中，反复训练，形成一个数学函数，最著名的就是辛顿老爷子的反向传播算法，他带领学生用神经网络来表示这种函数，在 ImageNet 上获得了巨大的突破，将人工智能发展史推进到了深度学习年代。然而，大脑却不具备监督学习这种机制，大脑通过自联想的方式，在变化的事物中抓住了模式，识别了模式，这就是皮质的功劳，是这次突破中形成的六个结构之一（皮质、基底神经节、丘脑、下丘脑、中脑、后脑）。

大脑的模式识别能力令人惊叹，尽管我们在记忆具体细节内容上不如计算机，但是在识别模式上却令计算机望尘莫及。一个人我们几十年前见过，多年以后我们依然能认出来，一件往事，别人提一些片段，就能回忆起更多来，一本书，我们自己忘了，但是别人讲一点开头，我们也能往下继续展开。而就算是今天的大语言模型，灾难性遗忘的问题，也无法彻底解决。至于大脑的皮质如何做到这一点的，至今科学家们也无法得知。

此外，这一阶段，我们还进化出来了好奇心和空间感知能力。好奇心这种机制让脊椎动物能更加适应环境，因为环境中总会有生物体此前没有见过的事物，提前探索出来就非常重要，如果总是躺在过去熟悉的模式中，遇到这种新鲜情况就可能有危险。人工智能尤其是强化学习中，一直都有一个 EE 问题，也就是 Exploit-Explore（利用-探索）问题，也正是基于这一点提出的。空间感知能力，则是皮质中一处叫做海马体的功能，它让生物能在空间中移动更加自如，记住自己身处何方。

最后，皮质的模式识别、好奇心、空间感知能力，都会把信息输入给基底神经节，由它来控制运动能力，决定是否采取行动。

第三次突破：模拟

大约一亿年前，海洋生物中越来越多的捕食性鱼类出现，驱使了一批生物逃离海洋。可见今天年轻人们热衷的“上岸”，多少也是刻在基因里的本能，是亿万年进化下来仍未被淘汰的一种倾向。上岸的生物中，进化出最多的是爬行动物，他们都是冷血性动物，有相当长的时间是保持不动的，因为无法根据外界气温调节体内温度。而我们的祖先，进化出了恒温性，活动时间大大增加，可以在爬行动物保持不动的时候，吃掉他们，这给我们今天的启示是：即使上岸了，也不能躺平啊。

恒温性这一生物特征，为神经元细胞提供了绝佳的环境，可以进行更为复杂的活动，于是大脑迎来第三次突破。第三次突破核心生物特征就是皮质分裂为四个区域：新皮质诞生；腹侧皮质变成杏仁核（依然用于识别各种带来效价的模式），嗅觉皮质和海马体还在。新皮质的诞生，让大脑有一项全新的功能：模拟。什么意思呢？就是事情还没发生之前，先把要做的事想象一遍。别小看这个能力，可以避免很多错误！比如一把烧红的铁块，我们模拟一下自己接触到，就知道很疼，所以就不会真正去接触。

新皮质的模拟功能，要在行动之前进行额外的运算，除了需要消耗额外的能量，还需要神经元的电信号传递稳定，而最核心的因素就是体内温度要稳定。这不巧了吗，我们哺乳动物就是恒温性动物啊！因为陆地上多了很多躺平的爬行动物，我们又能在新皮质里演练抓捕动作，这为哺乳动物生存提供了得天独厚的条件。唯一一种非哺乳动物的恒温性动物就是鸟类。

人类的新皮质区域特别大，观察人类的大脑，几乎只能看到新皮质区域。新皮质因为全面负责了所有的感知：视觉、听觉、触觉、味觉、痛觉。新皮质的感知有三个特点：填补性、逐一性、无法忽视性。填补性就是我们所谓的“脑补”，下面的图，都能读出来 EDITOR、三角形、球形、被包裹的条形物，就体现了这种特性。

填补性

逐一性就是，同样一个客观对象，如果我们能从中解读出不同的模式，那么我们不能同时读出多个模式，而只能一个一个解读。比如一只又是兔子又是鸭子的图，我们同一时刻只能解读出兔子或者鸭子。

逐一性

无法忽视性，就是我们常说的“洗眼睛”前发生的事，一个模式，一旦识别出来，就很难忽视它。哪怕是一个凌乱的对象，经人提醒，识别出其中的模式后，就很难忽视。下面这张图中有一只青蛙，你找到之后就很难忽视它了。

无法忽视性

新皮质的这三个特性本质上都是“模拟”的体现：即使没有真正感知到客观事物，你也可以借助新皮质的推断能力，在脑中“感知”它。新皮质这种模拟能力，让我们从此刻开始有想象、做梦等现象。但是，之所以被称为第三次突破，它带来的智能远远不止如此。

由于新皮质接手了所有的感知输入，它又具有模拟推断能力，因此它干了一件空前的事情：在大脑内部，为外部世界建立了一个模型。新皮质所有的感知输入，都在为这个内部模型提供证据，如果这些证据符合内部模型，大脑似乎不怎么工作耗能，也就是新皮质一直在用这个内部模型预测，外部世界实际的感知结果和预测一样，就不会发生任何事。比如我们走路，通常大脑注意力并不会去感觉每一步踏在地上的感觉（正念练习除外），而一旦踩空、踩到石头、香蕉皮等预测之外的事情发生，整个大脑就会立即工作起来。

预测一切，就是新皮质的特点。在内部为世界建立的模型，称为世界模型。今天人工智能中有一派持续批评大语言模型走歪了的科学家们，都在呼吁为 AI 建立世界模型，也正是来源于对大脑的这项研究。预测一切，让大脑具备了三项能力：替代性试错；反事实学习；情景记忆。替代性试错，就是会把各种方案在脑子里预演一遍，预演如果碰到了不想看到的结果，这个方案就会在执行之前被放弃，而不用付出真正的代价。反事实学习，就是在一件事已经发生了，在大脑中去改变某些条件模拟一遍，这就是人类的因果来源。情景记忆则是大脑完全是用模拟想象的方式重建过去的事实，而非从硬盘中直接读取。

人工智能再一次借鉴了大脑的这一能力，强化学习的时序差分学习算法并没有为环境建立一个内部模型，而强化学习中有另一类算法，叫做基于模型的强化学习，正是借鉴了新皮质的模拟这一特性。最著名的人工智能程序就是 AlphaZero。无模型的决策和基于模型的模拟能力，在不同的学科说法不同。行为经济学中，例如《思考，快与慢》这本书称为系统 1（快思考）和系统 2（慢思考），系统 2 就是基于模型的思考；动物心理学中，学者们将其称为“习惯导向的行为”和“目标导向行为”。

新皮质这块区域，再展开来看，有两片区域：感觉新皮质和额叶新皮质。感觉新皮质是真正在执行模拟的区域，然而何时模拟和模拟什么这两个更重要的问题，则是额叶新皮质来控制，换句话说，意图从额叶新皮质产生。如果一只老鼠的额叶新皮质受损，即使它具有模拟能力，但是也不会再有模拟现象出现了。如果是人类的额叶皮质受损，就会对一切都漠不关心，我们常说的“失去了意义感”。现代人类的额叶新皮质还更复杂一些，还分为运动皮质、颗粒状前额叶皮质、无颗粒状前额叶皮质。早期的哺乳动物，额叶新皮质几乎只有无颗粒状前额叶皮质，它的输入就主要来自海马体、下丘脑、杏仁核。

如果说感觉新皮质模拟的是世界，那么额叶新皮质模拟的就是自己。感觉皮质是被动推理，而无颗粒状前额叶皮质模拟自己则是主动推理，预测的就是自己接下来会干什么，饿了会吃饭，冷了会加衣服，这都是额叶新皮质的模拟功能。一旦模拟预测命中次数变多之后，行为就会从无颗粒状前额叶皮质移交给基底神经节，变成一种习惯，大脑不会再停下来想一想，比如我们起床后第一件事是看手机，这已经是基底神经节在接管的行为了，前额叶已经懒得管了。

今年夏天我在非洲旅行途中读了一本书叫《主动推理》，作者是卡尔·弗里斯顿。就是一本专门介绍无颗粒状前额叶模拟自己的数学原理及工程实践，我还没有完全读完，但是收获很多，我后来开发 app，就是想实践这一理论，很开心的是，《智能简史》这本书也介绍了弗里斯顿的主动推理思想。我现在能理解，为什么正念练习很有用，因为它就是在练习“用无颗粒状前额叶新皮质来控制已经交给基底神经节的行为”，无颗粒状前额叶才是中央政府，我们要把有些决策权从地方（基底神经节）回收，才更利于实现自己这个细胞共同体的伟大复兴。

感觉新皮质和额叶新皮质（早期哺乳动物主要是无颗粒状前额叶皮质）共同作用，让我们的祖先比爬行动物更加适合生存。感觉新皮质根据世界模型，模拟不同的选项（规划），从而做出选择，接下来执行选择时就靠无颗粒状前额叶皮质，调动工作记忆、注意力完成选择。注意力是这个过程中最神奇的现象，它也是皮质的模拟能力，和纯粹的想象相比，注意力是有现实事物约束下的模拟。当你专注在一件事物上时，大脑其实仍在模拟，只是所有模拟都围绕这个对象展开；一旦拿走这个对象，比如闭上眼睛，这种活动就变成了纯粹的想象。执行既定的选择，这个选择要放在工作记忆区中，否则注意力就很难持续，然后无颗粒状前额叶皮质还要抑制来自杏仁核带来的冲动，俗话说：将军赶路，不追野兔，野兔就是杏仁核带来的冲动，将军的行军地图和走过的路就是工作记忆，将军正在行进的道路就是注意力的源头。我理解的 ADHD，就是前额叶皮质中多巴胺产生不足，不能持续为一个选择分配多巴胺，以至于来自杏仁核的多巴胺就会夺走注意力。

此外，还有一个区域——运动皮质，则是运动规划的发源地。学习一项新的复杂运动，需要运动皮质，训练基底神经节，一旦学会了，就交给基底神经节了，不再需要运动皮质，比如骑车、游泳等。

总结来说，模拟的作用说明，具备想象力是智能的一次大突破。而大脑中，额叶新皮质是模拟的基地，基底神经节是自动化的基地。所谓的“刻意练习”，就是通过多次激活额叶新皮质的神经环路，慢慢变成基底神经节的神经环路。

第四次突破：心智化

我一开始并不太懂什么叫“心智化”，英文单词是 Mentalizing。找 ChatGPT 问了一下，得到人话版的答复如下：

心智化，就是在脑子里给别人“装一个大脑模型”，在想：他现在在想什么、感觉如何、为什么这样做。

所以说，这一次智能的突破，就是社会化大脑的开始：开始琢磨别的大脑了。时间是 6000 多万年前，灵长类动物出现，群居成为一种更佳的生存方式：很多个体之间的争端不必发生，减少了能量消耗，共享食物和危险信号也提高了个体的生存机会。

群居生活，给新皮质提出了新要求：除了模拟物理世界和自己，还要模拟其他大脑。这就是心智化的开始。

首先，在解剖学基础上，相比哺乳动物的大脑，颗粒状前额叶新皮质出场了。颗粒状前额叶新皮质在无颗粒状前额叶新皮质基础上加了一层更抽象的模型，它让新皮质在模拟时，把“我”给放进去，也就是说，颗粒状前额叶试图解释“意图”本身，可以说在生成“意义”、二阶模拟。

为什么无颗粒状前额叶模拟能力已经很强大了，为什么要多此一举再搞一个二阶模拟呢？这就是拜群居生活所赐。模拟自己的意图并不是目的，模拟其他大脑的意图才是目的。首先建立自己的意图模拟，然后把自己替换成其他个人，再次模拟，从而可以推测其他个人的行为。这是社会化的雏形，也是政治的雏形。

大脑的心智化，让人形成了一种全新的学习机制：模仿学习。通过观看其他个体的行为，来学习一种技能。而模仿学习，并不是在复刻外部动作，而是在推测对方每一个动作的意图，从而实现模仿。人类学习的技能，很少有原创的，几乎都是模仿学习而来。所以在一个群居动物群体中，传播性胜过独创性。

此外，心智化还发展出了一种预测未来需求的能力。为了将来满足某种需求而在当下采取行动。

第五次突破：语言

这次突破，终于把人类从其他灵长类亲戚中区分出来。语言的历史也不过几万年。语言的出现，让人类的学习方式前进一大步，可以从其他个体想象中的行为学习。回顾历次突破带来的学习方式的改变：

两侧对称动物：因为效价存在，有了学习的外部压力，还没有学习的机制。
早期脊椎动物：试错，强化。从自己的行为中学习。
早期哺乳动物：建立世界模型。从自己想象的行为中学习。
早期灵长类动物：建立心智化模型。从其他个体的行为中学习。
早期人类：有了语言。从其他个体想象的行为中学习。

为什么说语言让人类可以从“其他个体想象的行为”学习呢？语言可以让思想在不同的世代之间传递、积累、修改。如果说 DNA 是让生物特征在不同世代之间传递、积累、修改，从而基因（gene）形成的原因，那么语言就是模因（meme）的实现原因。

有研究说，大脑中负责语言的区域叫布洛卡区和韦尼克区，一个负责生成语言，一个负责理解语言。但是，其他灵长类的大脑中也有这两个区域，那为什么他们没有用于沟通呢？事实上，灵长类的这两个区域只用于表达情感，并不需要后天学习，而人类这两个区域则需要在新皮质的控制下，才能行使沟通功能。也就是说，语言能力需要后天习得，而不是进化而来的天生能力。

语言其实是人类共识下的一套标签和标签的组合规则。人类为什么能学会语言呢？有两个前提能力，第一个是共享注意力。爸爸妈妈指给我们看玩具，我们会顺着手指方向看过去，此刻我和爸爸妈妈共享了注意力；第二个是提问的能力，询问别人“饿了吗”“你想要这个吗”，可以知道别人的意图，探索别人的内部模拟。当把标签和标签组合规则应用于共享注意力，久而久之，就习得了语言，再次使用标签时，不再真的需要一个客观物体在现场，双方就可以共同想象那个对象。这些有意识的控制过程，重新给心智化的大脑叠加了语言能力。

语言能力意外地促进了利他主义。根据前面几次智能的突破来看，利他主义是不利于生存的，然而这不符合人类社会多年实践经验。利他主义有两种，一种是“自私的基因”促使的亲属之间的利他行为，还有一种互惠利他，那就是这一次你对我好，下一次我对你好，互惠利他才是真正走出亲属圈子，促使人类产生合作的利他。语言如何约束人类保持互惠利他的呢？说起来很简单，因为语言可以用来八卦。八卦的产生，归根结底都是那些不利他的行为，背叛、暴力、欺骗等，这些行为产生后，最容易通过语言传播，从而变相对那些违背了利他主义的人实施了惩罚，同时，好人好事也会通过语言传播来实施奖励。据人类学家邓巴说，语言中至少 70% 都是八卦。蛮有意思的，是八卦让人们之间合作。

本书最后，作者也讨论了今天的大语言模型。他们看上去已经很智能了，但是他们没有内部世界，没有主动推理。所以说，大语言模型只是通向未来的一扇窗户。下一次进化是什么呢？我们现在肯定不知道，但是可以确定的是，下次进化的智能一定会带着我们人类今天的智能特征继续前进，就如同我们人类今天还带着第一代智能的特征——情绪——在负重前行，是情绪让我们人类有了多姿多彩的生活。

刑无刀

https://xingwudao.me/2025/11/16/2025-11-16-%E6%88%91%E4%BB%AC%E5%87%AD%E4%BB%80%E4%B9%88%E8%87%AA%E7%A7%B0%E6%99%BA%E8%83%BD/