无标签

发布日期: 2025-12-12

强化学习：⼈⼯智能的交互式学习范式

这是我在工信部上给工信部各系统的研究人员做的一个 1 小时分享。

开场（约 3 分钟）

各位朋友，大家好。（简单自我介绍）

接下来这一个小时，我们来聊一聊人工智能里面一个既基础又前沿的话题——强化学习。

大家最近一定经常听到“大模型”“大语言模型”“智能体（Agent）”这些词，但很多时候，我们看到的都是“它能干什么”：能写材料，能写代码，能画图，能聊天。

今天我想换一个视角：
我们不只是把 AI 当成一个工具来看，而是把它当成一个“会自己学习、会自己试错的智能体”来看。

这背后，支撑它“自己学会做事”的核心思想，就是——强化学习。

今天我们分五个部分：

先看一个走迷宫的小演示；
再用这个例子解释：什么是强化学习；
然后讲一讲：我们是怎么训练一个“智能体”的；
接着看看：强化学习在今天的大语言模型里扮演什么角色；
最后，回到“智能体（Agent）”这个概念：看看我们今天的 LLM-Agent 有什么局限，未来可能走向哪里。

好，我们先不讲概念，先看一个小实验。

1. 先看一个演示（约 5 分钟）

现在请大家看大屏幕，我打开一个网页，是一个走迷宫的机器人。

机器人走迷宫截图

你会看到一个简单的迷宫，里面有一个小方块，就是我们的“机器人”。它的目标，是从起点走到终点。

我先让它“从零开始学”，一开始它什么都不会，只会瞎走：
——有时候撞墙，有时候绕圈，有时候往回走，看起来非常笨。一旦超时（五十步没走到终点），直接强制重启。

但是，我们在后台给了它一个非常简单的规则：

走到出口，给它一个正奖励+10；
负奖励：撞墙-5、多走一步-1；
其它情况，没有奖励。

然后我们让它不断地在这个迷宫里“试错”：

每走一步，它就记住：在这个位置，我刚才做了哪个动作，结果是好是坏；
下一次再遇到类似的情况，它就更倾向于做“历史上带来好结果的动作”。

我们把这个过程看完后，你会看到：

一开始完全乱走；
过一段时间，迷迷糊糊找到一条路；
再过一段时间，它开始走得越来越稳；
最后，它几乎每次都能以最短路径走出迷宫。

这个演示想说明什么呢？

第一，我们没有告诉它“正确路径”是什么。
第二，它完全是靠“自己试错 + 自己总结”，一步步学会的。

它学的是：
在什么状态下，该采取哪一个动作，才能在长期获得更高的奖励。

这就叫做强化学习。

2. 这就是强化学习（约 10–12 分钟）

刚才这个走迷宫的例子，就是一个最经典的强化学习场景。

我们先给它一个直观定义：

强化学习，是让一个“智能体”在环境中反复试错、根据奖励（好或坏的结果）来调整策略，从而学会在长期获得最高“回报”的一种学习方式。

2.1 和其他几种机器学习的区别

先把它和大家可能听过的另外几种学习方式对一对：

监督学习：
- 有一大堆“题目 + 标准答案”，模型的任务就是“尽量把答案预测正确”。
- 比如：给你一堆带标签的图片，“这是猫”“这是狗”，你学会区分猫狗。
- 像一个善于考试的做题家。
无监督学习：
- 没有标准答案，只有一堆数据，让模型自己去发现“模式”“结构”。
- 比如：给你一堆用户行为数据，让你自动分群，看看有哪些类型的用户。
- 像外部咨询专家。
强化学习不一样：
- 它没有直接的标准答案，只有“结果好不好”的信号；
- 它关心的不是“一次预测对不对”，而是“一串行动下来，整体好不好”。
- 业务骨干，真正解决实际问题的人。

2.2 强化学习的几个关键元素

听起来强化学习最靠谱，为什么呢？我来看看正式看一下，强化学习包含哪些元素。

以刚才走迷宫的 demo 为例，其实已经包含了强化学习的几个标准元素，我们用一点点术语来整理一下。

在强化学习里，一般有这些基本构件：

智能体 Agent：
那个在环境中“做选择”的东西，就是刚才的小方块机器人。
环境 Environment：
智能体所处的世界，刚才就是迷宫。
状态 State：
当前环境对智能体来说“长什么样”。
比如：机器人所在的坐标、附近墙的位置。
动作 Action：
智能体可以做的选择，比如：向上、向下、向左、向右。
奖励 Reward：
环境给智能体的一个分数：好行为给正分，坏行为给负分。
比如：到终点 +10，每多走一步 -1，撞墙 -5。
策略 Policy：
一套规则，告诉智能体“在某个状态下，怎么选动作”。
这就是智能体要学出来的“本事”。策略是智能体的“本我”。
回报 Return：
不只是看当前这一步的奖励，而是从现在到未来所有奖励的加权和。
价值 Value：
一个状态（或者状态+动作）的“长期好坏程度”，是对未来回报的一个估计。Return 是实际回报，Value 是估计。

如果简单概括一句话：

强化学习就是：
在状态和动作之间，学出一套“策略”，让长期累积回报最大。

2.3 再回到迷宫的例子，帮大家标一下元素

我们再回头看刚才的演示，用刚刚这几个概念重新看一遍：

智能体：迷宫里的那个小机器人；
环境：整个迷宫地图；
状态：机器人当前在第几格、上下左右是否是墙；
动作：四个方向的移动；
奖励：
- 到了终点，给一个大大的正奖励；
- 撞墙、走回头路，给小小的负奖励；
策略：
- 一开始完全是随机的；
- 后来经过多次试错，它形成了“在不同格子要怎么走”的经验。

所以要点是：
我们没有教它“迷宫的解法”，只是定义了奖励；
剩下的，都是它自己通过和环境互动学出来的。

2.4 “智能体”这个概念很关键

接下来，我们会不断用到“智能体（Agent）”这个词。我们稍微给它一个更有画面感的解释：

智能体，就是一个“能自己感知环境、自己做决定、自己采取行动，并且根据结果不断调整自己行为”的实体。 事实上智能体的英文 Agent一词源于拉丁语agens，即agere（意为“做、行动或驱动”）的现在分词，指具有行动能力的实体，通常拥有某种程度的自主性或委托权限，可被视为变革或事件的发起者。

它可以是：

看得见的：
- 机器人/狗、无人机、自动驾驶汽车；
- 春晚舞台上走路跳舞的机器人。
也可以是看不见的：
- 在电脑里玩游戏的 AlphaGo；
- 在服务器里根据交易数据自动调仓的量化交易机器人；
- 甚至你可以把“大语言模型 + 一套工具调用逻辑”，看作一个“看不见的智能体”。

强化学习研究的，就是如何系统性地训练这样的智能体。

3. 强化学习算法：训练智能体的方法（约 15–18 分钟）

有了直观概念，我们来讲一讲：
我们怎么从最简单的问题，一步一步走到复杂的智能体。

3.1 从最简单的“老虎机问题”说起：多臂赌博机（Multi-Armed Bandit）

先从一个非常简单、但非常经典的问题开始——“多臂赌博机”。

无状态的多臂老虎机问题

想象你走进一个赌场，有一排老虎机，每一台机子的中奖概率不一样，但你不知道哪一台更好。

每玩一次，就要投一次币，你的问题是：

在有限次数的情况下，怎么一边尝试、一边逐渐把精力放在更赚钱的机器上，让总体收益最大？

这就是多臂赌博机问题，它体现了强化学习一个很基础的矛盾：

探索（exploration）：去试一试还不太了解的机器，说不定更好；
利用（exploitation）：用你目前看来最好的那台，多赚一点。

解决这个问题，有各种算法：
比如 ε-greedy、UCB、汤普森采样等等，它们做的事情本质上是：

一边积累统计信息，一边控制好“探索 vs 利用”的比例。

这还是一个没有“状态”变化的简化版强化学习。

3.2 加上“状态”和“序列”：从走迷宫到玩游戏

再往前一步，就是我们刚才看到的走迷宫，以及更复杂的游戏 AI。

有状态和序列的游戏问题

这里难度就大很多了：

每一步做什么，会影响后面能不能走得到终点；
有些决定一开始看起来有损失，但长期能走通；
最优策略看的是一整个序列的效果，而不是单步。

这时候就需要真正意义上的强化学习算法了。

大致有几类思路：

基于价值的（Value-based）
- 比如 Q-learning：
  对每个“状态-动作”组合估一个价值（Q 值），
  然后选择 Q 值最高的动作。
- 它核心在于：用“价值函数”来指导决策。
基于策略的（Policy-based）
- 直接学习一个“从状态到动作的概率分布”，
- 用梯度上升的方式让高回报的行为更可能被选中。
Actor-Critic（“行动者–评判者”）方法
- 把两者结合起来：
  - Actor 负责给出动作（策略）；
  - Critic 负责点评这一步好不好（价值或优势）。

3.3 加上“高维感知”和“连续动作”：训练行走的机器人

如果再进一步，让智能体控制的是一个实体机器人，或者一个虚拟机器人，它要学会走路、转弯、平衡——问题就更复杂了。

高维状态连续动作的机器人控制问题

这里的难点在于：

状态是高维的：关节角度、速度、加速度、传感器数据……
动作也是连续的：施加多大力度、关节转多少度，而不是简单的“上、下、左、右”。

这时候，就用到了深度强化学习（Deep RL）：

用神经网络来近似策略和价值函数；
让智能体在模拟环境里不断尝试：
- 摔倒、站起、再尝试；
- 最终学会非常“自然”的走路和跳跃。

大家在网上可能看过 Boston Dynamics 的一些机器人视频，那背后就大量用到了类似的思想。

3.4 现实世界中的强化学习应用场景

强化学习已经在不少实打实的场景中落地：

游戏 AI：
- AlphaGo、AlphaZero：在围棋上达到甚至超过人类顶尖水平；
- Dota2 AI：通过自我博弈学会复杂团队配合。
机器人控制：
- 学会走路、抓取、堆叠物体、自动调整姿态。
个性化推荐：
- 根据用户的长期行为，优化“让你既不马上流失，又不会马上刷到烦”的内容组合。
金融交易：
- 根据市场反馈动态调整策略，控制风险。
自动驾驶：
- 在仿真环境里练习各种复杂路况，然后再小心地迁移到真实道路。
能源系统：
- 智能调度机组，平衡用电峰谷，降低总能耗。

3.5 强化学习的困难和挑战

说完好处，也要诚实地说一说它的难点：

样本效率低
- 需要尝试很多次才能学出一个好策略；
- 在仿真环境里可以跑几百万局，但现实世界不能让机器人真的摔一百万次。
奖励设计很难
- 你奖励什么，智能体就会靠近什么；
- 奖励设计不好，很容易学出“歪门邪道”：
  比如游戏里为了拿分，干一些违背人类直觉的奇怪操作。
训练不稳定
- 特别是深度强化学习，超参数敏感、容易发散。
可解释性差
- 最后学出一个复杂神经网络策略，很难解释“为什么在这里做这个决定”。
探索有风险
- 在虚拟环境里乱试，最多游戏崩掉，没啥影响；
- 在现实世界里乱试，有安全风险——比如无人车不可能靠“乱开”来学。

所以你可以把强化学习理解为：
它代表了一条非常有潜力，但也很“难驯服”的 AI 技术路线。

4. 强化学习助力大语言模型（约 12–15 分钟）

聊完“传统”强化学习，我们回到大家最近最关心的大语言模型。

像 GPT、Claude、DeepSeek、Kimi 等，我们今天看到的这些“会聊天的 AI”，它们背后也用到了强化学习，尤其是两种典型做法：

用人类偏好做奖励信号：RLHF；
用客观可验证的标准做奖励：比如 DeepSeek R1 这类“自我验证”的方式。

4.1 RLHF：用人类偏好当奖励信号

RLHF，全称是** *Reinforcement Learning from Human Feedback，翻译过来就是：*“从人类反馈中做强化学习”**。

它解决的是一个很现实的问题：

大模型预训练完，会说话，但不一定好好说话。
有时候答非所问、有时一本正经胡说八道，有时给出不安全的内容。

怎么办？直接写规则是不可能的——太复杂了。
于是，大家想到用强化学习的方式来“矫正”。

大致流程是这样的：

RLHF 流程示意图

先有一个预训练好的大模型
- 它已经学会了“如何接着写下一句”，
- 但它只是语言上的强，价值观、礼貌、不胡说这些都没有保证。
人工写一些“理想回答”示例（监督微调 SFT）
- 比如：给它一个提问，让标注员写出“我们希望模型怎么回答”；
- 用这些高质量示例再训练一次模型，让它学会基本的“听话”。
模型自己生成多个回答，人来打分
- 现在，给同一个问题，让模型生成两三个不同版本的回答；
- 请标注员打个“好坏排序”，比如 A 比 B 好。
训练一个“奖励模型”
- 把这些“排序”喂给一个小模型，让它学会：
  - 给定问题和回答，它能打出一个“人类喜不喜欢”的分数。
- 这个小模型就扮演了Reward（奖励函数） 的角色。
用强化学习（一般是 PPO，属于Actor-Critic 类算法）来调整大模型
- 现在，我们让大模型出答案；
- 奖励来自刚刚那个“奖励模型”；
- 用强化学习的方式，让大模型更倾向于生成高分回答。

这种做法，本质上就是：

用人类偏好作为 Reward，
把一个“会说话的模型”微调成一个“更符合人类期望的助手”。

所以，我们平时使用的大语言模型，已经不是单纯的“语言预测器”，
而是经过了一个“软性强化学习训练”的对话智能体。

4.2 DeepSeek R1：用“客观可检验结果”做奖励

另一种做法，是像 DeepSeek R1 这样的模型，强调的是：

尽量使用“客观的、可自动验证”的信号来做奖励。

比如：

做数学题：答案对不对，一算就知道；
写代码：跑一跑测试用例，能不能通过；
证明问题：有没有逻辑漏洞、能不能被自动验证器验证。

在这种场景下，Reward 就从“人类主观打分”变成了“通过 / 没通过”这样的客观信号。

好处是：

不需要大量人工打分，节省成本；
奖励更“硬”：对就是对，错就是错，不那么依赖人情世故；
模型会倾向于发展出更“严谨”的推理过程。

你可以把这两条路线理解为：

RLHF：学会“说人话，说得让人舒服”；
类似 DeepSeek R1 的做法：学会“做对事，自证正确”。

未来这两条路线大概率会结合起来：
既要“说得好听”，又要“做得正确”。

4.3 一些不同观点：李飞飞、LeCun、Sutton

在大语言模型爆火之后，学界有很多讨论，我简单提几位代表人物的观点：

李飞飞：
一直强调“感知 + 具身智能（Embodied AI）”——
认为光看语言还不够，AI 需要和视觉、动作、物理世界结合起来，这跟强化学习、世界模型的方向是接近的。
Yann LeCun：
对现有大模型有点“毒舌”：
- 他认为现在的大语言模型，虽然很有用，但远不是通用智能；
- 它缺乏真正的“世界模型”和“长期规划能力”；
- 他主张构建一种“可以自主预测世界、在世界中试验的智能体”。
Rich Sutton：
强化学习之父，他有两篇文章流传甚广，一篇是 2019 年的《The Bitter Lesson》和 2025 年的《Welcome to the Era of Experience》。
- 在《The Bitter Lesson》里，他说：
  历史告诉我们，靠人类设计结构不如靠“算力 + 通用算法（搜索 + 学习）”；
- 在《Welcome to the Era of Experience》（我之前翻译了中文版，可阅读全文）里，他又提出：
  人类数据时代会过去，接下来是“经验时代”，也就是智能体通过和环境互动来不断获取新经验。

这里有一个很有意思的点：

语言本身，是人类设计出来的一种“压缩世界”的方式。一旦人类产生的数据用光了，智能就到顶了。

我们今天的大语言模型，是在大量人类语言数据上训练出来的，
这让它很擅长模仿人类说话、总结人类已有知识。

但从 Sutton 的眼光来看，这也意味着：

它的“天花板”在一定程度上被“人类语言”这层壳限制住了；
要突破人类语言的边界，可能需要更直接地和环境交互，用自己的“经验数据”来学习，而不仅是“重复人类说过的话”。

4.4 顺带说一句：什么是“世界模型”？

刚才提到“世界模型”，简单说一句：

世界模型，就是智能体脑子里关于“这个世界是怎么运转的”的一个内部模拟。

比如：

你知道“杯子被推到桌子边会掉下去”，这就是一个世界模型；
智能体如果有世界模型，它就可以在脑子里先想一想：“如果我这么做，会发生什么？”
而不是盲目去“尝试–摔跤–再尝试”。

这和强化学习结合起来，就变成了：

用经验数据学出世界模型；
在世界模型里做规划、推理、搜索；
再把好的策略拿到真实环境中去执行。

这，也是很多人认为“真正强大的智能体”要走的一条路。

5. 智能体的现状和未来（约 12–15 分钟）

最后一部分，我们回到今天经常听到的一个词：Agent（智能体）。

5.1 先回顾一下“智能体（Agent）”的概念

我们一开始说过：

智能体，就是一个能感知环境、能自主决策、能采取行动、并根据反馈不断调整行为的实体。

在强化学习里，这个定义很自然。
那在今天的大语言模型时代，“Agent”这个词被用得更广了。

现在很多产品都在讲 “LLM-Agent”，比如：

写代码的 Claude Code、GitHub Copilot、Cursor 等；
助理型产品：Kimi、豆包、ChatGPT 多工具版；
以及各种“套壳 Agent”，比如 Manus、Genspark 等，用一套流程去驱动多个工具和模型。

5.2 用一个框架图看 LLM-Agent

LLM-Agent 示意图

大致结构是这样的：

用户给一个任务：
- 比如“帮我分析这份报告，顺便写一个总结”；
- 或者“帮我写一段代码，并在服务器上跑一下”。
Agent（本质是一个大语言模型）：
- 先把这个目标分解成一系列子任务；
- 再根据需要调用各种工具（搜索、浏览器、数据库、代码运行环境等）。
工具 / 环境：
- 比如网络搜索、企业内部系统、终端、浏览器、API 接口……
- 把结果返回给 Agent。
Agent 综合这些结果，再做下一步决策，
- 最后给用户一个看起来很完整的“解决方案”。

从用户角度看，它确实有点像一个“能干活的智能助手”：

会看文件、会查资料、会写代码、会跑程序；
每一步都能用自然语言解释给你听。

5.3 先肯定一下：今天的 LLM-Agent 已经很强

先肯定一点：

作为“即用型工具”，今天的 LLM-Agent 已经非常有价值。

它可以极大地提高我们个人效率；
在很多工作流程中，它可以帮我们自动化“80% 的重复性工作”。

从工程角度、产品角度，它的意义是巨大的。

5.4 但它还有哪些根本性的局限？

如果我们用“强化学习”和“真正的智能体”的视角，再苛刻地看一眼今天的 LLM-Agent，会发现它有一些结构性的局限。

（1）是离线学出来的 policy，而不是在线学习，因此无法持续学习

今天的大模型，本质上是一个**“训练好以后参数固定”的策略（policy）**；
上线之后，它在和你的对话中，几乎不会根据“成功与失败”去更新自己的参数。

也就是说：

它在和你对话的时候，其实没有在真正“学”，
它只是把训练阶段学到的模式，尽量发挥出来。

这和强化学习中的智能体有一个本质差异：

强化学习智能体，在环境里试错、积累经验；
经验会反向更新策略 ，策略变得越来越好。

现在的 LLM-Agent，绝大多数是一次性训练，长时间使用，不具备这样的在线改进能力。

（2）状态感知短视，长期记忆和环境建模薄弱

它“看到的世界”，基本上就是以文字形式输入的上下文（Prompt 为主）；
再长一点，就靠一些“记忆插件”或“搜索历史”，但这都是外部的拼接。

从强化学习的角度看，它几乎没有能力：

建立一个“世界状态在长期怎么变化”的内部模型，
更谈不上 POMDP 里那种精细的 belief 更新。

所以你会发现：

在短对话、一次性任务里，它表现很好；
一旦涉及长期项目、跨周跨月的任务，它就变得力不从心。

（3）运行时没有明确 Reward，目标主要靠人类外包与隐含偏好

在我们刚才讲的强化学习框架里，有一个特别重要的东西叫 Reward。

智能体清楚知道：什么行为会带来高奖励；
它会自动地朝着这个方向去优化长期策略。

而今天的 LLM-Agent：

在运行时，基本没有显式的 Reward；
它不知道“你这一次满意不满意”在系统内部是怎么被衡量的。

它“优化”的，是在训练阶段形成的一些隐含偏好：

比如“说话要礼貌”“不能输出违规内容”“尽量详细一点”；
但这些并不是在你这一次任务上实时计算出来的 Reward。

结果就是：

它很容易在“表面指标”（proxy）上表现很好，
但在你真正关心的目标上容易翻车。

比如：

回答看起来非常自信、非常流畅，但事实错误；
代码能跑，但在边界条件上有 bug。

（4）探索主要停留在“语言内心戏”，真实环境中的 RL 式试错极少

你可能看到过一些“思维链”（Chain-of-Thought）的例子：

模型会在回答前，自言自语地想好几步；
这是一种“语言空间里的探索”：它在脑子里尝试不同的解题思路。

但和强化学习里的“真实探索”不一样：

在 RL 里，智能体真的去做动作，看到真实后果，再更新策略；
在 LLM-Agent 里，它很少有机会在真实世界里试错。

原因也很现实：

一旦让它真的去发邮件、下单、调交易 API、控制机器人，风险太大；
所以我们必须加一堆安全限制、人工审核，这就大大压缩了它“自由探索”的空间。

从强化学习的视角来看：

今天的 LLM-Agent 是“脑补能力很强”，
但缺乏“在真实环境中滚打一圈再改进策略”的能力。

（5）动作空间高度非结构化，闭环安全难以保证

在强化学习的很多场景里，动作是结构化的：

要么是有限的几种动作（上、下、左、右）；
要么是连续的控制量（油门多少、转向多少）。

这样有什么好处？
——好约束，好验证。

而 LLM-Agent 的主要动作是什么呢？

是自然语言 + 工具调用。

自然语言非常灵活，非常强大，但从安全和控制角度看，它也是：

高维度；
语义不确定；
很难完全穷尽所有可能。

比如：

你很难事先写出一套规则，保证“它的话语绝对不会导致某个工具被危险地使用”。

从闭环控制和安全的角度，这是一件非常麻烦的事。
所以，我们现在更多依赖的是：

黑名单；
后置安全过滤；
人类监管。

这和我们在强化学习里能做到的“精确定义动作空间、严格验证策略”差距很大。

（6）缺少长期价值与分层策略的显式建模

最后一点，也是最关键的：

真正的强化学习智能体，会发展出某种“长期价值函数”和“分层策略”；
它会知道：“先吃点亏，后面会有更大收益”；
它会发展出不同时间尺度上的“子技能”。

而今天的 LLM-Agent，本质上更像是：

一个非常强大的即时决策器：
在当前这一次对话、这一轮任务上，它能给出很聪明的解法；
但在“怎么为未来十步、百步做打算”这个维度上，它几乎没有显式建模。

这也就是为什么，从强化学习的角度看，我们会说：

今天的 LLM-Agent，
更像是一个“长在语言上的超级函数”，
而不是一个“可以长期在环境中试错、不断提升回报的智能体”。

5.5 未来的 Agent 可能是什么样子？

最后，简单谈一谈“未来可能出现的 Agent 形态”。

如果我们把前面提到的 Sutton 的那句话放在心里：

“应该偏爱那些可以随着算力增长无限扩展的通用方法——目前看就是两类：搜索（search）和学习（learning）。”

再结合他在《Welcome to the Era of Experience》里说的：

“人类数据的时代之后，会是体验的时代。”

我们可以大胆一点推测：

未来真正强大的智能体，很可能具备这些特征：

有长期、流式的经验不再是“一次性对话”，而是和你一起工作、生活很长时间。
- 它记得你过去的选择，知道你真正看重什么。
有丰富的“身体”和“感官”，不一定是物理机器人，最起码要深度接入数字世界。
- 文件系统、业务系统、网络环境、传感器、甚至 IoT 设备。
有清晰、可调整的奖励信号，不只是“人类打个分”，而是结合多种信号且及时调整。
- 综合业务指标（效率、安全、成本）、用户满意度、环境中的各种可测量信号。
- 能在觉察到智能体“钻空子”之后迭代奖励信号，从而避免回形针效应。
有自己的世界模型和规划能力
- 能预测“如果我这么做，世界会怎样变化”。
- 能在脑子里做各种模拟。
- 再决定真正要采取什么行动。
会持续在线学习
- 每一次成功和失败，都会反哺到策略中去；
- 它不会永远停留在“出厂时的水平”，而是在你身边越用越聪明。

这样一种智能体，就更接近我们在强化学习里追求的那种：

“和人类对齐目标，然后靠自己去探索世界、积累体验，
在长期回报意义上越来越聪明”的 Agent。

这，也许才是 Sutton 所说的“体验时代”的含义。

结尾（约 2–3 分钟）

最后，我用一句话总结今天的分享：

强化学习，是一套让智能体通过试错，在环境中学会“长期做对事”的方法；
大语言模型，已经开始用强化学习（特别是 RLHF、以及像 DeepSeek R1 那样的客观奖励）来对齐人类偏好；
今天的 LLM-Agent，作为工具已经非常有用，但从强化学习的视角看，离“真正会在世界中积累经验的智能体”还有一段距离；
未来的智能体，大概率会走向：
- 嵌入到趋向无限的体验流中、
- 更丰富的行动空间、
- 更清晰灵活的奖励、
- 更强的世界模型与规划能力。

我们现在站在一个很有趣的时间点上：
过去十年是“人类数据驱动的大模型时代”，
接下来的十年，很可能是“体验驱动的智能体时代”。

谢谢大家。

刑无刀

https://xingwudao.me/2025/12/11/2025-12-12-%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E6%99%BA%E8%83%BD%E7%9A%84%E4%BA%A4%E4%BA%92%E5%BC%8F%E5%AD%A6%E4%B9%A0%E8%8C%83%E5%BC%8F/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源刑无刀 !

无标签

记罗永浩访谈MiniMax 创始人闫俊杰

2025-12-12 刑无刀

欢迎来到体验的时代

2025-12-10 刑无刀

强化学习：⼈⼯智能的交互式学习范式

强化学习：⼈⼯智能的交互式学习范式

开场（约 3 分钟）

1. 先看一个演示（约 5 分钟）

2. 这就是强化学习（约 10–12 分钟）

2.1 和其他几种机器学习的区别

2.2 强化学习的几个关键元素

2.3 再回到迷宫的例子，帮大家标一下元素

2.4 “智能体”这个概念很关键

3. 强化学习算法：训练智能体的方法（约 15–18 分钟）

3.1 从最简单的“老虎机问题”说起：多臂赌博机（Multi-Armed Bandit）

3.2 加上“状态”和“序列”：从走迷宫到玩游戏

3.3 加上“高维感知”和“连续动作”：训练行走的机器人

3.4 现实世界中的强化学习应用场景

3.5 强化学习的困难和挑战

4. 强化学习助力大语言模型（约 12–15 分钟）

4.1 RLHF：用人类偏好当奖励信号

4.2 DeepSeek R1：用“客观可检验结果”做奖励

4.3 一些不同观点：李飞飞、LeCun、Sutton

4.4 顺带说一句：什么是“世界模型”？

5. 智能体的现状和未来（约 12–15 分钟）

5.1 先回顾一下“智能体（Agent）”的概念

5.2 用一个框架图看 LLM-Agent

5.3 先肯定一下：今天的 LLM-Agent 已经很强

5.4 但它还有哪些根本性的局限？

（1）是离线学出来的 policy，而不是在线学习，因此无法持续学习

（2）状态感知短视，长期记忆和环境建模薄弱

（3）运行时没有明确 Reward，目标主要靠人类外包与隐含偏好

（4）探索主要停留在“语言内心戏”，真实环境中的 RL 式试错极少

（5）动作空间高度非结构化，闭环安全难以保证

（6）缺少长期价值与分层策略的显式建模

5.5 未来的 Agent 可能是什么样子？

结尾（约 2–3 分钟）

你的赏识是我前进的动力