The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

URL

TL;DR

Agentic Reinforcement Learning (Agentic RL) 是指将大型语言模型（LLM）视作嵌入在交互式决策环境中的可学习策略，而非仅仅作为静态文本生成器来优化单步输出
与常规的基于偏好的序列微调（PBRFT，如 RLHF）只做单回合优化不同，Agentic RL 考虑多回合的状态演化和长期奖励，从单步马尔科夫决策过程（MDP）变成了部分可观测马尔可夫决策过程 (POMDP)

Algorithms

Agentic RL 的定义

Agentic Reinforcement Learning (Agentic RL) 是指将大型语言模型（LLM）视作嵌入在交互式决策环境中的可学习策略，而非仅仅作为静态文本生成器来优化单步输出
通过强化学习，Agentic RL 赋予 LLM 规划、推理、工具调用、记忆管理和自我反思等能力，使其在部分可观测、动态环境中产生长期、多步的智能行为

MDP vs POMDP

特性	MDP (马尔可夫决策过程)	POMDP (部分可观察马尔可夫决策过程)
可观察性	完全可观察：智能体总是知道它所在的物理状态	部分可观察：智能体无法直接知道物理状态，只能通过观察来推断
决策依据	基于当前物理状态做出决策	基于信念状态（对所有可能物理状态的概率分布）做出决策
状态空间	状态空间由物理状态组成	决策空间在信念空间中，这是一个连续的、更高维度的空间，因此求解起来通常更复杂
计算复杂度	相对较低，有成熟的动态规划算法（如价值迭代、策略迭代）	求解难度更大，通常是 PSPACE-完全问题，因为需要在连续的信念空间中进行规划
适用场景	机器人能用传感器完美定位、国际象棋、简单的棋盘游戏	自动驾驶（传感器有误差）、医疗诊断（医生无法 100% 确定病因）

Agentic RL 和 RLHF 的区别

Agentic RL
- 核心思想：将 LLM 转变为拥有连续交互能力的智能体，而不仅是一次性生成答案的模型
- Agentic RL 中，智能体在一个 POMDP 中跨越多个时间步进行交互：每次基于当前观测（可能只部分反映真实世界状态）选择行动，环境状态随机转换，并在整个过程中累积稀疏或稠密奖励
传统 RLHF 训练中，一个 Prompt 对应一次输出，训练过程可以形式化为退化的单步 MDP：状态空间仅为给定提示，动作是生成一段文本，动作结束后立即结束回合，奖励依据生成内容质量一次性给出
传统 RLHF 只能优化单句输出的对齐度，而 Agentic RL 则同时涉及多轮规划、动态工具调用、带状态记忆和长程回报的学习，使 LLM 真正成为自主决策的代理人

Agentic RL 的关键组成部分

Agentic RL 智能体通常包括多个相互协作的核心模块，这些模块由 RL 统一优化：

规划 (Planning)：规划是在多个步骤上推演行动序列以达成目标。通常情况下是将 LLM 本身视为策略网络，RL 通过与环境的反复试错直接微调其长程规划和执行协调能力
工具使用 (Tool Use)：LLM 智能体可以调用外部工具（例如搜索引擎、计算器、代码执行环境等）来扩展能力。传统的 ReAct 风格方法或人工构造的示例往往只能让模型模仿固定的工具调用模式，而 Agentic RL 则通过结果驱动优化，使智能体自主学习何时、如何调用工具
记忆 (Memory)：在 Agentic RL 中，记忆不再是被动的内容检索，而是智能体可控制的动态子系统，RL 学习使智能体决定何时存储、检索或删除记忆
推理 (Reasoning)：LLM 智能体需要在解决复杂问题时进行多步逻辑推理。通常将推理分为“快推理”（快速、启发式）和“慢推理”（逐步演绎式）
自我改进 (Self-Improvement/Reflection)：Agentic RL 强调智能体持续学习和反思自身。智能体能够在执行任务后“自我批评”并改进，具体来说，研究者使用 RLHF 或 DPO 等算法来奖励生成正确/优质轨迹，相当于让模型学会识别和改正错误，从而提高未来推理的可靠性；甚至有尝试让智能体自行生成问题并解答（类似 AlphaZero 的自我博弈），实现无人监督的终身学习循环
感知 (Perception)：在多模态环境中，智能体需要感知视觉、听觉等信息并综合语言推理。大型视觉-语言模型（LVLM）通过在视觉输入上附加推理模块，被动感知转向主动视觉认知。Agentic RL 将强化学习应用于视觉-语言任务，使模型在视图下生成多步推理策略

Agentic RL 的奖励设计

和 RLHF 这种稀疏奖励不同，Agentic RL 需要设计更复杂的奖励结构来引导长期行为
如果只在最终任务成功时给予奖励，会出现信用分配问题 (credit assignment)，智能体可能难以学习到有效的中间步骤
因此 Agentic RL 更倾向于引入中间奖励 (dense or shaped rewards)，往往是基于规则或启发式的，比如：
- 规划：计划是否合理拆解任务。
- 记忆：写入/检索是否对最终解答有帮助。
- 工具使用：API 调用是否成功、是否缩短了解题时间。
- 推理：中间推理步骤是否能被验证（例如算式对/错）。
这些中间奖励可以是：
- 显式规则（比如 “子问题答案正确 → +1”）。
- 自动判别器（比如单元测试、符号验证器）。
- 学习的奖励模型（训练一个模型来评估中间步骤质量）。

强化学习算法

还是 PPO、GRPO、DPO 这些常见算法

应用场景与系统实例

搜索与研究助手：智能体利用 RL 优化查询生成和多步检索策略，完成复杂的研究任务
代码生成与软件工程：在编程任务中，执行反馈（如编译成功与否、单元测试结果等）作为奖励信号可直接指导模型优化
视觉与多模态任务：如自动视觉问答、图像编辑与导航等任务，可将视图信息作为环境观测，引入工具（比如画图 API）作为动作
多智能体系统：在需要多个协同或对抗智能体的场景（如游戏博弈、协作代理）中，Agentic RL 将整个系统建模为去中心化 POMDP (Dec-POMDP)，并训练每个 LLM 代理的策略

Thoughts

单回合优化 -> 多回合协同优化，听上去很 makes sense，毕竟超集总是更好？
把 Agent 的难点转移到奖励设计上了，每个细粒度的奖励设计和不同奖励的平衡看上去挺难的
如果做成纯稀疏奖励（只在最终结果上打分），那么由于搜索空间太大，训练会非常困难，除非堆海量数据和算力