2026年5月23日 AI 研究简报

Agent 安全开始变得有状态。

今天最强的一批论文表明,agent 的可靠性如今与其说取决于更大的模型,不如说取决于更真实的安全评估、运行时脚手架,以及对状态、日志和接口的显式控制。

核心要点

  1. Agent 工作的重心正从“更努力地训练模型”转向“塑造模型周围的接口、状态与数据”:编译式 agent 轨迹、特权过程筛选、运行时 harness 自适应、事件溯源执行,以及毫秒级检查点/回滚,都在不改变核心模型架构的情况下带来了显著收益。
  2. 安全评估正变得更贴近现实,也更悲观。多篇论文表明,静态或仅文本层面的安全检查遗漏了真正的失效模式:领域伪装的提示注入、多轮/有状态规避、制品层面的不安全编辑、基准利用,以及潜在 KV 泄漏,仍然构成重大风险。
  3. 评估方法本身正在成为一级研究议题。多篇论文指出,基准分数很容易被误读或被“刷分”:数据污染可能隐藏在 CoT 背后,单阈值指标在预测任务中可能颠倒结论,而安全基准甚至可能被其所测试的 agent 利用。
#1

先读这篇:Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety

为什么先读: 它抓住了从单轮越狱转向更真实的多轮、工具使用型 agent 失效这一变化,而当前安全检查往往会漏掉这类问题。

建议重点质疑: 作为一个基准,它的长期价值取决于任务覆盖面的广度,以及防御方法是否会对其攻击模式过拟合。

agent safety multi-turn eval tool use benchmark

主题

基于轨迹与过程信号的 Agent 训练 多篇论文用 agent 运行、补丁或同胞 rollout 中已存在的信号,替代昂贵的人工监督。共同的赌注是:更好的过程数据——而不只是更多 RL——可以提升长程推理、搜索质量和软件 agent 行为。
运行时脚手架、状态管理与可审计的 Agent 基础设施 今天一个很强的主题是,许多 agent 失败其实是接口与系统失败,而不纯粹是模型失败。这里的论文表明,改变 harness、执行日志或沙箱底座,可以实质性提升可靠性、可复现性和搜索深度。
Agent 安全正从提示攻击转向有状态、规避式与协议层威胁 威胁模型正从单轮越狱扩展到利用持久状态、制品、辩论动态、OAuth 流程、检索漂移和潜在通道的攻击。实践上的信息是:当前防护通常校准在错误的攻击面上。
信号 有状态攻击才是真正的威胁。 Boiling the Frog、A3S-Bench 和领域伪装注入都表明,多轮或语义隐藏的攻击能够击败静态防护。
张力 更好的脚手架既有帮助,也暴露脆弱性。 Harness 自适应、事件溯源日志和检查点/回滚提升了控制力,但修补被诊断出的模块仍可能让整条流水线变得更糟。
判断 Agent 的进步将来自接口。 ACC、过程监督和运行时 harness 相关工作都在不改变核心模型架构的情况下改善了结果。

值得优先阅读的论文

按研究价值排序:新意、方法可复用性、证据质量,以及是否值得带着怀疑去读。

Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety

#1

如果你想理解真实、渐进式攻击如何在单轮安全测试之外击穿工具使用型 agent,这是最值得先读的一篇。

为什么现在值得读
Agent 部署越来越依赖持久状态并通过工具执行动作,因此多轮安全才是更相关的评估目标。
怀疑点
这个基准的现实感很强,但覆盖范围仍可能遗漏其他企业工作流和攻击面。

TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

#2

它是一个很有价值的配套工作,因为它衡量的是 agent 在真实终端工作中的实际效用,而不是在合成谜题上的表现。

为什么现在值得读
终端 agent 正在进入开发者工作流,而这个基准表明它们距离真正可用仍有差距。
怀疑点
它排除了一些 GUI/TUI 和不可复现环境,因此真实部署难度可能被低估了。

Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems

#3

它展示了一种具体的失效模式:当攻击在系统看来符合领域语境时,提示注入防御会漏检。

为什么现在值得读
许多团队仍依赖基于文本模式的防护,而这类防护很可能无法抵御经过语义适配的攻击。
怀疑点
实验上的差距很有说服力,但它能否迁移到其他 agent 栈和防御实现上仍不确定。

英文版:/paper-news/2026-05-23/

运行统计

  • 候选论文: 355
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-05-21T00:00:00Z → 2026-05-22T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2605.22643Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety
PDF
cs.CL95Multi-turn benchmark for incremental attacks on tool-using agents in realistic office settings.agent-safety, benchmark, tool-use, multi-turn, red-teaming
2605.22001Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems
PDF
cs.CR, cs.AI, cs.CL95Shows major prompt-injection blind spot in multi-agent LLM defenses with strong empirical gaps.agent-safety, prompt-injection, security, multi-agent, evaluation
2605.22535TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks
PDF
cs.AI94Large real-world terminal benchmark for agents; strong eval signal for agent capability and safety gaps.agents, benchmark, evaluation, terminal, real-world
2605.22786LCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems
PDF
cs.AI, cs.ET, cs.LG, cs.MA93Targets a new safety gap: sensitive leakage through shared KV caches in multi-agent LLMs.multi-agent, safety, KV-cache, privacy, latent-communication
2605.21958Diagnosis Is Not Prescription: Linguistic Co-Adaptation Explains Patching Hazards in LLM Pipelines
PDF
cs.CL92Important agent pipeline result: fixing the diagnosed module can hurt; upstream patching works better.agents, llm-pipelines, reliability, debugging, intervention
2605.21856The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation
PDF
cs.LG, cs.AI92Black-box method to detect evasive benchmark contamination by truncating CoT; high eval integrity value.llm-evaluation, data-contamination, reasoning, benchmarking, robustness
2605.22166Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents
PDF
cs.AI92Runtime harness adaptation improves frozen LLM agents; highly relevant to agent reliability and control.agents, runtime, reliability, tool-use, evaluation
2605.22321Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions
PDF
cs.CR, cs.AI, cs.SE91Benchmarks temporal, spatial, and semantic evasions against privileged autonomous agents.agent-security, benchmark, evasion, tool-use, adversarial-evaluation
2605.22763Advancing Mathematics Research with AI-Driven Formal Proof Search
PDF
cs.AI91Formal-proof agent solves open problems at scale; major frontier agent progress with verification.formal-proofs, agents, reasoning, verification, math
2605.22781DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback
PDF
cs.OS, cs.AI91OS-level sandbox checkpoint/rollback for scalable agent search; strong infra relevance for safe agent execution.agents, sandboxing, systems, checkpointing, infrastructure
2605.21997The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems
PDF
cs.AI, cs.MA91Auditable, replayable agent runtime with deterministic logs and forkable execution; strong agent safety relevance.agents, auditing, observability, runtime, deterministic-replay, memory
2605.22333A First Measurement Study on Authentication Security in Real-World Remote MCP Servers
PDF
cs.CR90First measurement study of auth security in remote MCP servers; directly relevant to agent tooling.MCP, authentication, security, agents, measurement
2605.22720Can AI Make Conflicts Worse? An Alignment Failure in LLM Deployment Across Conflict Contexts
PDF
cs.AI, cs.HC90Evaluates harmful LLM behavior in conflict settings across providers; strong real-world alignment relevance.alignment, safety-evaluation, harmful-outputs, deployment, social-impact
2605.22511Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning
PDF
cs.AI, cs.CL, cs.IR89Simplifies search-augmented reasoning post-training via self-distillation; likely reusable recipe.search-augmented, reasoning, post-training, self-distillation, llm
2605.21850ACC: Compiling Agent Trajectories for Long-Context Training
PDF
cs.CL, cs.AI89Turns agent trajectories into long-context training data; useful for frontier agentic LLM capability gains.llm, agents, long-context, training, sft
2605.22041RADAR: Defending RAG Dynamically against Retrieval Corruption
PDF
cs.CR, cs.LG88Dynamic defense for RAG retrieval corruption with explicit robustness-storage tradeoff.RAG, security, retrieval, poisoning, robustness
2605.22731Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation
PDF
cs.LG, cs.AI88Useful conceptual lens on post-training: state distributions unify SFT, RL, and distillation behavior.llm-training, post-training, rl, distillation, theory
2605.22446Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts
PDF
cs.CV, cs.AI, cs.RO88Preemptive runtime verification for VLA/world-model actions targets embodied reliability and safety.robotics, runtime-verification, vision-language-action, safety, world-models
2605.21938Optimal Guarantees for Auditing Rényi Differentially Private Machine Learning
PDF
cs.LG, cs.CR, cs.IT88Optimal black-box auditing for Rényi DP claims with theory and confidence bounds; strong safety/privacy value.privacy, differential-privacy, auditing, theory, evaluation
2605.22476Structured-Sparse Attention for Entity Tracking with Subquadratic Sequence Complexity
PDF
cs.LG, cs.CL88Subquadratic structured attention for entity tracking over long sequences; relevant to long-context LLM efficiency.long-context, attention, efficiency, entity-tracking, transformers
2605.22672Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
PDF
cs.AI87Inverse scaling on tail-risk forecasting exposes reliability failures in stronger LLMs.reliability, forecasting, inverse-scaling, evaluation, risk
2605.22608Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents
PDF
cs.CL, cs.AI86Automates multi-level evaluation of LLM agents across system, trace, and node levels.agent-evaluation, observability, framework, LLM-agents, monitoring
2605.22769Understanding Data Temporality Impact on Large Language Models Pre-training
PDF
cs.CL, cs.AI86Studies temporal ordering in LLM pretraining with a new benchmark for time-grounded factual knowledge.llm-pretraining, temporal-reasoning, benchmark, knowledge, evaluation
2605.22664WorkstreamBench: Evaluating LLM Agents on End-to-End Spreadsheet Tasks in Finance
PDF
cs.AI86End-to-end spreadsheet benchmark for LLM agents in finance; realistic evaluation of agent workflows.agents, benchmark, evaluation, finance, spreadsheets
2605.22012LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning
PDF
cs.CL, cs.CV86Unified latent audio-visual reasoning for multimodal LLMs; notable frontier multimodal reasoning direction.multimodal, reasoning, audio-visual, latent-space, MLLM
2605.22737The Distillation Game: Adaptive Attacks & Efficient Defenses
PDF
cs.LG, cs.AI85Addresses model distillation attacks with adaptive threat model and efficient teacher-side defense.model-security, distillation, defenses, adaptive-attacks, llm-deployment
2605.22681Forecasting Scientific Progress with Artificial Intelligence
PDF
cs.AI85Benchmark for forecasting scientific progress under temporal constraints; useful for capability evaluation.benchmark, scientific-reasoning, forecasting, evaluation, frontier-models
2605.21996From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents
PDF
cs.SE, cs.AI85Improves SWE agent training via privileged process supervision, targeting trajectory quality not just outcomes.agents, software-engineering, training, process-supervision, sft
2605.22568Measuring Security Without Fooling Ourselves: 入选理由 Benchmarking Agents Is Hard
PDF
cs.CR, cs.AI84Sharp critique of agent security benchmarking pitfalls; useful for evaluation methodology.agent-security, evaluation, benchmarking, methodology
2605.22456Steins;Gate Drive: Semantic Safety Arbitration over Structured Futures for Latency-Decoupled LLM Planning
PDF
cs.RO, cs.AI84LLM planning with semantic safety arbitration over predicted futures for autonomous driving.planning, autonomous-driving, safety, runtime, llm-agents

AI 论文洞察简报

2026-05-23

0) 执行要点(请先读这里)

  • Agent 工作的重心正从“更努力地训练模型”转向“塑造模型周围的接口、状态与数据”:编译式 agent 轨迹、特权过程筛选、运行时 harness 自适应、事件溯源执行,以及毫秒级检查点/回滚,都在不改变核心模型架构的情况下带来了显著收益。
  • 安全评估正变得更贴近现实,也更悲观。多篇论文表明,静态或仅文本层面的安全检查遗漏了真正的失效模式:领域伪装的提示注入、多轮/有状态规避、制品层面的不安全编辑、基准利用,以及潜在 KV 泄漏,仍然构成重大风险。
  • 评估方法本身正在成为一级研究议题。多篇论文指出,基准分数很容易被误读或被“刷分”:数据污染可能隐藏在 CoT 背后,单阈值指标在预测任务中可能颠倒结论,而安全基准甚至可能被其所测试的 agent 利用。
  • 长上下文与过程监督仍然是高杠杆的能力放大器。ACC 将 agent 日志转化为长上下文问答,使 30B 模型在长程基准上接近更大的模型;P2T 在降低推理成本的同时提升了 SWE Pass@1;Search-E1 则从模型自身的搜索 rollout 中提取稠密监督。
  • 前沿 agent 系统在真实工作流上依然脆弱。真实终端任务的最高通过率仅为 62.5%,金融表格 agent 的最高得分为 69.1/100,而科学预测在可行性与时间判断上依然薄弱,即便模型能够识别看似合理的机制。
  • 安全与鲁棒性论文中反复出现一个模式:最有用的干预点往往并不在朴素诊断所指向的位置。修补“最具因果性”的模块可能反而有害,更强的模型在尾部风险场景中可能预测更差,而暴露更多推理轨迹虽然能提升效用,却也会增加蒸馏风险。

2) 关键主题(聚类)

主题:基于轨迹与过程信号的 Agent 训练

主题:运行时脚手架、状态管理与可审计的 Agent 基础设施

主题:Agent 安全正从提示攻击转向有状态、规避式与协议层威胁

主题:评估正受到污染、指标选择与基准可利用性的攻击

主题:真实世界基准正在暴露合成能力与部署效用之间的巨大差距

主题:隐私与泄漏正转向更难察觉的通道

3) 技术综合

  • 很大一部分论文用结构化中间对象替代端到端优化:编译上下文(ACC)、过程图(P2T)、类型化预测(Steins;Gate Drive)、事件日志(ActiveGraph)以及净化后的 KV 变换(LCGuard)。趋势是让隐藏的 agent 状态变得显式且可控。
  • 多种方法通过改变监督目标而非基础模型来提升性能:ACC 直接监督证据 token,P2T 对每一步的 groundedness/progress 打分,Search-E1 从特权同胞轨迹中蒸馏,而 OPD/RL 被表述为改变被更新的状态分布。
  • 安全论文越来越多地在制品/动作层而非响应层进行评估:Boiling the Frog 中的不安全文件谓词、A3S-Bench 中真实 OpenClaw 执行上的 RTR,以及 MCP servers 中的 OAuth 生命周期缺陷。
  • 多篇论文表明,静态检测器在语义适配下会失效:用于污染检测的 ZCP、领域伪装注入,以及自适应蒸馏评估,都利用了表面线索与潜在能力/泄漏之间的鸿沟。
  • 运行时控制正变得分层化:LIFE-HARNESS 将契约/技能/动作/轨迹规制拆分;Pre-VLA 在动作执行前加入验证器;Steins;Gate Drive 将缓慢的战略选择与快速的基于谓词的失效判定分离。
  • 若干工作在通常依赖启发式的地方采用了精确或有原则的优化:RADAR 用精确 Min-Cut 做上下文选择,RDP 审计器给出有限样本置信界与极小极大下界,而蒸馏论文推导了指数倾斜的最优响应。
  • 真实评估论文反复发现,从标准基准到真实任务的迁移很弱:TerminalWorld 与 Terminal-Bench 的相关性很低(r = 0.20),预测结论会在 CRPS 与 Brier 下翻转,而科学预测即便在机制性 MCQ 表现强时仍然较差。
  • 反复出现一种“更大/更强并不总是更安全或更好”的模式:更强模型在尾部风险场景中可能预测更差,修补最高归因模块可能有害,而更丰富的输出会增加蒸馏泄漏。
  • 系统论文越来越针对分支搜索工作负载进行优化:DeltaBox 的毫秒级 checkpoint/restore 与 ActiveGraph 的低成本 fork 都瞄准同一个瓶颈——复用共享前缀,而不必重放昂贵的模型/工具调用。
  • 许多论文依赖 LLM 评审,但较强的工作要么用人工进行验证(WorkstreamBench、Agentic CLEAR),要么用精确的制品检查与形式化谓词加以约束(Boiling the Frog、RADAR、RDP auditing)。

4) Top 5 论文(附“为什么是现在”)

ACC: Compiling Agent Trajectories for Long-Context Training

  • 将经过答案验证的 agent 日志转化为长上下文 QA 样本,直接监督对远距离证据的整合,而不是遮蔽工具输出。
  • 在 Qwen3-30B-A3B 上带来显著的长上下文提升:MRCR 68.28(+18.09),GraphWalks 77.51(+7.59),在这些基准上的表现可与 Qwen3-235B-A22B 相当。
  • 现在很有用,因为许多团队已经拥有大量 agent 轨迹,但缺少高质量的长上下文训练语料。
  • 它提出了一条实用途径:无需改架构或依赖重 RL 流水线,也能提升较小模型的长程推理能力。
  • 审慎看法:证据仅来自一个基础模型和三类 agent,并且依赖教师 rationale;对于 SWE 轨迹,rationale 通过率较低。

RADAR: Defending RAG Dynamically against Retrieval Corruption

  • 将动态 RAG 防御重构为对原子答案进行精确图割选择,并引入贝叶斯记忆节点以平衡稳定性与适应性。
  • 在静态和动态设置中都表现出较强鲁棒性,包括某个静态 PIA 设置下 75.0% 准确率与 5.0% ASR,以及累积动态评估中 63.60% 准确率 / 17.85% ASR。
  • 现在很有用,因为实时网页 RAG 正越来越成为默认配置,而大多数防御仍然是为静态语料设计的。
  • 记忆节点设计尤其适合无法存储完整历史文档的生产系统。
  • 审慎看法:在更大的检索深度下,运行时与稠密图成本可能变得显著,而且该方法假设良性证据构成主导性的连贯簇。

TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

  • 从 80,870 条真实 asciinema 录制中构建了 1,530 个经过验证的终端任务,其中包含一个 200 题、人工审查的 VERIFIED 子集。
  • 结果表明前沿 agent 在真实 CLI 工作流上仍然吃力;VERIFIED 子集上的最佳通过率仅为 62.5%,且从 Terminal-Bench 的迁移很弱(Pearson r = 0.20)。
  • 现在很有用,因为终端 agent 正被部署到真实开发者工作流中,而合成谜题型基准似乎高估了其就绪度。
  • 该基准的命令多样性是一大优势:1,280 个唯一命令,其中 91% 不在 Terminal-Bench 中。
  • 审慎看法:该流水线排除了 TUI/GUI 工作流和不可复现环境,因此仍缺失一些重要的真实复杂性。

Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions

  • 提出了 A3S-Bench,一个包含 2,254 条轨迹的有状态 agent 攻击基准,覆盖时间碎片化、制品介导规避和良性上下文隐藏。
  • 发现高级规避会将 10 个骨干模型上的平均 RTR@1 从 28.3% 提高到 52.6%,且多轮注入明显强于单轮注入。
  • 现在很有用,因为 agent 安全讨论仍过度聚焦于单轮提示注入,而已部署 agent 拥有持久状态和系统权限。
  • 还包含防御测试,显示当前护栏与平台升级只能提供有限缓解。
  • 审慎看法:主要评估基于 OpenClaw,因此平台特定的设计选择可能影响绝对脆弱性画像。

A First Measurement Study on Authentication Security in Real-World Remote MCP Servers

  • 提供了首个互联网规模的远程 MCP 认证测量,验证了 7,973 台在线服务器,并发现其中 40.55% 在无认证情况下暴露工具。
  • 在一个启用 DCR、经测试的 119 台服务器子集中,发现了 325 个已确认缺陷实例;每一台被测服务器至少存在一个缺陷,并且负责任披露产生了 9 个 CVE。
  • 现在很有用,因为 MCP 的采用速度快于其安全卫生建设,而协议层弱点无论模型质量如何都可能导致账户接管。
  • 对于部署远程 MCP 且使用 OAuth、DCR 或委托授权的团队,尤其具有决策相关性。
  • 审慎看法:覆盖范围仅限于可公开发现的资产和人工验证子集,因此企业/私有部署情况可能不同。

5) 实际下一步

  • 将 agent 日志视为战略资产:试点 ACC 风格的编译用于长上下文训练,并衡量直接证据 token 监督是否能改善你自己的检索/工具轨迹。
  • 如果你训练 SWE 或工具 agent,加入逐步 groundedness 与轨迹效率过滤;在成功率和推理成本上,对比基于结果过滤的 SFT 与 P2T 风格的筛选轨迹。
  • 审计你的评估栈是否存在隐藏混杂因素:用 zero-CoT 风格探针做污染检查,在安全基准中加入金丝雀,并在适用场景报告尾部感知指标。
  • 用语义伪装载荷和多轮碎片化来红队测试提示注入防御,而不只是显式覆盖字符串。
  • 对于部署在确定性环境中的生产 agent,在重新训练前先测试 harness 侧干预:动作规范化、轨迹规制、技能检索和契约更新,可能带来更快收益。
  • 如果你的 agent 会在有状态环境中分支或搜索,显式基准测试 checkpoint/rollback 开销;DeltaBox 风格的快速 C/R 或事件日志分叉会实质性改变可行搜索深度。
  • 将安全评分更靠近制品/状态变化:对文件、配置或工具动作定义不安全谓词,而不是只依赖拒答文本。
  • 对于共享潜在状态的多 agent 系统,评估共享 KV 制品的可重构性;如果使用潜在通信,可考虑表示层净化。
  • 如果你在动态来源上部署 RAG,测试在持续演化的污染下稳定性/可塑性权衡;精确一致性选择加轻量记忆,可能优于静态过滤器。
  • 增加多层级可观测性:结合轨迹级评审、节点级聚类和可重放日志,以便在 harness/模型变体之间定位并比较失败。

基于逐篇论文分析生成;未进行外部浏览。