2026年5月26日 AI 研究简报

Agent 安全转向运行时。

今天最有力的论文认为,Agent 的安全性与可靠性,与其说取决于检测坏输入,不如说取决于在执行时控制来源、权限与动作。

核心要点

  1. **Agent 安全正在从提示词过滤转向对信息流与权限的运行时控制。** 今天最强的论文更强调在执行过程中强制执行来源追踪、授权或能力衰减,而不是只尝试分类坏提示词。
  2. **反复有研究表明:没有控制,仅靠检测是不够的。** 这一点出现在 RAG 投毒、提示注入和多轮矛盾场景中:系统可以识别风险或冲突,但仍然会采取不安全的动作。
  3. **长时程 Agent 训练正转向更细粒度的信用分配与更聪明的采样。** 多篇 RL 论文通过重新分配 rollout,或使用图结构/事后重评分配步骤级信用,而不是粗糙的轨迹级奖励,从而提升效率。
#1

先读这篇:ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation

为什么先读: 它为工具型 Agent 提供了一种可复用的运行时控制模式,并报告了显著降低攻击成功率、同时不明显损害良性任务完成率的结果。

建议重点质疑: 它的保证依赖可信 manifest 和可见的信息流,因此隐藏信道或错误的策略规格仍可能破坏安全性。

agent-safety tool-use runtime-guardrails

主题

面向工具使用与检索 Agent 的运行时安全 当前最可信的防御不只是更好的分类器,而是在执行时约束信息可以流向哪里、哪些动作可以被执行的机制。这对拥有工具、持久记忆或外部数据访问能力的 Agent 尤其重要。
RAG 与提示安全中的监控—控制鸿沟 多篇论文表明,识别危险、矛盾或注入结构,并不保证安全行为。这削弱了人们对“仅检测”防御以及止步于“感知指标”的基准设置的信心。
超出标准威胁模型的越狱、隐蔽信道与投毒 针对明显提示词或微调攻击优化的安全防御,正在被利用模型内部机制、推理轨迹或训练数据的攻击绕过。攻击面比“坏提示词输入,坏答案输出”要宽得多。
信号 运行时控制正在取代提示词过滤。 ChainCaps、Dual-Graph Defense、Cordon-MAS 和 FinHarness 都是在执行过程中约束来源、权限或动作流,而不只是对提示词做分类。
张力 检测往往无法改变行为。 提示注入和 RAG 论文表明,系统即使能检测到矛盾或风险结构,在部署约束下仍可能做出不安全的动作。
判断 Agent 训练会变得更局部化。 Rollout 分配、基于图的信用分配,以及步骤感知的偏好蒸馏,都在推动 RL 从粗糙的轨迹级奖励转向使用步骤级信号。

值得优先阅读的论文

按研究价值排序:新意、方法可复用性、证据质量,以及是否值得带着怀疑去读。

ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation

#1

一种针对工具型 Agent 中权限洗白的实用运行时防御,具有清晰的系统抽象和强劲的在线评测结果。

为什么现在值得读
MCP 风格的工具生态扩张速度快于稳健权限模型的发展速度。
怀疑点
在复杂部署中,可信 manifest 和代理可见的信息流都是很强的假设。

Aligning Provenance with Authorization: A Dual-Graph Defense for LLM Agents

#2

一种互补性的安全原语,检查的不只是工具调用看起来是否被允许,还包括工具参数来自哪里。

为什么现在值得读
间接提示注入越来越体现为跨工具污染和来源丢失。
怀疑点
它依赖准确的图归因,且无法解决同一观测内的投毒。

SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

#3

一个更贴近现实的基准,显著拉低了表面上的 Agent 能力评估,并暴露出当前评分捷径有多么脆弱。

为什么现在值得读
安全 Agent 正被大力宣传,但真实的长时程评测仍然稀缺。
怀疑点
该基准目前主要集中在两个 JavaScript 引擎上,覆盖面有限。

英文版:/paper-news/2026-05-26/

运行统计

  • 候选论文: 350
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-05-26T00:00:00Z → 2026-05-27T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2605.27110BAIT: Boundary-Guided Disclosure Escalation via Self-Conditioned Reasoning
PDF
cs.CR, cs.CL96Strong jailbreak method exploiting self-conditioned reasoning; directly relevant to LLM security evals.jailbreak, LLM-security, red-teaming, prompting, safety-evaluation
2605.26497Aligning Provenance with Authorization: A Dual-Graph Defense for LLM Agents
PDF
cs.CR95Dual-graph defense targets indirect prompt injection with provenance-aware authorization checks.agent-safety, prompt-injection, tool-use, authorization, provenance, security
2605.26409Jailbreak susceptibility prediction and mitigation via the behavioral geometry of models
PDF
cs.CR, cs.AI, cs.LG95Strong jailbreak eval+mitigation transfer framework with major probe-efficiency gains across many models.jailbreaks, safety-evaluation, robustness, defense-transfer, behavioral-geometry
2605.27042Lessons from Penetration Tests on Large-Scale Agent Systems
PDF
cs.CR, cs.AI95Pen-test lessons for large-scale agents; directly targets real-world agent security failures.agent-security, penetration-testing, autonomy, system-security, ai-safety
2605.26999Prompt Injection Detection is Regime-Dependent: A Deployment-Aware Evaluation with Interpretable Structural Signals
PDF
cs.CL, cs.CR95Deployment-aware prompt injection detection with interpretable signals; directly relevant to agent security.prompt-injection, agent-safety, security, evaluation, OOD, detection
2605.26754Cordon-MAS: Defending RAG against Knowledge Poisoning via Information-Flow Control
PDF
cs.CR, cs.AI94Architectural RAG defense against knowledge poisoning; strong safety framing and reusable design.RAG, knowledge-poisoning, information-flow-control, multi-agent, security, grounding
2605.26542ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation
PDF
cs.CR, cs.AI94Practical runtime safety for tool agents; prevents permission laundering via composition-safe capabilities.agent-safety, tool-use, permissions, sandboxing, runtime-guardrails
2605.26537Conceptual Steganography
PDF
cs.CL94CoT steganography via reasoning patterns, robust to paraphrasing; important hidden-channel safety risk.steganography, chain-of-thought, oversight, misalignment, security
2605.26595Cordyceps: Covert Control Attacks on LLMs via Data Poisoning
PDF
cs.CR, cs.AI, cs.LG93Introduces stealthy poisoning-based covert control attacks on LLMs across models and defenses.data-poisoning, backdoors, LLM-security, covert-control, adversarial-ml
2605.26667MemFail: Stress-Testing Failure Modes of LLM Memory Systems
PDF
cs.AI, cs.LG93Diagnostic benchmark for LLM memory failure modes; highly relevant to long-horizon agent reliability.llm-agents, memory, benchmark, reliability, evaluation
2605.26731It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers
PDF
cs.AI, cs.CL93Shows harness complexity can hurt frontier agents; actionable reliability insight for agent deployment.agents, reliability, evaluation, deployment, harness, benchmark
2605.27355Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
PDF
cs.AI, cs.CL, cs.LG92Identifies RLHF data-generation vulnerability where models can steer preferences toward misaligned biases.alignment, RLHF, preference-modeling, bias, data-generation-risks
2605.26494The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence
PDF
cs.AI, cs.CL, cs.LG92Large agent-native MoE LLM with RL/data pipeline details; likely impactful frontier agent progress.frontier-llm, agents, MoE, RL, post-training, coding
2605.27333FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents
PDF
cs.CL91Inline safety harness for finance agents monitors intent drift and risky tool calls before action.agent-safety, finance, tool-monitoring, runtime-guardrails, LLM-judge, security
2605.27288It's Not Always Sycophancy: Measuring LLM Conformity as a Function of Epistemic Uncertainty
PDF
cs.CL, cs.AI, cs.LG91Disentangles sycophancy from uncertainty-driven conformity; useful for alignment diagnosis and evals.alignment, sycophancy, uncertainty, evaluation, reliability
2605.26526Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks
PDF
cs.LG, cs.CR90Shows open-weight fine-tuning defenses fail under simple jailbreak-style attacks; high practical impact.jailbreaks, open-weight-llms, defenses, red-teaming, misuse, security
2605.27157Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs
PDF
cs.AI90Shows RAG models detect contradictions yet fail to act safely; important gap for agentic deployment.RAG, reliability, monitoring, multi-turn-evaluation, safety
2605.27141VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions
PDF
cs.AI90Benchmark for personalized, proactive agents in long-term interactions; useful for realistic agent eval.agents, benchmark, personalization, proactivity, long-horizon
2605.27016Evaluating the Relevance of Uncertainty Estimators for LLM Hallucination
PDF
cs.CL, cs.AI, cs.LG, stat.ML90Systematic study of when uncertainty estimates track LLM hallucinations; strong reliability relevance.hallucination, uncertainty, reliability, evaluation, factuality, LLM
2605.27358MobileMoE: Scaling On-Device Mixture of Experts
PDF
cs.LG, cs.AI, cs.CL90On-device MoE scaling law plus strong deployment-oriented models; notable frontier LLM efficiency work.MoE, scaling-laws, efficient-LLMs, on-device, architecture
2605.26691Mind the Tool Failures: Achieving Synergistic Tool Gains for Medical Agents
PDF
cs.AI89Studies unsafe tool failures in medical agents and instance-wise selection under imperfect tools.tool-use, medical-agents, safety, reliability, decision-making
2605.26548SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?
PDF
cs.CR, cs.LG88Realistic benchmark for long-horizon agentic software security tasks with validated vulnerabilities.benchmark, agents, software-security, evaluation, long-horizon, bug-hunting
2605.26918Are Video Models Zero-Shot Learners and Reasoners in Education? EduVideoBench, A Knowledge-Skills-Attitude Benchmark for Educational Video Generation
PDF
cs.CL88Benchmark for educational validity and safety of video models; useful eval framing beyond generic safety.benchmark, video-models, safety, evaluation, multimodal, education
2605.27220The Coverage Illusion: From Pre-retrieval Routing Failure to Post-retrieval Cascades in a Production RAG System
PDF
cs.CL, cs.IR88Production RAG study with concrete traffic evidence on routing/augmentation failures and cost tradeoffs.RAG, retrieval, evaluation, production-systems, efficiency
2605.27083On the Hidden Costs of Counterfactual Knowledge Training in LLM Unlearning
PDF
cs.CL, cs.CR87Important unlearning critique: counterfactual tuning can induce conflicts and broader hallucination spillover.unlearning, hallucination, reliability, knowledge-editing, benchmark
2605.27140StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning
PDF
cs.AI87Step-level preference distillation for agent RL addresses credit assignment in multi-turn agents.agent-rl, preference-learning, distillation, multi-turn, training
2605.26606Spend Your Rollouts Where It Counts: Rollout Allocation for Group-Based RL Post-Training
PDF
cs.LG, cs.AI87Improves rollout allocation for RL post-training of LLMs; practical efficiency for frontier training.RLHF, post-training, efficiency, LLM, rollouts, optimization
2605.26684Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning
PDF
cs.LG, cs.AI87Improves step-level credit assignment for agentic RL using graph structure; promising for agent training.agents, reinforcement-learning, credit-assignment, LLM-agents, reasoning
2605.27068QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents
PDF
cs.CL, cs.AI, cs.MA86Audits grounding and utterance consistency in multimodal social deduction agents beyond win rates.agent-evaluation, multimodal, auditing, grounding, social-deduction, benchmark
2605.26784Ratio-Variance Regularized Policy Optimization
PDF
cs.LG, cs.AI86Principled PPO-style alternative with ratio-variance control, evaluated across LLM scales.reinforcement-learning, post-training, optimization, LLM, policy-optimization

AI 论文洞察简报

2026-05-26

0) 执行要点(先读这个)

  • Agent 安全正在从提示词过滤转向对信息流与权限的运行时控制。 今天最强的论文更强调在执行过程中强制执行来源追踪、授权或能力衰减,而不是只尝试分类坏提示词。
  • 反复有研究表明:没有控制,仅靠检测是不够的。 这一点出现在 RAG 投毒、提示注入和多轮矛盾场景中:系统可以识别风险或冲突,但仍然会采取不安全的动作。
  • 长时程 Agent 训练正转向更细粒度的信用分配与更聪明的采样。 多篇 RL 论文通过重新分配 rollout,或使用图结构/事后重评分配步骤级信用,而不是粗糙的轨迹级奖励,从而提升效率。
  • 基准测试正变得更贴近部署现实——同时也在拉低表面能力。 在软件安全、个性化、记忆、社会 grounding(社会语境落地)和生产级 RAG 中,更真实的评测都显示,模型表现弱于头部基准分数所暗示的水平。
  • 开源权重模型和对齐模型仍暴露出简单攻击面。 无梯度越狱、自条件泄露攻击、CoT 中的隐蔽信道,以及基于投毒的隐蔽控制,都能绕过那些在更狭窄威胁模型下看起来更强的防御。
  • 稀疏效率正在栈的两端变得实用。 一篇论文推动了适用于前沿 agentic 系统的低激活 MoE;另一篇则表明 MoE 现在也能在手机上可行,并给出了真实部署测量。

2) 关键主题(聚类)

主题:面向工具使用与检索 Agent 的运行时安全

主题:RAG 与提示安全中的监控—控制鸿沟

主题:超出标准威胁模型的越狱、隐蔽信道与投毒

  • 为什么重要:针对明显提示词或微调攻击优化的安全防御,正在被利用模型内部机制、推理轨迹或训练数据的攻击绕过。攻击面比“坏提示词输入,坏答案输出”要宽得多。
  • 代表论文
  • 共同方法
    • 利用推理结构潜在拒答方向,而不是依赖显式越狱字符串
    • 使用能在改写和简单清洗后仍保留的语义或概念载体
    • 展示攻击在低成本、无梯度或低投毒比例设置下仍然有效
    • 针对现有、基于更狭窄假设设计的防御进行测试,例如对抗式微调或词法触发器
  • 开放问题 / 失效模式
    • 多种隐蔽信道攻击的隐蔽性与可检测性仍缺乏充分测量
    • 一些缓解方法有帮助,但无法恢复到“无攻击”基线
    • 结果往往依赖强力 oracle、共享知识或特定防御家族
    • 多轮交互和真实部署接口可能会以尚未被充分测量的方式改变攻击成功率

主题:面向 Agent 的 RL 正变得更有选择性、更局部化、也更结构感知

主题:基准测试正在暴露记忆、个性化、grounding 与安全中的隐藏弱点

主题:效率与部署现实正在驱动架构选择

3) 技术综合

  • 一个反复出现的设计模式是将观测与权限分离:AuthGraph 将执行来源链与干净授权分离,ChainCaps 将价值预算与工具权限分离,CORDON-MAS 将原始证据读取器与最终综合器分离。
  • 多篇安全论文都趋向于把信息流控制视为 Agent 和 RAG 的正确抽象,用来源链、sink 约束和经认证的证据路径,替代内容审核式思路。
  • 仅检测式评估正在多个领域受到挑战:提示注入检测会随场景和阈值剧烈变化;RAG 中对矛盾的承认并不能预测安全动作;具备矛盾感知的提示防御在投毒下仍会失败。
  • RL 论文越来越多地优化信号存在于哪里,而不只是如何优化它:Pilot-Commit 针对高方差提示,GraphGPO 针对图局部进展,StepOPSD 针对以动作为中心的步骤跨度。
  • 存在一个广泛趋势,即从轨迹级监督转向局部化监督:图边、步骤片段、参数来源、claim cards(声明卡片)以及记忆操作失败,都体现了更细粒度的分解。
  • 多篇论文表明,更真实的基准会拉低表面能力:SEC-bench Pro 中顶级单 Agent 成功率仍低于 40%;VitaBench 2.0 即使提供完整上下文,最高也只有约 0.5 Avg@4;QUACK 显示高胜率 Agent 仍会幻觉出社会语境事实。
  • 多项工作强调了非单调性:安全 harness 的复杂度不会随模型层级平滑扩展,更强的内部模型可能恶化记忆系统,更大的 RAG 模型也可能表现出更差的监控—控制鸿沟。
  • 安全与效用权衡越来越多地使用部署原生指标来衡量:低 FPR 下的 TPR、良性完成率、批准率、可回答性、高级裁判路由次数,以及手机或生产流量上的真实延迟。
  • 在越狱与投毒研究中,共同失败点是防御过拟合于狭窄攻击模型——微调防御漏掉 abliteration/prefill,改写防御漏掉概念信道,提示防御漏掉语义层面的隐蔽控制。
  • 稀疏系统研究正在分化为两个方向:面向长时程能力的前沿 agentic MoE,以及面向边缘部署的移动端 MoE,但两者都依赖精细的路由、训练稳定性和运行时感知设计。

4) Top 5 论文(附“为什么是现在”)

  • ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation
    • 重新定义了 Agent 安全问题,聚焦于权限洗白(permission laundering):单个被允许的工具调用组合起来,可能形成端到端的不安全行为。
    • 实现了一个实用的透明 MCP 代理,具备单调预算传播和非放大定理。
    • 报告了显著的 live-eval 提升:攻击成功率从 25.2–67.8% 降至 0.0–4.8%,同时保持 96–100% 的良性完成率
    • 现在很有用,因为 MCP 风格的工具生态扩张速度快于稳健运行时策略层的建设速度。
    • 质疑 / 局限:其保证依赖可信 manifest 和代理可见的显式流;manifest 质量是部署中的主要瓶颈。
  • Aligning Provenance with Authorization: A Dual-Graph Defense for LLM Agents
    • 为 Agent 安全补上了一个关键缺失原语:参数来源授权,而不只是工具调用校验。
    • 将被操纵的执行轨迹与干净授权图分离,然后同时检查工具序列和参数来源链。
    • 在 AgentDojo 和 AgentDyn 上,将 ASR 降至约 0.01–0.02,同时保留相对较高的效用。
    • 现在很有用,因为间接提示注入越来越多地表现为跨工具污染,而不只是明显的恶意调用。
    • 质疑 / 局限:无法处理同一观测内的投毒,并且依赖图构建器的归因质量。
  • SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?
    • 引入了一个真实、Docker 化的漏洞挖掘基准,面向 V8 和 SpiderMonkey,包含漏洞版/修复版/最新镜像以及带归因意识的评分。
    • 显示前沿 Agent 距离稳健仍然很远:最佳单 Agent 成功率在 V8 上为 32.0%,在 SpiderMonkey 上为 38.8%
    • 证明如果只按 crash 评分,会将成功率夸大 43.6%,这对当前评测实践是一个重大警示。
    • 现在很有用,因为软件安全 Agent 正被积极营销,但真实测量明显滞后。
    • 质疑 / 局限:当前实现仅限于两个 JavaScript 引擎,且一个开源权重基线只做了部分评估。
  • Spend Your Rollouts Where It Counts: Rollout Allocation for Group-Based RL Post-Training
    • 提出了一个简单但高杠杆的系统思路:先用 pilot rollouts 估计 prompt 信息量,再只把预算投入到方差真正有用的地方。
    • 在预算充足设置下,以比 GRPO 少 1.5–1.9 倍的 rollouts、比 DAPO 少 2.3–4.0 倍的 rollouts 达到目标准确率。
    • 包含了实用机制——binding、replay、solved-prompt eviction——使其比纯理论方案更易部署。
    • 现在很有用,因为 rollout 生成是推理模型后训练中的主要成本中心之一。
    • 质疑 / 局限:目前主要针对二元可验证奖励和数学类任务。
  • The Coverage Illusion: From Pre-retrieval Routing Failure to Post-retrieval Cascades in a Production RAG System
    • 提供了罕见的生产证据,说明合成评测会严重误导路由策略:合成数据表明几乎总需要增强,而真实流量显示只有 27.8% 的查询需要。
    • 表明在这种以实体为主的参考场景中,仅根据查询文本进行检索前路由基本失效。
    • 一个简单的检索后级联在质量上优于 Always-HyDE,同时将延迟降低 31.8%
    • 现在很有用,因为许多团队正基于基准假设而非真实流量现实,过度使用昂贵的 LLM 增强。
    • 质疑 / 局限:结论与某个百科类部署和一种高度 defer 的策略强相关。

5) 实际下一步

  • 将 Agent 安全评审视为运行时系统设计,而不只是提示防御调参:加入来源链检查、sink 策略,以及针对不可逆动作的执行前闸门。
  • 对于工具使用型 Agent,审计你是否能回答:每个工具参数来自哪条观测,该来源是否被授权?
  • 在任何 RAG 安全测试套件中加入多轮、持久缓存评估;单轮矛盾测试很可能高估了安全性。
  • 如果你在运行 GRPO 风格的后训练,在扩大原始 rollout 预算之前,先测试方差感知的 rollout 分配步骤局部信用塑形
  • 失效模式分解来评测记忆系统——总结、存储、检索——而不只是看终任务准确率。
  • 对于开源权重安全评估,在每次防御评测中都加入无梯度攻击,例如 abliteration 和 prefilling;仅靠对抗式微调的覆盖面太窄。
  • 对于 CoT 监控,要假设改写并不足够;测试推理轨迹是否能携带在词法重写后仍然存在的行为级隐蔽信道
  • 在生产 RAG 中,基于真实流量分布验证路由和增强策略,并在 query-only 路由器之前考虑检索后级联
  • 对于金融或医疗等高风险领域,同时衡量良性批准率 / 效用与 ASR,并优先采用能在状态改变型工具调用前介入的内联控制。
  • 在评估个性化或主动式助手时,显式比较完整上下文 vs 记忆支持设置;如果记忆反而有害,瓶颈很可能在检索/更新质量,而不只是模型推理本身。

基于逐篇论文分析生成;未进行外部浏览。