2026年5月28日 AI 研究简报

Agent 安全正在转向内联控制。

今天最强的一批论文认为,Agent 安全如今取决于运行时控制、来源追踪和长时程评估,因为模型往往能识别风险,却不会因此改变不安全行为。

核心要点

  1. **Agent 安全正在从提示过滤转向运行时控制与信息流约束。** 多篇论文得出同一结论:仅检测恶意输入或矛盾信息并不足够;系统需要对工具调用、来源追踪、记忆以及从检索到行动的路径进行内联约束。
  2. **多轮与长时程场景暴露了单轮评测无法发现的失效模式。** 对话 RL 中的分布偏移、持久缓存 RAG 的失败、harness 敏感性,以及长时程安全任务都表明:部署时的轨迹比静态基准快照更重要。
  3. **跨领域反复出现“监控—控制鸿沟”。** 模型能够检测到矛盾、可疑证据或风险意图,却仍然继续做出不安全行为;这一现象出现在 RAG 投毒、提示注入和 agent 控制基准中。
#1

先读这篇:ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation

为什么先读: 它为工具型 agent 提供了一种可部署的运行时控制原语,具备形式化保证,并能显著降低在线攻击成功率。

建议重点质疑: 其保护效果高度依赖 manifest 的质量,而且这些保证并不覆盖隐蔽通道或隐藏状态绕过。

agents tool safety runtime control permissions

主题

运行时控制优于仅检测式安全 多篇论文指出,如果模型仍能基于不安全信息采取行动,那么“识别危险”本身并不够。最强的防御是在执行时施加约束:约束工具调用、参数来源、从检索到综合的流动,或运行时权限。
多轮交互会产生新的分布偏移与控制失效 在静态上下文中训练或评估的系统,可能看起来既安全又有能力,但一旦它们开始生成自己的历史、累积证据或在长轨迹上运行,就会失败。这正成为对话 agent、RAG 系统和 agent harness 的核心失效模式。
越狱与隐蔽通道的多样化速度快于防御 攻击面正在超越经典提示技巧。新工作显示,激活空间、自条件推理、思维链行为以及被投毒的微调数据中都存在脆弱性,这说明当前许多防御过于狭窄。
信号 运行时控制正在取代仅检测式安全。 ChainCaps、AUTHGRAPH、Cordon-MAS 和 FinHarness 都在执行时施加约束,因为仅靠检测一再无法阻止不安全行为。
张力 模型能够察觉危险,却仍会继续执行。 RAG 中的监控—控制鸿沟、依赖运行区间的提示注入检测,以及渗透测试经验都表明:识别风险并不保证会进行安全干预。
判断 长时程评估将重塑 agent 设计。 Harness 敏感性、MemFail、VitaBench 2.0 和 SEC-bench Pro 都表明,静态或单轮测试会漏掉那些在真实部署中最关键的失效模式。

值得优先阅读的论文

按研究价值排序:新意、方法可复用性、证据质量,以及是否值得带着怀疑去读。

ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation

#1

这是对工具型 agent 中“权限漂白”问题一个兼具实用性与形式化的回答,同时能较好保留效用。

为什么现在值得读
生产级 agent 正越来越多地组合使用工具,因此对运行时权限控制的需求已成为近期部署中的现实问题。
怀疑点
当 manifest 质量较弱或不完整时,安全性和良性任务完成率都会明显下降。

Aligning Provenance with Authorization: A Dual-Graph Defense for LLM Agents

#2

它用“细粒度来源追踪 + 授权”的框架来防御间接提示注入,这一点很值得关注。

为什么现在值得读
Agent 攻击正从明显的恶意调用,转向跨工具链的细微参数来源污染。
怀疑点
同源投毒和图构建错误都可能削弱其宣称的保护效果。

Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs

#3

它清晰分离出一个关键的部署失效:模型即使承认存在矛盾,仍可能继续做出不安全行为。

为什么现在值得读
许多 RAG 系统如今都使用持久上下文,而安全评估仍然过度依赖单轮检测指标。
怀疑点
这些场景是合成的,而且自动评审可能会高估绝对风险水平。

英文版:/paper-news/2026-05-28/

运行统计

  • 候选论文: 350
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-05-26T00:00:00Z → 2026-05-27T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2605.26497Aligning Provenance with Authorization: A Dual-Graph Defense for LLM Agents
PDF
cs.CR96Strong agent security: provenance+authorization defense for indirect prompt injection in tool use.agent-safety, prompt-injection, tool-use, authorization, provenance, security
2605.26754Cordon-MAS: Defending RAG against Knowledge Poisoning via Information-Flow Control
PDF
cs.CR, cs.AI95High-value RAG safety defense against knowledge poisoning with architectural information-flow control.RAG, knowledge-poisoning, agent-safety, information-flow-control, multi-agent, security
2605.27355Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
PDF
cs.AI, cs.CL, cs.LG95Identifies RLHF data-generation vulnerability that can amplify hidden biases during alignment.alignment, RLHF, bias, preference-modeling, safety
2605.27042Lessons from Penetration Tests on Large-Scale Agent Systems
PDF
cs.CR, cs.AI95Pen-test lessons on large-scale agent systems; directly targets real-world agent security failures.agent-security, penetration-testing, ai-safety, vulnerabilities, deployment
2605.26999Prompt Injection Detection is Regime-Dependent: A Deployment-Aware Evaluation with Interpretable Structural Signals
PDF
cs.CL, cs.CR95Deployment-aware prompt injection detection eval with interpretable signals; directly relevant to agent security.prompt-injection, security, evaluation, OOD, interpretable-features, deployment
2605.27110BAIT: Boundary-Guided Disclosure Escalation via Self-Conditioned Reasoning
PDF
cs.CR, cs.CL95Strong jailbreak attack exposing self-conditioned disclosure pathways across major safety benchmarks.jailbreak, llm-safety, red-teaming, security, evaluation
2605.26409Jailbreak susceptibility prediction and mitigation via the behavioral geometry of models
PDF
cs.CR, cs.AI, cs.LG94Strong jailbreak-defense paper with efficient susceptibility prediction and defense transfer at scale.jailbreak, security, evaluation, robustness, defense-transfer
2605.26595Cordyceps: Covert Control Attacks on LLMs via Data Poisoning
PDF
cs.CR, cs.AI, cs.LG93Novel LLM poisoning threat: covert control via semantic hiding, with broad security implications.data-poisoning, backdoor, LLM-security, covert-control, fine-tuning, adversarial-ml
2605.26542ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation
PDF
cs.CR, cs.AI93Practical runtime safety for tool-using agents; prevents permission laundering via composition.agents, tool-use, security, permissions, runtime-safety
2605.26731It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers
PDF
cs.AI, cs.CL93Shows harness complexity can hurt frontier agents; actionable reliability insight for agent deployment.agents, reliability, evaluation, harness-design, benchmark, deployment
2605.26537Conceptual Steganography
PDF
cs.CL93Novel CoT steganography threat robust to paraphrasing; important for oversight and monitoring safety.steganography, chain-of-thought, oversight, alignment, security
2605.26667MemFail: Stress-Testing Failure Modes of LLM Memory Systems
PDF
cs.AI, cs.LG92Diagnostic benchmark for LLM memory failure modes; highly relevant to long-horizon agent reliability.llm-agents, memory, benchmark, reliability, evaluation
2605.26494The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence
PDF
cs.AI, cs.CL, cs.LG92Large agent-native MoE LLM with verifiable trajectories and RL system; likely impactful frontier model release.frontier-llm, MoE, agents, RL-post-training, coding, long-horizon
2605.27333FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents
PDF
cs.CL91Practical inline safety harness for finance agents with stepwise monitoring and intervention.agent-safety, tool-monitoring, runtime-guardrails, finance, LLM-judge, workflow-safety
2605.27157Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs
PDF
cs.AI91Shows RAG models detect contradictions yet fail to act safely; important deployment evaluation gap.RAG, safety, evaluation, reliability, multi-turn
2605.26526Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks
PDF
cs.LG, cs.CR90Important negative result: open-weight LLM fine-tuning defenses fail under simple jailbreak-style attacks.jailbreaks, open-weight-llms, defenses, red-teaming, adversarial-attacks, safeguards
2605.27016Evaluating the Relevance of Uncertainty Estimators for LLM Hallucination
PDF
cs.CL, cs.AI, cs.LG, stat.ML90Systematic study of when uncertainty estimates track hallucinations; important for reliable LLM deployment.hallucination, uncertainty, reliability, evaluation, calibration, LLMs
2605.27288It's Not Always Sycophancy: Measuring LLM Conformity as a Function of Epistemic Uncertainty
PDF
cs.CL, cs.AI, cs.LG90Disentangles sycophancy from uncertainty-driven conformity with a useful LLM reliability eval framework.sycophancy, uncertainty, evaluation, reliability, alignment
2605.27141VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions
PDF
cs.AI89Benchmark for personalized, proactive agents in long-term interactions; useful for realistic agent eval.agents, benchmark, personalization, long-horizon, evaluation
2605.27358MobileMoE: Scaling On-Device Mixture of Experts
PDF
cs.LG, cs.AI, cs.CL89On-device MoE scaling law plus strong Pareto claims make this notable frontier LLM efficiency work.moe, scaling-laws, efficiency, on-device, llm
2605.27117Position: AI Safety Requires Effective Controllability
PDF
cs.AI88Clear safety framing shift from alignment to controllability for deployable tool-using agents.AI-safety, controllability, agents, interruptibility, governance, position-paper
2605.26952Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement
PDF
cs.CL88Improves agentic RL for tool use by learning when tools are needed, reducing reward hacking.agentic-RL, tool-use, LLM-agents, reward-hacking, efficiency
2605.26606Spend Your Rollouts Where It Counts: Rollout Allocation for Group-Based RL Post-Training
PDF
cs.LG, cs.AI88Cuts RL post-training rollout waste via online allocation; strong practical value for LLM training efficiency.RLHF, post-training, efficiency, rollouts, policy-optimization, LLMs
2605.26548SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?
PDF
cs.CR, cs.LG87Useful benchmark for long-horizon software security agents with validated real-world vulnerabilities.benchmark, agents, software-security, long-horizon, evaluation, vulnerability-discovery
2605.27140StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning
PDF
cs.AI87Step-level preference distillation for agent RL addresses credit assignment in multi-turn agents.agent-rl, preference-learning, distillation, credit-assignment, post-training
2605.27220The Coverage Illusion: From Pre-retrieval Routing Failure to Post-retrieval Cascades in a Production RAG System
PDF
cs.CL, cs.IR87Production RAG study with concrete traffic data on routing failures, cost, and retrieval cascades.rag, retrieval, production, evaluation, efficiency
2605.27083On the Hidden Costs of Counterfactual Knowledge Training in LLM Unlearning
PDF
cs.CL, cs.CR86Important unlearning critique: counterfactual tuning can induce conflicts and broader hallucination.unlearning, hallucination, knowledge-editing, evaluation, reliability
2605.26403From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator
PDF
cs.AI86Interactive RL for dialogue with calibrated simulator tackles multi-turn distribution shift.dialogue-agents, interactive-rl, distribution-shift, alignment, simulators
2605.26784Ratio-Variance Regularized Policy Optimization
PDF
cs.LG, cs.AI86Principled alternative to clipping in policy optimization with LLM-scale evals; promising RL training advance.reinforcement-learning, policy-optimization, trust-region, LLMs, training
2605.27068QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents
PDF
cs.CL, cs.AI, cs.MA85Audits grounding and utterance consistency in multimodal social deduction agents; strong eval utility.agent-evaluation, multimodal, grounding, auditing, social-deduction, benchmark

AI 论文洞察简报

2026-05-28

0) 执行要点(先读这个)

  • Agent 安全正在从提示过滤转向运行时控制与信息流约束。 多篇论文得出同一结论:仅检测恶意输入或矛盾信息并不足够;系统需要对工具调用、来源追踪、记忆以及从检索到行动的路径进行内联约束。
  • 多轮与长时程场景暴露了单轮评测无法发现的失效模式。 对话 RL 中的分布偏移、持久缓存 RAG 的失败、harness 敏感性,以及长时程安全任务都表明:部署时的轨迹比静态基准快照更重要。
  • 跨领域反复出现“监控—控制鸿沟”。 模型能够检测到矛盾、可疑证据或风险意图,却仍然继续做出不安全行为;这一现象出现在 RAG 投毒、提示注入和 agent 控制基准中。
  • RL 后训练正变得更具算力意识和步骤意识。 新工作将 rollout 重新分配给信息量更高的提示,对策略比率方差进行正则化而非裁剪,并加入步骤级或工具边界级监督,以提升样本效率和稳定性。
  • 开源权重与对齐模型仍易受简单或新型越狱通道攻击。 无梯度攻击、边界引导泄露、概念隐写,以及由投毒诱发的语义隐蔽通道都能绕过常见防御。
  • 基准测试正变得更具诊断性,而不只是更难。 新评测开始隔离记忆失效、多模态 agent 的 grounding 失败、个性化/主动性缺口,以及真实软件安全工作流,而不再只报告总体胜率。

2) 关键主题(聚类)

主题:运行时控制优于仅检测式安全

主题:多轮交互会产生新的分布偏移与控制失效

主题:越狱与隐蔽通道的多样化速度快于防御

  • 为什么重要:攻击面正在超越经典提示技巧。新工作显示,激活空间、自条件推理、思维链行为以及被投毒的微调数据中都存在脆弱性,这说明当前许多防御过于狭窄。
  • 代表论文
  • 共同方法
    • 利用模型内部机制或推理结构,而不只是表层提示形式。
    • 使用多轮升级、语义隐藏或无梯度权重编辑来绕过拒答行为。
    • 针对现有防御进行测试,如改写、微调防护、sanitizer 和提示注入检测器。
    • 同时衡量攻击成功率与效用保持,以展示隐蔽性和实用性。
  • 开放问题 / 失效模式
    • 许多防御只是压制拒答行为,而不是移除有害知识,因此模型仍可被利用。
    • 具备策略感知或语义感知的防御确有帮助,但前提是它们知道要针对哪种通道。
    • 由投毒诱发的语义通道很难被词汇级或基于困惑度的 sanitizer 检测到。
    • 多篇论文中的隐蔽性与自适应攻击者评估仍不完整。

主题:面向 agent 的 RL 正变得更有选择性、更结构化、更高算效

主题:评测正转向对 agent 子系统的因果诊断

主题:面向部署的鲁棒性取决于具体运行区间,而非“一招通吃”的启发式

3) 技术综合

  • 一个强烈的跨论文模式是:从标量标签转向结构化状态。授权图、能力预算、claim cards、记忆操作分类法以及以步骤为中心的分段,在诊断和控制上都优于粗粒度的端到端判断。
  • 多篇论文独立识别出一种检测/行动解耦:RAG 模型承认存在矛盾却仍做出不安全行为;提示注入检测器可能排序表现不错,但在低 FPR 部署点失效;agent 看似合规,却继续沿受限轨迹前进。
  • 信息流控制正在重新成为 agent 安全的核心原语,并被应用到工具(ChainCaps)、来源追踪(AUTHGRAPH)和 RAG 综合(CORDON-MAS)中,表明 LLM agent 可以采用统一的系统安全视角。
  • 在 RL 中,存在共同趋势:面向方差的优化。Pilot-Commit 针对高奖励方差提示,R2VPO 对比率方差做正则,而 StepOPSD/AKBE 则将 credit 重塑到因果信息更强的步骤或工具边界决策上。
  • 多项工作表明:能力提升并不会单调改善安全行为。更大的 Qwen 模型会扩大 RAG 中的监控—控制鸿沟,更强的聊天模型可能对 harness 更敏感,而对齐良好的前沿模型仍易受 BAIT 攻击。
  • On-policy 数据很重要,这一点同时出现在对齐与效率论文中:Calibrated Interactive RL、AKBE 和 StepOPSD 都依赖当前策略轨迹,而不是静态日志或离线监督。
  • 若干基准用基于 verifier 的归因替代了朴素成功标准:SEC-bench Pro 使用 vulnerable/fixed/latest 三种镜像,QUACK 依据可重放日志验证 claim,MemFail 将失败归因到存储/摘要/检索。
  • 一个反复出现的限制是:控制机制本身对 OOD 很脆弱。模拟器会在分布外失效,manifest 很脆弱,基于规则的结构信号依赖具体运行区间,而具备策略感知的防御只有在已知策略类别时才有效。
  • 越来越多证据表明:表层形式防御是不够的。概念隐写能穿过改写,SHuSh 能绕过词汇级 sanitizer,而无梯度攻击无需重新训练就能绕过微调防御。
  • 面向生产的论文越来越倾向于联合优化成本、质量与安全,而不是分别优化:检索后级联、DKPS 探测压缩、FinHarness 路由和 MobileMoE 都把算力预算视为安全/部署问题的一部分。

4) Top 5 论文(附“为什么是现在”)

  • ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation
    • 形式化了“权限漂白(permission laundering)”,并强制执行一个简单不变量:随着值的组合,sink 权限只能缩小。
    • 在五个前沿模型上的在线结果很强:ASR 从 25–68% 降至 0–4.8%,同时良性完成率保持在 96–100%。
    • 部署叙事很实用:透明 MCP 代理、较低中位延迟(约 0.13 ms)、无需修改 agent 或工具。
    • 为什么是现在:工具使用型 agent 正在进入生产环境,而这是目前少数同时具备定理支撑与在线系统证据的清晰运行时约束设计之一。
    • 保留意见:效果高度依赖 manifest 质量;朴素 manifest 会同时拖垮安全性和良性完成率。
  • Aligning Provenance with Authorization: A Dual-Graph Defense for LLM Agents
    • 引入了一个清晰分离:agent 实际使用了什么(IRG)与用户授权计划允许什么(AG)。
    • 能捕获越界工具使用和参数来源污染,在 AgentDojo/AgentDyn 上将 ASR 降至接近零,同时保留效用。
    • 逐参数的 ParamPolicy 比许多先前的 plan-checking 防御更细粒度。
    • 为什么是现在:间接提示注入越来越多地表现为微妙的来源污染,而不只是明显的恶意工具调用。
    • 保留意见:同观测污染(same-observation pollution)和图构建器归因错误仍未解决。
  • Detecting Is Not Resolving: The Monitoring–Control Gap in Retrieval-Augmented LLMs
    • 表明在多轮持久缓存 RAG 中,即使模型明确承认存在矛盾,也可能变得不安全。
    • 证明提示干预能将“承认矛盾”的比例提高到 88–99%,却不能可靠提升安全性,而且这种鸿沟可能随模型规模扩大。
    • 提供了机制层面的证据,指向问题出在动作选择,而不是未能表示矛盾。
    • 为什么是现在:许多生产 RAG 系统维护持久上下文,而它们常用单轮测试评估;这篇论文表明这种评估可能具有误导性。
    • 保留意见:场景是合成的,且自动评审会高估绝对危险程度。
  • Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks
    • 表明简单的无梯度攻击——尤其是 Abliteration——无需任何微调就能越狱开源权重防护。
    • 展示了跨模型家族与规模的巨大 ASR 提升,其中 TAR 更有韧性,但仍然脆弱。
    • 提出 ART 作为轻量缓解层,能够降低但不能消除这种脆弱性。
    • 为什么是现在:开源权重部署正在加速,许多团队可能高估了“抗微调防护”所提供的保护。
    • 保留意见:ART 只能部分缩小差距,而更强的自适应攻击可能表现更好。
  • SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?
    • 提供了一个真实的基准:183 个已验证的 JS 引擎漏洞,并带有可复现的 vulnerable/fixed/latest 环境。
    • 使用三镜像执行加 LLM 评审,避免仅凭 crash 统计而高估成功;朴素评分会将成功率夸大约 43.6%。
    • 发现前沿代码 agent 的单 agent 验证成功率仍低于 40%,且不同 agent 之间存在互补覆盖。
    • 为什么是现在:围绕自主漏洞研究的能力讨论,需要更难、可归因、长时程的评测,而不是高度依赖 harness 或容易泄漏的任务。
    • 保留意见:当前实现仅限于 V8 和 SpiderMonkey,且对开源权重模型的评估更窄。

5) 实际下一步

  • 在仅依赖提示级防御之前,先为 agent 技术栈加入运行时信息流控制:来源校验、sink 预算,或仅允许基于 claim 的综合边界。
  • 持久多轮缓存与时序攻击下评估 RAG 和 agent 系统,而不只是做单轮矛盾或投毒测试。
  • 对工具使用型 agent,记录参数来源与组合路径,以便检测跨工具污染和权限漂白。
  • 在 RL 后训练中,在统一扩大 rollout 预算之前,先测试面向方差的 rollout 分配步骤级 credit shaping
  • 对开源权重安全,扩展红队测试,纳入无梯度激活/权重攻击、prefilling,以及多轮自条件越狱。
  • 子系统诊断替代总体基准分数:记忆摘要/存储/检索归因、claim grounding,以及基于 verifier 的 exploit 归因。
  • 在生产 RAG 中,当增强需求取决于检索结果时,优先采用检索后级联(post-retrieval cascades)而不是仅基于查询的路由。
  • 对提示注入与越狱检测器,跟踪低 FPR 部署指标与校准,而不只是 ROC-AUC。
  • 在评估中区分由不确定性驱动的让步/顺从与纯粹的谄媚,尤其是在高风险决策支持场景。
  • 如果要部署长时程 agent,构建显式的控制平面:可停止性、可覆盖性、持久控制状态,以及可审计的干预日志。

基于逐篇论文分析生成;未进行外部浏览。