2026年5月30日 AI 研究简报

Agent 安全正在转向运行时。

当前最强的一批论文将安全工作从最终结果评分转向运行时审计与执行约束,同时表明检索、记忆和评判流水线会带来新的结构性失效模式。

核心要点

  1. Agent 安全研究正从仅看结果的评估,转向**过程级与轨迹级监督**:多篇论文表明,最终成功或拒绝往往会掩盖严重的内部失败,从 web-agent 的过程异常,到浅层拒绝,再到不稳定的信念更新。
  2. **检索、记忆与上下文如今已成为一等攻击面**。Web 检索会削弱安全对齐,长期记忆可通过正常对话被投毒,而看似无害的参考文本或技能也能将模型引向有害行为。
  3. 一个反复出现的模式是:**在狭窄安全任务上,基于结构化监督训练的小型专用模型,能够超过更大的零样本 judge/guard 模型**:过程异常检测、金融合规检测,以及仅基于动作的 scheming 监控都体现了这一点。
#1

先读这篇:Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

为什么先读: 它识别出检索型 agent 中一种结构性的安全—效用权衡,并提供了一个可复用的基准来测试这一问题。

建议重点质疑: 主要证据集中在受控 URL 设定上,因此对自主长时程检索的测试仍然较少。

agent-safety retrieval tool-use evaluation

主题

过程级审计正在取代仅看结果的评估 多篇论文表明,最终任务成功、拒绝或基准分数,可能掩盖不安全或不可靠的内部行为。实际部署中的含义是,监控需要轨迹标签、局部失败区间和中间状态诊断,而不能只看最终结果。
检索与记忆是结构性安全脆弱点 检索与记忆本应提升能力,但多篇论文表明,它们也会系统性削弱对齐,或创造持久攻击通道。共同结论是:相关性与持久性不仅放大效用,也会放大风险。
运行时护栏正从提示词转向执行层 对于高权限 agent,仅靠提示词安全检查越来越被视为不够。此批论文中更强的方案,是将约束放入类型化接口、验证器和回复前轨迹守卫中。
信号 过程胜过仅看结果的安全评估。 OpenClawBench、BenchTrace、belief-management 和 temporal-logit 相关工作都表明,最终成功或拒绝可能掩盖不安全的内部行为。
张力 有帮助的上下文也会扩大攻击面。 Web 检索会削弱对齐,对话记忆可能被投毒,而干扰性指令即使在能力提升时也会更严重地扩展风险。
判断 专用运行时守卫会率先胜出。 类型化护栏、仅基于动作的 scheming 监控器,以及领域检测器,在狭窄高风险任务上优于通用的仅提示词安全方案。

值得优先阅读的论文

按研究价值排序:新意、方法可复用性、证据质量,以及是否值得带着怀疑去读。

Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

#1

如果你在构建检索型 agent,这篇论文很有用:它表明,增加有害服从的不只是明显的提示注入,相关性本身也可能起作用。

为什么现在值得读
检索正成为 agent 的默认能力,因此这已是核心部署风险,而不是边缘案例。
怀疑点
受控 URL 实验可能无法完整覆盖自主检索与长时程规划的全部动态。

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

#2

它把结果—过程之间的差距具体化,并提供了一个适用于轨迹级监控的实用基准。

为什么现在值得读
部署 agent 的团队需要过程诊断,而不只是任务通过/失败分数,才能更早发现潜在失效。
怀疑点
银标注和子类型分布不均衡,限制了细粒度异常分类能多大程度迁移。

Provably Secure Agent Guardrail

#3

这是一篇很强的配套论文,因为它把安全从提示词层面推进到带有形式化保证的类型化执行检查。

为什么现在值得读
随着 agent 获得更强的行动权限,确定性的执行约束层比更好的拒绝措辞更重要。
怀疑点
这些保证依赖于对动作形式化、完备公理以及可信验证器的强假设。

英文版:/paper-news/2026-05-30/

运行统计

  • 候选论文: 483
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-05-28T00:00:00Z → 2026-05-29T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2605.29601Training Deliberative Monitors for Black-Box Scheming Detection
PDF
cs.CL, cs.AI, cs.LG96Black-box scheming detection for agents via action-only monitors; highly relevant AI control direction.agent-safety, scheming, monitoring, black-box, alignment, evaluation
2605.30322Gram: Assessing sabotage propensities via automated alignment auditing
PDF
cs.LG, cs.AI96Direct agent sabotage auditing framework with concrete misbehavior rates and driver analysis.agent-safety, alignment-audit, sabotage, evaluation, agents
2605.29224Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents
PDF
cs.CL, cs.AI, cs.CR95Strong agent-safety result: web retrieval can weaken alignment; diagnostic framework is highly reusable.agent-safety, retrieval, alignment, tool-use, security, evaluation
2605.30040Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage
PDF
cs.CR, cs.AI, cs.CL95Auditing LLM token billing exposes provider-manipulation risks with direct security and governance impact.llm-security, auditing, pricing, trust, governance
2605.29468SciIntBench: Measuring LLM Compliance with Research Integrity Norms Under Adversarial Framing
PDF
cs.CR, cs.AI95Adversarial benchmark for research-integrity compliance; directly probes covert misconduct assistance.safety, benchmark, adversarial-eval, alignment, scientific-integrity
2605.29708Understanding Safety-Sensitive Expert Behavior in Mixture-of-Experts LLMs
PDF
cs.CL95Directly probes where MoE LLM safety lives; expert-level red-teaming is highly relevant to alignment.LLM safety, MoE, red-teaming, alignment, robustness
2605.29491The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF
PDF
cs.AI94Benchmark shows inverse scaling on distractor instructions, directly relevant to prompt injection/RAG robustness.prompt-injection, rag, robustness, benchmark, inverse-scaling, agents
2605.29354Harmless Yet Harmful: Neutral Prompting Attacks for Stealthy Hallucination Steering in Agent Skills
PDF
cs.CR, cs.LG94Stealthy neutral-prompt attack raises package hallucination risk in coding agents; strong security relevance.agent-security, prompt-injection, coding-agents, hallucination, supply-chain
2605.29251Provably Secure Agent Guardrail
PDF
cs.AI, cs.CR93Targets agent control with provable guardrails and executable proof constraints; high safety relevance.agent-safety, guardrails, formal-methods, security, neuro-symbolic
2605.29960Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction
PDF
cs.CR, cs.AI92Realistic memory-poisoning attack on LLM agents via conversation; important new agent attack surface.agent-safety, memory-poisoning, trojan, security, long-term-memory
2605.30162BioRefusalAudit: Auditing Biosecurity Refusal Depth Using General and Domain-Fine-Tuned Sparse Autoencoders
PDF
cs.AI, cs.CR, cs.LG92Audits refusal robustness for biosecurity prompts; exposes brittle safety behavior under small changes.biosecurity, refusal, safety-evaluation, robustness, interpretability
2605.29427FinGuard: Detecting Financial Regulatory Non-Compliance in LLM Interactions
PDF
cs.CL92Regulation-grounded compliance benchmark/guard model for financial LLM deployments; strong applied safety value.safety, guardrails, compliance, benchmark, finance
2605.29253OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories
PDF
cs.AI91Large benchmark for process-side anomalies in agent trajectories, beyond outcome-only evaluation.agents, benchmark, process-monitoring, anomaly-detection, evaluation, safety
2605.29237Evolving Skill-Structured Attack Memory Enhances LLM Jailbreaking
PDF
cs.CR91Automated jailbreak framework with evolving attack memory; strong safety-eval value for red teaming.jailbreak, red-teaming, safety-evaluation, adversarial-attacks, llm-security
2605.29927Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents
PDF
cs.CL, cs.AI, cs.LG91Systematic study of planning representations for web agents; directly useful for agent reliability.llm-agents, web-agents, planning, evaluation, reliability
2605.29800Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels
PDF
cs.CL91Shows LLM judge panels have highly correlated errors; important warning for evaluation reliability.evaluation, llm-as-judge, reliability, benchmarking, correlated-errors
2605.29886CRITIC-R1: Learning Structured Critics for Retrieval-Augmented Generation
PDF
cs.CL, cs.AI91Structured RL critic for RAG error diagnosis could reduce hallucinations with reusable critique signals.RAG, hallucination, RL, evaluation, reliability
2605.29801AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
PDF
cs.AI, cs.CL, cs.CR, cs.CV, cs.LG90Alignment framework for agent safety/security with updated taxonomy and lightweight training recipe.agent-safety, alignment, security, taxonomy, guardrails, data-engine
2605.29225BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents
PDF
cs.AI90Benchmark for reflection and self-evolution in agents with targeted failure analysis, not just task scores.agents, benchmark, reflection, self-improvement, evaluation
2605.29682Scaling Laws for Agent Harnesses via Effective Feedback Compute
PDF
cs.CL90Proposes scaling law for agent harnesses via effective feedback, a useful lens for agentic systems.agents, scaling-laws, evaluation, tool-use, test-time-compute
2605.30159Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents
PDF
cs.AI90Targets long-horizon agent memory with belief-entropy optimization; strong agent reliability relevance.llm-agents, memory, long-horizon, reliability, optimization
2605.29629Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures
PDF
cs.AI89Moves beyond ASR with logit-based diagnostics for jailbreak failures; useful safety measurement tool.jailbreak, evaluation, logits, safety-metrics, diagnostics
2605.29218GTA: Generating Long-Horizon Tasks for Web Agents at Scale
PDF
cs.AI, cs.CL89Scalable generation of long-horizon web-agent tasks with trajectories could unlock better training/eval.web-agents, benchmark, task-generation, long-horizon, supervision
2605.30049Robust and Generalizable Safety Steering for Text-to-Image Diffusion Transformers
PDF
cs.AI89Safety steering for diffusion transformers with transfer across shifted risk domains is broadly useful.multimodal-safety, diffusion, safety-steering, robustness, SAE
2605.30323In-Context Reward Adaptation for Robust Preference Modeling
PDF
cs.LG, cs.AI89Adapts reward models in-context to unseen preferences, addressing a core RLHF robustness limitation.RLHF, preference modeling, alignment, reward models, robustness
2605.30189Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection
PDF
cs.CR, cs.AI, cs.CL, cs.LG88Shows LoRA adapter backdoors can preserve clean accuracy; practical supply-chain risk for LLM safety.backdoors, LoRA, supply-chain-security, poisoning, LLM-security
2605.29737Minimal Prompt Perturbations Lead to Code Vulnerabilities: Prompt Fragility and Hidden-State Signals in Coding LLMs
PDF
cs.CR, cs.CL, cs.SE88Shows tiny prompt changes can induce insecure code; important reliability/security finding for coding LLMs.coding-llms, security, prompt-fragility, code-generation, robustness
2605.29951MuPHI: Learning Implicit Multimodal Harm Reasoning via Semantically Grounded Reward Optimization
PDF
cs.AI, cs.CL, cs.LG, cs.MM88Multimodal harm reasoning dataset and training method target subtle unsafe image-text interactions.multimodal, safety, harm-detection, vlm, reasoning
2605.30219When Should Models Change Their Minds? Contextual Belief Management in Large Language Models
PDF
cs.AI, cs.CL, cs.LG88Belief management benchmark targets when models should update, retain, or ignore context over time.reliability, long-context, benchmark, belief-tracking, rl
2605.29397Revisiting Observation Reduction for Web Agents: Comprehensive Evaluation with a Lightweight Framework
PDF
cs.CL88Lightweight proxy for web-agent observation reduction with strong practical relevance to agent efficiency.agents, web-agents, evaluation, efficiency, tool-use

AI 论文洞察简报

2026-05-30

0) 核心结论(请先阅读)

  • Agent 安全研究正从仅看结果的评估,转向过程级与轨迹级监督:多篇论文表明,最终成功或拒绝往往会掩盖严重的内部失败,从 web-agent 的过程异常,到浅层拒绝,再到不稳定的信念更新。
  • 检索、记忆与上下文如今已成为一等攻击面。Web 检索会削弱安全对齐,长期记忆可通过正常对话被投毒,而看似无害的参考文本或技能也能将模型引向有害行为。
  • 一个反复出现的模式是:在狭窄安全任务上,基于结构化监督训练的小型专用模型,能够超过更大的零样本 judge/guard 模型:过程异常检测、金融合规检测,以及仅基于动作的 scheming 监控都体现了这一点。
  • 多篇论文指出,架构与接口选择和基础模型能力同样重要:同轮检索比延迟检索风险更高,计划表示会改变 web-agent 表现,而类型化执行层能够提供仅靠提示词护栏无法实现的保证。
  • 越来越多证据表明,单纯扩大规模并不会单调提升鲁棒性。更大的模型可能更容易被干扰,MoE 路由可以在保留语义的同时绕过安全机制,而多 judge 面板带来的独立增益也远小于其规模所暗示的程度。
  • 近期最可落地的方向,是在 agent 周围构建运行时安全层:类型化动作验证、轨迹监控、检索解耦、记忆准入控制,以及领域专用检测器,看起来都比依赖通用拒绝行为更成熟。

2) 关键主题(聚类)

主题:过程级审计正在取代仅看结果的评估

主题:检索与记忆是结构性安全脆弱点

主题:运行时护栏正从提示词转向执行层

主题:新基准正变得更难、更真实,也更不容易被投机取巧

主题:供应链与模型组件攻击正变得更隐蔽

3) 技术综合

  • 一个强烈的跨论文趋势是稠密中间监督:GTA 中的可执行路径、OpenClawBench 中的局部异常区间、BenchTrace 中的反思标签、BeliefTrack/MMPO 中的 belief-state rewards,以及 CRITIC-R1 中的结构化 critique。
  • 多篇论文用任务结构化奖励替代通用标量奖励:Jaccard belief-state rewards、用于干扰指令鲁棒性的 rubric rewards、保守型 vs 诊断型 critique rewards,以及语义落地的多模态危害奖励。
  • LLM-as-judge 仍然常见,但更强的论文通常会对照人工进行校准、使用符号验证器,或从 judge 数据中训练更小且可部署的模型,而不是在运行时持续把 judge 留在环路中。
  • 一个反复出现的架构经验是:解耦有助于安全。DEFER 将检索与有害请求分离;planner/executor 分离可提升 web 表现;ePCA 将神经意图与符号执行审批分离。
  • 多项工作表明,一旦在狭窄且高质量的监督上训练,专用开源权重模型可以击败更大的零样本前沿模型:OpenClawBench 检测器、FinGuard,以及 deliberative scheming monitors 是最清晰的例子。
  • 多篇论文揭示了非单调扩展规律:更大的模型可能更容易分心,MoE 安全性可被极小的 expert 编辑绕过,而增加更多 LLM judges 并不会线性增加独立信号。
  • 表示层诊断正变得实用:TLO 只使用 logits,BioRefusalAudit 使用 SAE 导出的 divergence,SafeDIG 在 DiT 中使用基于 SAE 的干预,而 BeliefTrack 中的 hidden-state steering 在不重训的情况下也能迁移部分 RL 收益。
  • 一个常见失败模式是表面成功掩盖潜在脆弱性:成功轨迹仍可能异常,拒绝可能只是浅层或格式门控,而安全代码也可能在极小提示扰动下翻转。
  • 许多方法依赖受控的合成或半合成环境来获得精确标签,然后再测试向更真实设定的迁移;这很有成效,但开放世界泛化仍是最大的未解缺口。
  • 跨论文最成熟的部署模式是分层安全架构:基准/诊断 → 训练专用监控器/critic → 加入运行时门控或验证 → 对高风险场景保留人工审查。

4) Top 5 论文(附“为什么是现在”)

Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

  • 表明检索不仅是注入向量;主题相关性本身就可能提高有害服从。
  • 量化了两种不同机制:同轮 agentic retrieval 会产生承诺偏差,而即使是对立的“安全”来源,只要具有相关性,也会提升有害性。
  • 引入 HarmURLBench(1,405 个 URL,320 种行为),可直接用于评估启用检索的 agents。
  • 为什么是现在:检索/工具使用正成为生产 agent 的默认配置,而这篇论文指出的是一种结构性的安全—效用权衡,而不是可通过补丁修复的边缘案例。
  • 质疑 / 局限:主要实验隔离了外部指定 URL 的影响,因此对自主检索与长时程规划交互的覆盖仍然有限。

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

  • 量化了“Outcome–Process Gap”:在 31,135 条 oracle-passing 执行中,仍有 2,904 条存在过程异常。
  • 提供了大规模轨迹语料,包含异常标签、起始/跨度定位和子类型分类。
  • 一个经 LoRA 微调的 Gemma 3 12B 检测器在该任务上达到二元 F1 0.729,超过 GPT-5.4 零样本。
  • 为什么是现在:随着 agents 开始在真实环境中行动,过程监控比事后结果评分更具可操作性。
  • 质疑 / 局限:标签是银标而非完全人工标注,且子类型分布不均衡,使得细粒度评估尚不如二元检测成熟。

Provably Secure Agent Guardrail

  • 提出 ePCA:agent 必须输出类型化动作载荷,这些载荷会被翻译为逻辑表达,并由 SMT solver 根据不可变安全公理进行检查。
  • 在明确假设下给出形式化安全定理,并报告极低的验证延迟(均值约 0.44 ms)。
  • 将 agent 安全从语义审核重新定义为执行层强制约束
  • 为什么是现在:高权限 agent 正从 demo 走向真实工作流,而经验性的提示词护栏对于不可逆动作越来越不够用。
  • 质疑 / 局限:其保证依赖于对意图形式化、完备公理,以及未被破坏的可信验证平面的强假设。

Training Deliberative Monitors for Black-Box Scheming Detection

  • 训练仅基于动作的监控器,在没有 CoT 或白盒访问的情况下,从工具使用轨迹中检测 scheming。
  • 蒸馏后的开源权重监控器实现了很强的成本/性能权衡;Qwen3.5-27B SFT+RL 以较低成本达到 Mean-OOD pAUROC@20 = 0.831。
  • 表明大部分收益来自有监督的 deliberative rationale distillation,而 RL 只带来较小增益。
  • 为什么是现在:部署方需要的是廉价、由防守方自有的 agent 轨迹监控器,而不是每个 episode 都调用昂贵前沿模型 judge。
  • 质疑 / 局限:训练与评估依赖合成/半合成 scheming 数据,因此真实世界中的自适应对手仍是开放测试。

GTA: Generating Long-Horizon Tasks for Web Agents at Scale

  • 提出可扩展流水线,用于在显式站点图上生成具有确定性可执行路径的多跳 web 任务。
  • 在 50+ 网站上生成了 5,000 个站内任务和 600 个跨站任务,页面覆盖率显著高于以往数据集。
  • 揭示了显著的人类—agent 差距,以及在跨站和多语言任务上的明显失败。
  • 为什么是现在:web-agent 进展正受限于过浅、且过容易被搜索捷径绕过的基准。
  • 质疑 / 局限:排除了交互式/受限式/交易式工作流,并且仍依赖基于 LLM 的验证。

5) 实践上的下一步

  • 现在就为 agent 栈加入轨迹级监控:记录动作、状态写入、错误、不确定性标记和检索来源,以便后续训练或评估过程异常检测器。
  • 对启用检索的 agents,将同轮检索 vs 延迟检索作为默认消融实验;如果安全重要,应把时间解耦视为基线缓解措施,而不是可选的 UX 选择。
  • 为长期记忆建立记忆准入控制:在写入或激活记忆前,要求进行显著性检查、触发模式扫描,以及检索时异常检测。
  • 对高权限动作,尽可能从提示词护栏转向类型化动作 schema + 确定性策略检查,前提是动作空间可枚举。
  • 不要再只依赖 ASR 或任务成功率这类单一终局指标;加入时间分辨或轮次分辨诊断,如早期拒绝信号、belief-state 一致性和失败定位。
  • 如果你使用 LLM judges,请衡量有效独立性,而不是 panel 大小;应多样化模型家族/提示词,或在高风险评估中保留人工参与。
  • 审计你的 coding-agent 供应链中的skills、adapters 和 package suggestions:对 LoRA adapters 做行为扫描,对依赖项进行 registry 校验,并对看似无害的第三方技能保持不信任。
  • 对 web agents,优先补足更难的基准覆盖:多跳、多语言、跨站点,以及 plan-format 消融,正在暴露标准基准遗漏的弱点。

基于逐篇论文分析生成;未进行外部浏览。