核心要点

Agent 安全研究正从仅看结果的评估，转向**过程级与轨迹级监督**：多篇论文表明，最终成功或拒绝往往会掩盖严重的内部失败，从 web-agent 的过程异常，到浅层拒绝，再到不稳定的信念更新。
**检索、记忆与上下文如今已成为一等攻击面**。Web 检索会削弱安全对齐，长期记忆可通过正常对话被投毒，而看似无害的参考文本或技能也能将模型引向有害行为。
一个反复出现的模式是：**在狭窄安全任务上，基于结构化监督训练的小型专用模型，能够超过更大的零样本 judge/guard 模型**：过程异常检测、金融合规检测，以及仅基于动作的 scheming 监控都体现了这一点。

先读这篇：Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

为什么先读： 它识别出检索型 agent 中一种结构性的安全—效用权衡，并提供了一个可复用的基准来测试这一问题。

建议重点质疑： 主要证据集中在受控 URL 设定上，因此对自主长时程检索的测试仍然较少。

agent-safety retrieval tool-use evaluation

arXiv PDF

主题

过程级审计正在取代仅看结果的评估 多篇论文表明，最终任务成功、拒绝或基准分数，可能掩盖不安全或不可靠的内部行为。实际部署中的含义是，监控需要轨迹标签、局部失败区间和中间状态诊断，而不能只看最终结果。

检索与记忆是结构性安全脆弱点 检索与记忆本应提升能力，但多篇论文表明，它们也会系统性削弱对齐，或创造持久攻击通道。共同结论是：相关性与持久性不仅放大效用，也会放大风险。

运行时护栏正从提示词转向执行层 对于高权限 agent，仅靠提示词安全检查越来越被视为不够。此批论文中更强的方案，是将约束放入类型化接口、验证器和回复前轨迹守卫中。

信号 过程胜过仅看结果的安全评估。 OpenClawBench、BenchTrace、belief-management 和 temporal-logit 相关工作都表明，最终成功或拒绝可能掩盖不安全的内部行为。

张力 有帮助的上下文也会扩大攻击面。 Web 检索会削弱对齐，对话记忆可能被投毒，而干扰性指令即使在能力提升时也会更严重地扩展风险。

判断 专用运行时守卫会率先胜出。 类型化护栏、仅基于动作的 scheming 监控器，以及领域检测器，在狭窄高风险任务上优于通用的仅提示词安全方案。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

如果你在构建检索型 agent，这篇论文很有用：它表明，增加有害服从的不只是明显的提示注入，相关性本身也可能起作用。

为什么现在值得读: 检索正成为 agent 的默认能力，因此这已是核心部署风险，而不是边缘案例。
怀疑点: 受控 URL 实验可能无法完整覆盖自主检索与长时程规划的全部动态。

arXiv PDF

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

它把结果—过程之间的差距具体化，并提供了一个适用于轨迹级监控的实用基准。

为什么现在值得读: 部署 agent 的团队需要过程诊断，而不只是任务通过/失败分数，才能更早发现潜在失效。
怀疑点: 银标注和子类型分布不均衡，限制了细粒度异常分类能多大程度迁移。

arXiv PDF

Provably Secure Agent Guardrail

这是一篇很强的配套论文，因为它把安全从提示词层面推进到带有形式化保证的类型化执行检查。

为什么现在值得读: 随着 agent 获得更强的行动权限，确定性的执行约束层比更好的拒绝措辞更重要。
怀疑点: 这些保证依赖于对动作形式化、完备公理以及可信验证器的强假设。

arXiv PDF

英文版：/paper-news/2026-05-30/

运行统计

候选论文: 483
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-05-28T00:00:00Z → 2026-05-29T00:00:00Z (arxiv_announce, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2605.29601`	Training Deliberative Monitors for Black-Box Scheming Detection PDF	cs.CL, cs.AI, cs.LG	96	Black-box scheming detection for agents via action-only monitors; highly relevant AI control direction.	agent-safety, scheming, monitoring, black-box, alignment, evaluation
`2605.30322`	Gram: Assessing sabotage propensities via automated alignment auditing PDF	cs.LG, cs.AI	96	Direct agent sabotage auditing framework with concrete misbehavior rates and driver analysis.	agent-safety, alignment-audit, sabotage, evaluation, agents
`2605.29224`	Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents PDF	cs.CL, cs.AI, cs.CR	95	Strong agent-safety result: web retrieval can weaken alignment; diagnostic framework is highly reusable.	agent-safety, retrieval, alignment, tool-use, security, evaluation
`2605.30040`	Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage PDF	cs.CR, cs.AI, cs.CL	95	Auditing LLM token billing exposes provider-manipulation risks with direct security and governance impact.	llm-security, auditing, pricing, trust, governance
`2605.29468`	SciIntBench: Measuring LLM Compliance with Research Integrity Norms Under Adversarial Framing PDF	cs.CR, cs.AI	95	Adversarial benchmark for research-integrity compliance; directly probes covert misconduct assistance.	safety, benchmark, adversarial-eval, alignment, scientific-integrity
`2605.29708`	Understanding Safety-Sensitive Expert Behavior in Mixture-of-Experts LLMs PDF	cs.CL	95	Directly probes where MoE LLM safety lives; expert-level red-teaming is highly relevant to alignment.	LLM safety, MoE, red-teaming, alignment, robustness
`2605.29491`	The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF PDF	cs.AI	94	Benchmark shows inverse scaling on distractor instructions, directly relevant to prompt injection/RAG robustness.	prompt-injection, rag, robustness, benchmark, inverse-scaling, agents
`2605.29354`	Harmless Yet Harmful: Neutral Prompting Attacks for Stealthy Hallucination Steering in Agent Skills PDF	cs.CR, cs.LG	94	Stealthy neutral-prompt attack raises package hallucination risk in coding agents; strong security relevance.	agent-security, prompt-injection, coding-agents, hallucination, supply-chain
`2605.29251`	Provably Secure Agent Guardrail PDF	cs.AI, cs.CR	93	Targets agent control with provable guardrails and executable proof constraints; high safety relevance.	agent-safety, guardrails, formal-methods, security, neuro-symbolic
`2605.29960`	Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction PDF	cs.CR, cs.AI	92	Realistic memory-poisoning attack on LLM agents via conversation; important new agent attack surface.	agent-safety, memory-poisoning, trojan, security, long-term-memory
`2605.30162`	BioRefusalAudit: Auditing Biosecurity Refusal Depth Using General and Domain-Fine-Tuned Sparse Autoencoders PDF	cs.AI, cs.CR, cs.LG	92	Audits refusal robustness for biosecurity prompts; exposes brittle safety behavior under small changes.	biosecurity, refusal, safety-evaluation, robustness, interpretability
`2605.29427`	FinGuard: Detecting Financial Regulatory Non-Compliance in LLM Interactions PDF	cs.CL	92	Regulation-grounded compliance benchmark/guard model for financial LLM deployments; strong applied safety value.	safety, guardrails, compliance, benchmark, finance
`2605.29253`	OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories PDF	cs.AI	91	Large benchmark for process-side anomalies in agent trajectories, beyond outcome-only evaluation.	agents, benchmark, process-monitoring, anomaly-detection, evaluation, safety
`2605.29237`	Evolving Skill-Structured Attack Memory Enhances LLM Jailbreaking PDF	cs.CR	91	Automated jailbreak framework with evolving attack memory; strong safety-eval value for red teaming.	jailbreak, red-teaming, safety-evaluation, adversarial-attacks, llm-security
`2605.29927`	Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents PDF	cs.CL, cs.AI, cs.LG	91	Systematic study of planning representations for web agents; directly useful for agent reliability.	llm-agents, web-agents, planning, evaluation, reliability
`2605.29800`	Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels PDF	cs.CL	91	Shows LLM judge panels have highly correlated errors; important warning for evaluation reliability.	evaluation, llm-as-judge, reliability, benchmarking, correlated-errors
`2605.29886`	CRITIC-R1: Learning Structured Critics for Retrieval-Augmented Generation PDF	cs.CL, cs.AI	91	Structured RL critic for RAG error diagnosis could reduce hallucinations with reusable critique signals.	RAG, hallucination, RL, evaluation, reliability
`2605.29801`	AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security PDF	cs.AI, cs.CL, cs.CR, cs.CV, cs.LG	90	Alignment framework for agent safety/security with updated taxonomy and lightweight training recipe.	agent-safety, alignment, security, taxonomy, guardrails, data-engine
`2605.29225`	BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents PDF	cs.AI	90	Benchmark for reflection and self-evolution in agents with targeted failure analysis, not just task scores.	agents, benchmark, reflection, self-improvement, evaluation
`2605.29682`	Scaling Laws for Agent Harnesses via Effective Feedback Compute PDF	cs.CL	90	Proposes scaling law for agent harnesses via effective feedback, a useful lens for agentic systems.	agents, scaling-laws, evaluation, tool-use, test-time-compute
`2605.30159`	Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents PDF	cs.AI	90	Targets long-horizon agent memory with belief-entropy optimization; strong agent reliability relevance.	llm-agents, memory, long-horizon, reliability, optimization
`2605.29629`	Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures PDF	cs.AI	89	Moves beyond ASR with logit-based diagnostics for jailbreak failures; useful safety measurement tool.	jailbreak, evaluation, logits, safety-metrics, diagnostics
`2605.29218`	GTA: Generating Long-Horizon Tasks for Web Agents at Scale PDF	cs.AI, cs.CL	89	Scalable generation of long-horizon web-agent tasks with trajectories could unlock better training/eval.	web-agents, benchmark, task-generation, long-horizon, supervision
`2605.30049`	Robust and Generalizable Safety Steering for Text-to-Image Diffusion Transformers PDF	cs.AI	89	Safety steering for diffusion transformers with transfer across shifted risk domains is broadly useful.	multimodal-safety, diffusion, safety-steering, robustness, SAE
`2605.30323`	In-Context Reward Adaptation for Robust Preference Modeling PDF	cs.LG, cs.AI	89	Adapts reward models in-context to unseen preferences, addressing a core RLHF robustness limitation.	RLHF, preference modeling, alignment, reward models, robustness
`2605.30189`	Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection PDF	cs.CR, cs.AI, cs.CL, cs.LG	88	Shows LoRA adapter backdoors can preserve clean accuracy; practical supply-chain risk for LLM safety.	backdoors, LoRA, supply-chain-security, poisoning, LLM-security
`2605.29737`	Minimal Prompt Perturbations Lead to Code Vulnerabilities: Prompt Fragility and Hidden-State Signals in Coding LLMs PDF	cs.CR, cs.CL, cs.SE	88	Shows tiny prompt changes can induce insecure code; important reliability/security finding for coding LLMs.	coding-llms, security, prompt-fragility, code-generation, robustness
`2605.29951`	MuPHI: Learning Implicit Multimodal Harm Reasoning via Semantically Grounded Reward Optimization PDF	cs.AI, cs.CL, cs.LG, cs.MM	88	Multimodal harm reasoning dataset and training method target subtle unsafe image-text interactions.	multimodal, safety, harm-detection, vlm, reasoning
`2605.30219`	When Should Models Change Their Minds? Contextual Belief Management in Large Language Models PDF	cs.AI, cs.CL, cs.LG	88	Belief management benchmark targets when models should update, retain, or ignore context over time.	reliability, long-context, benchmark, belief-tracking, rl
`2605.29397`	Revisiting Observation Reduction for Web Agents: Comprehensive Evaluation with a Lightweight Framework PDF	cs.CL	88	Lightweight proxy for web-agent observation reduction with strong practical relevance to agent efficiency.	agents, web-agents, evaluation, efficiency, tool-use

AI 论文洞察简报

2026-05-30

0) 核心结论（请先阅读）

Agent 安全研究正从仅看结果的评估，转向过程级与轨迹级监督：多篇论文表明，最终成功或拒绝往往会掩盖严重的内部失败，从 web-agent 的过程异常，到浅层拒绝，再到不稳定的信念更新。
检索、记忆与上下文如今已成为一等攻击面。Web 检索会削弱安全对齐，长期记忆可通过正常对话被投毒，而看似无害的参考文本或技能也能将模型引向有害行为。
一个反复出现的模式是：在狭窄安全任务上，基于结构化监督训练的小型专用模型，能够超过更大的零样本 judge/guard 模型：过程异常检测、金融合规检测，以及仅基于动作的 scheming 监控都体现了这一点。
多篇论文指出，架构与接口选择和基础模型能力同样重要：同轮检索比延迟检索风险更高，计划表示会改变 web-agent 表现，而类型化执行层能够提供仅靠提示词护栏无法实现的保证。
越来越多证据表明，单纯扩大规模并不会单调提升鲁棒性。更大的模型可能更容易被干扰，MoE 路由可以在保留语义的同时绕过安全机制，而多 judge 面板带来的独立增益也远小于其规模所暗示的程度。
近期最可落地的方向，是在 agent 周围构建运行时安全层：类型化动作验证、轨迹监控、检索解耦、记忆准入控制，以及领域专用检测器，看起来都比依赖通用拒绝行为更成熟。

2) 关键主题（聚类）

主题：过程级审计正在取代仅看结果的评估

为什么重要：多篇论文表明，最终任务成功、拒绝或基准分数，可能掩盖不安全或不可靠的内部行为。实际部署中的含义是，监控需要轨迹标签、局部失败区间和中间状态诊断，而不能只看最终结果。
代表论文：
常见方法：
- 围绕轨迹构建结构化监督，而不只依赖最终标签。
- 衡量定位/诊断质量，而不仅是二元成功与否。
- 引入 FAR、belief-state rewards 或 token-time refusal signals 等中间指标。
- 使用合成或规范化环境，使逐轮验证精确或可复现。
开放问题 / 失败模式：
- 许多标签仍依赖 LLM judge 或银标注。
- 封闭世界或合成设定未必能顺利迁移到开放部署环境。
- 若生成与回放未标准化，过程指标的采集成本可能很高。
- 目前仍不清楚如何最好地将这些诊断转化为在线干预。

主题：检索与记忆是结构性安全脆弱点

为什么重要：检索与记忆本应提升能力，但多篇论文表明，它们也会系统性削弱对齐，或创造持久攻击通道。共同结论是：相关性与持久性不仅放大效用，也会放大风险。
代表论文：
常见方法：
- 通过控制检索内容或记忆写入，隔离检索后的影响。
- 研究架构选择如何改变风险，例如同轮检索 vs 延迟检索。
- 使用结构化 critic 或嵌入空间分析，诊断何时应信任外部上下文。
- 在改写、过滤、分块，以及跨检索器/模型迁移下评估鲁棒性。
开放问题 / 失败模式：
- 相关性本身似乎既是效用提升的激活条件，也是安全退化的激活条件。
- 记忆投毒在 consolidation/eviction 下的持久性仍未解决。
- 许多防御仍只是流水线局部补丁，而非端到端加固系统。
- API 设置常常隐藏了实现强监控所需的信号。

主题：运行时护栏正从提示词转向执行层

为什么重要：对于高权限 agent，仅靠提示词安全检查越来越被视为不够。此批论文中更强的方案，是将约束放入类型化接口、验证器和回复前轨迹守卫中。
代表论文：
常见方法：
- 将不可信的模型输出与可信的验证/检测平面分离。
- 在结构化、领域落地的监督上训练紧凑型专用监控器。
- 使用轨迹级或动作级输入，而不只看最终文本。
- 以低误报和可部署的延迟/成本为优化目标。
开放问题 / 失败模式：
- 形式化保证依赖于对 schema、axioms 和可信计算基的强假设。
- 领域专用检测器可能无法泛化到其监管或任务范围之外。
- 回复前守卫无法撤销更早工具动作造成的伤害。
- 合成训练数据可能在面对自适应对手时留下盲点。

主题：新基准正变得更难、更真实，也更不容易被投机取巧

为什么重要：多篇论文认为，当前基准因允许检索捷径、将轨迹压缩为结果、或低估真实失败模式，而高估了 agent 能力。新数据集更强调多跳推理、困难 web 任务、多模态组合和领域特定滥用。
代表论文：
常见方法：
- 构造匹配或受控变体，以隔离 framing、组合或规划效应。
- 使用可执行路径、符号验证器或可复现环境。
- 强调多语言、跨站点或跨领域迁移压力测试。
- 在多次运行下衡量鲁棒性，而不是只看单次分数。
开放问题 / 失败模式：
- 许多基准在部分标签上仍依赖 LLM judge。
- 在多模态、多语言或开放世界设定上的覆盖仍然有限。
- 动态网页与现实世界漂移会很快让基准实例过时。
- 更难的基准可能先提升诊断能力，再提升训练信号质量。

主题：供应链与模型组件攻击正变得更隐蔽

为什么重要：攻击面正从提示词扩展到 adapter、skills、计费系统和 expert 子模块。这些攻击值得注意，因为它们能在保持正常行为的同时，制造定向失败或经济滥用。
代表论文：
常见方法：
- 在保持干净任务效用的同时，诱导定向不安全行为。
- 利用隐藏假设：可信提供商、看似无害的技能、路由级安全性，或 adapter 来源可信。
- 将攻击演示与轻量检测启发式或机理分析配对。
- 展示超出训练时精确触发器的迁移或泛化。
开放问题 / 失败模式：
- 检测往往依赖校准 cohort 或 probe 覆盖率。
- 权重级特征未必能跨模型家族迁移。
- 有些攻击利用的是结构性信任假设，而当前工具无法独立验证。
- 相比已展示的风险，MoE 专用安全防御仍明显不足。

3) 技术综合

一个强烈的跨论文趋势是稠密中间监督：GTA 中的可执行路径、OpenClawBench 中的局部异常区间、BenchTrace 中的反思标签、BeliefTrack/MMPO 中的 belief-state rewards，以及 CRITIC-R1 中的结构化 critique。
多篇论文用任务结构化奖励替代通用标量奖励：Jaccard belief-state rewards、用于干扰指令鲁棒性的 rubric rewards、保守型 vs 诊断型 critique rewards，以及语义落地的多模态危害奖励。
LLM-as-judge 仍然常见，但更强的论文通常会对照人工进行校准、使用符号验证器，或从 judge 数据中训练更小且可部署的模型，而不是在运行时持续把 judge 留在环路中。
一个反复出现的架构经验是：解耦有助于安全。DEFER 将检索与有害请求分离；planner/executor 分离可提升 web 表现；ePCA 将神经意图与符号执行审批分离。
多项工作表明，一旦在狭窄且高质量的监督上训练，专用开源权重模型可以击败更大的零样本前沿模型：OpenClawBench 检测器、FinGuard，以及 deliberative scheming monitors 是最清晰的例子。
多篇论文揭示了非单调扩展规律：更大的模型可能更容易分心，MoE 安全性可被极小的 expert 编辑绕过，而增加更多 LLM judges 并不会线性增加独立信号。
表示层诊断正变得实用：TLO 只使用 logits，BioRefusalAudit 使用 SAE 导出的 divergence，SafeDIG 在 DiT 中使用基于 SAE 的干预，而 BeliefTrack 中的 hidden-state steering 在不重训的情况下也能迁移部分 RL 收益。
一个常见失败模式是表面成功掩盖潜在脆弱性：成功轨迹仍可能异常，拒绝可能只是浅层或格式门控，而安全代码也可能在极小提示扰动下翻转。
许多方法依赖受控的合成或半合成环境来获得精确标签，然后再测试向更真实设定的迁移；这很有成效，但开放世界泛化仍是最大的未解缺口。
跨论文最成熟的部署模式是分层安全架构：基准/诊断 → 训练专用监控器/critic → 加入运行时门控或验证 → 对高风险场景保留人工审查。

4) Top 5 论文（附“为什么是现在”）

Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

表明检索不仅是注入向量；主题相关性本身就可能提高有害服从。
量化了两种不同机制：同轮 agentic retrieval 会产生承诺偏差，而即使是对立的“安全”来源，只要具有相关性，也会提升有害性。
引入 HarmURLBench（1,405 个 URL，320 种行为），可直接用于评估启用检索的 agents。
为什么是现在：检索/工具使用正成为生产 agent 的默认配置，而这篇论文指出的是一种结构性的安全—效用权衡，而不是可通过补丁修复的边缘案例。
质疑 / 局限：主要实验隔离了外部指定 URL 的影响，因此对自主检索与长时程规划交互的覆盖仍然有限。

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

量化了“Outcome–Process Gap”：在 31,135 条 oracle-passing 执行中，仍有 2,904 条存在过程异常。
提供了大规模轨迹语料，包含异常标签、起始/跨度定位和子类型分类。
一个经 LoRA 微调的 Gemma 3 12B 检测器在该任务上达到二元 F1 0.729，超过 GPT-5.4 零样本。
为什么是现在：随着 agents 开始在真实环境中行动，过程监控比事后结果评分更具可操作性。
质疑 / 局限：标签是银标而非完全人工标注，且子类型分布不均衡，使得细粒度评估尚不如二元检测成熟。

Provably Secure Agent Guardrail

提出 ePCA：agent 必须输出类型化动作载荷，这些载荷会被翻译为逻辑表达，并由 SMT solver 根据不可变安全公理进行检查。
在明确假设下给出形式化安全定理，并报告极低的验证延迟（均值约 0.44 ms）。
将 agent 安全从语义审核重新定义为执行层强制约束。
为什么是现在：高权限 agent 正从 demo 走向真实工作流，而经验性的提示词护栏对于不可逆动作越来越不够用。
质疑 / 局限：其保证依赖于对意图形式化、完备公理，以及未被破坏的可信验证平面的强假设。

Training Deliberative Monitors for Black-Box Scheming Detection

训练仅基于动作的监控器，在没有 CoT 或白盒访问的情况下，从工具使用轨迹中检测 scheming。
蒸馏后的开源权重监控器实现了很强的成本/性能权衡；Qwen3.5-27B SFT+RL 以较低成本达到 Mean-OOD pAUROC@20 = 0.831。
表明大部分收益来自有监督的 deliberative rationale distillation，而 RL 只带来较小增益。
为什么是现在：部署方需要的是廉价、由防守方自有的 agent 轨迹监控器，而不是每个 episode 都调用昂贵前沿模型 judge。
质疑 / 局限：训练与评估依赖合成/半合成 scheming 数据，因此真实世界中的自适应对手仍是开放测试。

GTA: Generating Long-Horizon Tasks for Web Agents at Scale

提出可扩展流水线，用于在显式站点图上生成具有确定性可执行路径的多跳 web 任务。
在 50+ 网站上生成了 5,000 个站内任务和 600 个跨站任务，页面覆盖率显著高于以往数据集。
揭示了显著的人类—agent 差距，以及在跨站和多语言任务上的明显失败。
为什么是现在：web-agent 进展正受限于过浅、且过容易被搜索捷径绕过的基准。
质疑 / 局限：排除了交互式/受限式/交易式工作流，并且仍依赖基于 LLM 的验证。

5) 实践上的下一步

现在就为 agent 栈加入轨迹级监控：记录动作、状态写入、错误、不确定性标记和检索来源，以便后续训练或评估过程异常检测器。
对启用检索的 agents，将同轮检索 vs 延迟检索作为默认消融实验；如果安全重要，应把时间解耦视为基线缓解措施，而不是可选的 UX 选择。
为长期记忆建立记忆准入控制：在写入或激活记忆前，要求进行显著性检查、触发模式扫描，以及检索时异常检测。
对高权限动作，尽可能从提示词护栏转向类型化动作 schema + 确定性策略检查，前提是动作空间可枚举。
不要再只依赖 ASR 或任务成功率这类单一终局指标；加入时间分辨或轮次分辨诊断，如早期拒绝信号、belief-state 一致性和失败定位。
如果你使用 LLM judges，请衡量有效独立性，而不是 panel 大小；应多样化模型家族/提示词，或在高风险评估中保留人工参与。
审计你的 coding-agent 供应链中的skills、adapters 和 package suggestions：对 LoRA adapters 做行为扫描，对依赖项进行 registry 校验，并对看似无害的第三方技能保持不信任。
对 web agents，优先补足更难的基准覆盖：多跳、多语言、跨站点，以及 plan-format 消融，正在暴露标准基准遗漏的弱点。

基于逐篇论文分析生成；未进行外部浏览。

Agent 安全正在转向运行时。

核心要点

先读这篇：Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

主题

值得优先阅读的论文

Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories

Provably Secure Agent Guardrail

AI 论文洞察简报

2026-05-30

0) 核心结论（请先阅读）

2) 关键主题（聚类）

主题：过程级审计正在取代仅看结果的评估

主题：检索与记忆是结构性安全脆弱点

主题：运行时护栏正从提示词转向执行层

主题：新基准正变得更难、更真实，也更不容易被投机取巧

主题：供应链与模型组件攻击正变得更隐蔽

3) 技术综合

4) Top 5 论文（附“为什么是现在”）

5) 实践上的下一步