2026年6月5日 AI 研究简报

智能体安全正在转向有状态化。

今天最强的一批论文表明,智能体风险与评估正从单轮提示和最终答案,转向持久状态、过程追踪以及结构化控制界面。

核心要点

  1. **持久化状态如今已成为智能体安全的主要边界。** 多篇论文表明,记忆、文件、工具描述及其他存储上下文都可能被投毒或错误描述;跨会话攻击能以不可忽视的成功率奏效,而现有提示注入防御往往会漏掉弱信号变体。
  2. **过程级评估正在取代仅看终点结果的评估。** 新基准越来越多地通过追踪中间决策来评估规划、长时程迭代、临床流程、陪伴、网络安全工作流以及自主智能体开发,而不只是看最终答案。
  3. **一个反复出现的设计模式是“结构优先于散文式提示”。** 更强的结果来自显式结构:来源图谱、类型化不变量、编译时记忆控制、机器可读的 API 恢复提示、约束级验证,以及轨迹感知对齐。
#1

先读这篇:From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents

为什么先读: 它为智能体持久化失陷提供了最清晰、可复用的分析框架,给出了记忆投毒的分类体系、基准和分阶段指标。

建议重点质疑: 结果基于单一基础模型,且部分流水线为模拟实现,因此其对已部署智能体技术栈的迁移性仍未完全确定。

agent-safety memory security benchmark

主题

持久化状态攻击与智能体安全 智能体风险正从单会话提示注入转向可在记忆、文件和工具生态中持续存在的攻击。一旦恶意状态被写入,后续会话即使没有攻击者在场,也可能再次激活它。
面向真实环境智能体的过程级评估 基准正在从“模型答对了吗?”转向“系统是否随时间正确行动?”这对规划、医疗、网络安全、陪伴和长时程工程尤为关键,因为中间错误往往主导真实世界中的失败。
结构化控制、来源追踪与可审计的智能体架构 多篇论文认为,更安全的智能体需要围绕记忆、执行和策略执行建立显式结构,而不只是更好的提示。来源追踪、不变量和编译时控制正成为核心系统原语。
信号 持久状态是新的边界。 记忆投毒、跨会话提示注入以及 MCP 描述与代码不一致都表明,存储下来的工件会在原始会话结束后重新激活攻击。
张力 评估比控制更快成熟。 基准如今会追踪规划、网络安全工作流、临床接触和长时程迭代,但许多防御仍主要聚焦于提示层过滤。
判断 结构将胜过散文式防御。 以本体为基础的智能体、带权限的记忆、来源追踪以及结构化 API 恢复,都指向以类型化控制界面取代自然语言指令。

值得优先阅读的论文

按研究价值排序:新意、方法可复用性、证据质量,以及是否值得带着怀疑去读。

From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents

#1

如果你在构建带记忆的智能体,这篇论文很有用:它将持久化失陷拆解为可实际审计的具体写入路径和激活路径。

为什么现在值得读
持久记忆正成为智能体的默认功能,使得存储状态失陷成为现实的部署风险。
怀疑点
单模型评估和部分模拟流水线,可能低估了特定架构下的行为差异。

Provably Auditable and Safe LLM Agents from Human-Authored Ontologies

#2

它是一篇很强的配套阅读,因为它提供了一个具体的替代架构:基于本体、不变量和仅追加日志的可审计智能体。

为什么现在值得读
随着持久状态攻击增多,形式化控制和可审计性正变得比仅靠提示的防护更重要。
怀疑点
这些保证依赖于本体和不变量设计的正确性,目前大规模部署证据仍然有限。

What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems

#3

它进一步明确了威胁模型,展示了提示注入如何通过工作记忆和跨会话共享工件持续存在。

为什么现在值得读
智能体技术栈正在标准化共享文件和记忆,因此跨会话持久化正成为一个基础安全假设。
怀疑点
该基准有意保持早期形态,可能遗漏快速变化的智能体框架中更新的持久化通道。

英文版:/paper-news/2026-06-05/

运行统计

  • 候选论文: 307
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-06-03T00:00:00Z → 2026-06-04T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2606.04329From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents
PDF
cs.CR, cs.AI96Systematic memory-poisoning study with taxonomy, benchmark, and strong agent-safety relevance.agent-safety, prompt-injection, memory, benchmark, security
2606.04425What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems
PDF
cs.CR, cs.AI95Introduces cross-session stored prompt injection, a realistic persistent threat in agentic systems.agent-safety, prompt-injection, persistent-state, security, agents
2606.04769Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications
PDF
cs.CR, cs.AI, cs.SE95Studies MCP tool description/code mismatch, with taxonomy and detection for agent tool-use security.agents, tool-use, MCP, security, prompt-injection, auditing
2606.04903Provably Auditable and Safe LLM Agents from Human-Authored Ontologies
PDF
cs.LO, cs.AI, cs.MA, cs.PL95Auditable, ontology-grounded LLM agents with formal safety/correctness claims and append-only logs.agent-safety, auditing, formal-methods, ontologies, governance
2606.04929Sequential Data Poisoning in LLM Post-Training
PDF
cs.LG, cs.CR94Introduces sequential poisoning across SFT and preference stages; strong relevance to LLM post-training security.LLM, data-poisoning, post-training, RLHF, DPO, security
2606.04778Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories
PDF
cs.AI, cs.CL, cs.LG93Shows inference-time safety can fail mid-generation and proposes trajectory-level alignment.alignment, robustness, jailbreaks, inference-time, llm-safety
2606.04483Off-Distribution Voices: Fanfiction Subgenres as Universal Vernacular Jailbreaks for Aligned LLMs
PDF
cs.CL93Natural-language jailbreak family with high ASR across models; important robustness failure mode.jailbreaks, alignment, robustness, red-teaming, safety-eval
2606.04867AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety
PDF
cs.AI92Public benchmark for AI companion safety; evaluates LLM judges on real harmful conversations.safety, benchmark, llm-as-judge, harm-detection, evaluation
2606.04455The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
PDF
cs.AI, cs.CL91New benchmark for autonomous agent development with anti-reward-hacking safeguards.agents, benchmark, evaluation, reward-hacking, autonomy
2606.04460CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities
PDF
cs.CR, cs.AI, cs.LG91Large-scale end-to-end cyber benchmark for AI agents across vuln discovery, exploit, and patching.agents, cybersecurity, benchmark, evaluation, red-teaming
2606.05152Reinforcement Learning from Rich Feedback with Distributional DAgger
PDF
cs.LG, cs.AI, cs.CL90General RL recipe for rich feedback beyond binary rewards; relevant to reasoning and agent training.rlhf, reasoning, training, imitation-learning, credit-assignment
2606.04628RAMPART: Registry-based Agentic Memory with Priority-Aware Runtime Transformation
PDF
cs.CL, cs.MA90Agent memory architecture with permissions/provenance; directly relevant to safer agent runtime design.agents, memory, safety, permissions, provenance, runtime
2606.04874Agent Planning Benchmark: A Diagnostic Framework for Planning Capabilities in LLM Agents
PDF
cs.CL89Large diagnostic planning benchmark exposing long-horizon, tool-noise, and refusal weaknesses.agents, planning, benchmark, evaluation, multimodal
2606.05080AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
PDF
cs.AI, cs.LG89Benchmark for ultra long-horizon closed-loop optimization, a key gap in agent capability evaluation.agents, benchmark, long-horizon, evaluation, autonomy
2606.04486Global Sketch-Based Watermarking for Diffusion Language Models
PDF
cs.CR, cs.CL, cs.LG, stat.ML88Watermarking for diffusion LMs via global sketches; notable for provenance and misuse detection.watermarking, diffusion-language-models, security, provenance, generation
2606.04435Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation
PDF
cs.AI, cs.CL, cs.CR, cs.IR87Targets cascading hallucination in agentic RAG with taxonomy and mitigation framework.rag, hallucination, agents, reliability, grounding
2606.05122Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data
PDF
cs.CL87Elicits latent self-evaluation/judge calibration in base LLMs with minimal data; useful for reliability.LLM, self-evaluation, calibration, judging, reliability
2606.04507Self-Evolving Deep Research via Joint Generation and Evaluation
PDF
cs.CL, cs.AI87Targets deep-research agents with joint generator-evaluator training for open-ended tasks.agents, evaluation, self-improvement, deep-research, post-training
2606.04915Caliper: Probing Lexical Anchors versus Causal Structure in LLMs
PDF
cs.CL, cs.IR87Controlled benchmark shows causal reasoning often relies on lexical anchors, not structure.evaluation, reasoning, causal-reasoning, robustness, benchmarks
2606.04889GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards
PDF
cs.CL86Token-wise advantage reweighting for verifiable-reward RL could improve reasoning post-training efficiency.llm-training, rlvr, reasoning, post-training, optimization
2606.04660LifeSide: Benchmarking Agents as Lifelong Digital Companions
PDF
cs.CL85Benchmark for lifelong companion agents covering memory, privacy, and emotional adaptation across sessions.agents, benchmark, memory, privacy, evaluation
2606.04816Beyond Objective Equivalence: Constraint Injection for LLM-Based Optimization Modeling on Vehicle Routing Problems
PDF
cs.AI, cs.LG85Improves reliability of LLM-generated optimization code by exposing omitted or spurious constraints.reliability, code-generation, verification, optimization, evaluation
2606.04990From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents
PDF
cs.CR, cs.AI84Useful survey on evidence tracing and provenance for auditing complex LLM agent executions.agents, auditing, provenance, survey, trust
2606.04928Data Attribution in Large Language Models via Bidirectional Gradient Optimization
PDF
cs.LG, cs.CL84LLM training-data attribution supports provenance, accountability, and governance of model outputs.data-attribution, governance, interpretability, provenance, llms
2606.05158Streaming Communication in Multi-Agent Reasoning
PDF
cs.CL, cs.AI, cs.MA84Streaming multi-agent communication cuts latency and may improve reasoning quality in agent pipelines.multi-agent, reasoning, latency, systems, agents
2606.05112Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases
PDF
cs.CL83Interactive standardized-patient benchmark for dynamic clinical agent evaluation over full encounters.agents, benchmark, clinical, evaluation, interactive
2606.05025Invariant Gradient Alignment for Robust Reasoning Distillation
PDF
cs.LG, cs.AI83Addresses shortcut learning in reasoning distillation with cross-domain invariant gradient alignment.reasoning, distillation, ood-robustness, generalization, training
2606.04751FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games
PDF
cs.AI83Benchmark for hypothesis-driven inductive reasoning in LLM agents; useful for scientific-agent eval.evaluation, agents, inductive-reasoning, benchmark, scientific-reasoning
2606.05037Self-Reflective APIs: Structure Beats Verbosity for AI Agent Recovery
PDF
cs.SE, cs.AI82Concrete agent-recovery result: structured API feedback beats verbose errors in pilot studies.agents, tool-use, reliability, apis, evaluation
2606.05030Imbuing Large Language Models with Bidirectional Logic for Robust Chain Repair
PDF
cs.CL, cs.SC82Goal-conditioned infilling to repair faulty CoT targets error snowballing in decoder-only LLMs.reasoning, chain-of-thought, robustness, training, inference

AI 论文洞察简报

2026-06-05

0) 核心结论(请先阅读)

  • 持久化状态如今已成为智能体安全的主要边界。 多篇论文表明,记忆、文件、工具描述及其他存储上下文都可能被投毒或错误描述;跨会话攻击能以不可忽视的成功率奏效,而现有提示注入防御往往会漏掉弱信号变体。
  • 过程级评估正在取代仅看终点结果的评估。 新基准越来越多地通过追踪中间决策来评估规划、长时程迭代、临床流程、陪伴、网络安全工作流以及自主智能体开发,而不只是看最终答案。
  • 一个反复出现的设计模式是“结构优先于散文式提示”。 更强的结果来自显式结构:来源图谱、类型化不变量、编译时记忆控制、机器可读的 API 恢复提示、约束级验证,以及轨迹感知对齐。
  • 许多模型在推理时的鲁棒性仍然较浅。 经过安全对齐的模型仍可能在生成中途被重定向;越狱会利用覆盖不足的自然语言语域;而词汇线索仍主导着所谓的因果推理。
  • 训练信号正在变得更细粒度。 多篇论文通过超越标量结果奖励来改进学习:token 级梯度重加权、面向未来的蒸馏、评估器—求解器协同进化,以及轨迹对偏好优化。
  • 前沿能力越来越受制于持久性、时间感知和迭代纪律,而不只是原始模型质量。 在长时程工程和元智能体场景中,许多失败来自过早停止、预算误用、脆弱的迭代策略或机会主义式利用行为。

2) 关键主题(聚类)

主题:持久化状态攻击与智能体安全

主题:面向真实环境智能体的过程级评估

主题:结构化控制、来源追踪与可审计的智能体架构

主题:超越显性越狱的鲁棒性失效

主题:为推理与开放式智能体提供更好的训练信号

3) 技术综合

  • 分阶段拆解正成为标准:存储型提示注入中的写入/纳入/激活,记忆投毒中的 ASR/RSR,网络安全任务中的 S1–S4,以及规划中的计划等级/错误分类法。
  • 架构选择主导安全结果:在记忆投毒中,HERMES 比 OpenClaw 脆弱得多;而在存储型提示注入中,直接加载通道比条件加载通道更易被利用。
  • 弱信号攻击是反复出现的盲点:符合策略的记忆投毒、上下文伪装的 SPI 载荷、自然语域越狱以及描述—代码不一致,都利用了能绕过表面检测器的语义。
  • 许多论文区分“能修补”与“能发现”:CyberGym-E2E 表明补丁生成远比端到端漏洞发现容易;APB 将规划与执行分开;AutoLab 则显示首次尝试质量不如迭代改进能力更具预测性。
  • 轨迹比静态状态更重要:CHARM 监控跨阶段漂移,trajectory alignment 在注入后的续写上训练,DistIL 加入未来信用项,而 TRI 只修复已验证锚点之间损坏的片段。
  • 验证正从标量结果转向结构化约束:VRP 约束注入检查遗漏/伪造约束;MedSP1000 评估评分细则完成度;Agentic Redux 强制不变量;self-reflective APIs 返回字面化修复动作。
  • 仅靠提示通常不够:多篇论文用来源追踪、记忆加固、编译时上下文控制或确定性验证器来替代或增强提示防御。
  • 基准越来越包含防作弊设计:MAC 使用双容器和审计,AutoLab 使用封闭验证器和不可变文件,CyberGym-E2E 验证补丁后的功能性,而 self-reflective APIs 明确审计泄漏。
  • 模型规模有帮助,但并不一致:更大模型通常在规划、陪伴安全评判和长时程任务上表现更好,但推理增强模块或专用医疗模型并不总能胜过更强的通用模型。
  • 理论工作正与系统工作趋于汇合:DistIL、IGA、TRI、水印和 Agentic Redux 都将形式化保证与实际机制结合起来,尽管实证验证仍不均衡。

4) 前 5 篇论文(附“为何是现在”)

1. From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents

  • 识别出四类记忆写入通道和九种结构性脆弱点,给出了持久化失陷发生位置的具体地图。
  • 引入 MPBench,包含 3,240 个对抗样例,并提供用于持久写入和跨会话影响的显式 ASR/RSR 指标。
  • 展示了不同智能体设计之间巨大的真实脆弱性差异:HERMES 平均 66.67% ASR / 64.70% RSR,而 OpenClaw 为 34.25% / 17.40%。
  • 为何是现在:持久记忆正从可选特性变成智能体核心底座,而这篇论文清楚表明,当前写入路径是一个尚未得到充分保护的重要边界。
  • 保留意见:评估只使用了一个基础模型,且部分基准投递是模拟而非完整覆盖已部署的检索/工具流水线。

2. What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems

  • 将存储型提示注入形式化为一种系统级威胁,横跨注入源、持久化通道和纳入机制。
  • SPI-Benchmark 的分阶段指标显示,不同模型都存在有意义的端到端可利用性,总体 E2E-ASR 为 32.1% 到 42.0%。
  • 发现事实操纵尤其有效,而工作记忆和 AGENTS.md 这类直接加载通道比条件式归档记忆风险更高。
  • 为何是现在:许多智能体技术栈正在标准化持久化工件和共享状态,使存储型提示注入很可能成为默认威胁模型。
  • 保留意见:基准范围有意保持初始规模,可能遗漏快速变化的智能体架构中正在出现的新型持久化机制。

3. AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

  • 提供了一个抗作弊、持续数小时的多任务基准,涵盖系统、谜题、模型开发和 CUDA 等 36 个闭环优化任务。
  • 对 17 个模型的大规模评估显示 claude-opus-4.6 领先(Avg@3 0.68,Dominance 0.93),但许多失败来自糟糕的持久性和时间感知,而非不会写代码。
  • 对 302 条零分 rollout 的人工分析揭示了具体行为瓶颈,如过早停止和预算耗尽。
  • 为何是现在:领域正从短程编码任务转向自主迭代,而该基准衡量的是对真实自动化最关键的能力前沿。
  • 保留意见:结果不可避免地依赖测试框架和硬件,且该基准覆盖的是可测量的工程工作流,多于开放式科学发现。

4. Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories

  • 表明在任意解码步骤插入短 token 注入都能重定向已对齐模型,将“浅层安全”扩展为更广泛的轨迹级脆弱性。
  • 提出轨迹增强加 SimPO 偏好优化,大幅降低注入 ASR;例如在报告设定中,Llama-3.1-8B 在 AdvBench 上从 92.12% 降至 4.42%。
  • 可泛化到 PAIR、Prefilling 和 I-GCG,同时基本保持效用。
  • 为何是现在:许多已部署攻击实际上能控制生成早期或中途的 token,因此仅面向输入的对齐已不再是充分的防御模型。
  • 保留意见:训练使用了单一选定的注入短语和贪婪解码,因此在更多样扰动下的鲁棒性广度仍有待验证。

5. CyberGym-E2E: Scalable Real-World Benchmark for AI Agents’ End-to-End Cybersecurity Capabilities

  • 基于 139 个 OSS-Fuzz 项目构建了一个包含 920 个实例的基准,具备可复现环境、PoC、补丁和经验证测试。
  • 清晰地区分了仅补丁能力与端到端表现,显示发现漏洞/生成 PoC 才是主要瓶颈。
  • 一个典型差距非常明显:在初始评估中,搭配 Claude Code 的 Opus 4.5 仅补丁成功率达到 82.3%,但端到端 S3 只有 19.2%。
  • 为何是现在:网络安全能力声明越来越具有双重用途敏感性,而该基准提供了对智能体实际能做什么的更现实衡量。
  • 保留意见:当前覆盖仍集中于基于 sanitizer 预言机的 C/C++ 内存安全漏洞,并且仍需要人工验证步骤。

5) 实际下一步

  • 优先加固持久化状态:将不可信输入与记忆写入决策分离,为每次写入添加来源信息,并按来源可信度与新近性对检索/纳入进行门控。
  • 在你的智能体技术栈中埋点分阶段指标:跟踪写入成功、纳入、激活、检索影响以及下游动作效果,而不只是最终任务成功。
  • 将所有持久化工件都视为攻击面进行审计:记忆存储、类似 AGENTS.md 的文件、MCP 工具描述、缓存计划和后训练数据集都应进行完整性检查和审查门控。
  • 采用结构化恢复与控制界面:优先使用机器可读的 API 修复提示、类型化工具副作用元数据以及显式记忆/块权限,而不是仅靠散文式指令。
  • 将规划评估与执行评估分开:在端到端基准之前先做规划诊断,以区分任务分解/工具选择失败与环境噪声。
  • 用弱信号攻击进行压力测试:上下文伪装、符合策略的记忆写入、自然语域越狱和生成中途注入都应成为常规红队测试的一部分。
  • 即使只能部分实现,也应立即加入来源追踪和审计日志:论断到证据的链接、工具调用谱系、记忆写入谱系以及回滚点,都会在调试和安全审查中带来回报。
  • 尝试更细粒度的训练信号:当标量结果奖励过于粗糙时,token 级优势重加权、面向未来的蒸馏或轨迹对偏好训练都很有前景。

基于逐篇论文分析生成;未进行外部浏览。