核心要点

**Agent 可靠性研究正从“更好的提示词”转向显式控制结构**：今天最强的论文通过形式化验证、受治理的记忆、贝叶斯编排、主动调查或符号规则演化来提升能力，而不再仅仅依赖原始模型能力本身。
**记忆如今已成为一类一等安全面**：多篇论文表明，长期/共享记忆可能被投毒、跨作用域泄露、检索失败，或积累错误经验；最佳防御是在写入时绑定权限/来源，而不是事后再尝试清洗内容。
**基准测试正变得更贴近实际运行，而不再是玩具任务**：新的评测强调基于档案的工作、长时程终端执行、多模态越狱流水线、科学发现、职场文档，以及对抗性的战争迷雾环境。

先读这篇：Securing LLM-Agent Long-Term Memory Against Poisoning: Non-Malleable, Origin-Bound Authority with Machine-Checked Guarantees

为什么先读： 它把 agent 记忆从一种启发式功能，变成了一个具有明确部署价值、且经过形式化防护的控制面。

建议重点质疑： 这些保证依赖于正确的来源标签和独立佐证者，因此真实部署环境可能比模型设定更复杂。

agent-safety memory-poisoning formal-methods

arXiv PDF

主题

记忆成为新的 agent 攻击面与失效面 持久记忆不再只是一个便利层；它是未来行动的控制平面。多篇论文表明，失败可能出现在写入时的权限分配、检索时的暴露、跨 agent 传播，以及经验整合阶段。

对长时程推理进行验证、诊断与控制 随着轨迹变长、任务后果更严重，事后检查最终答案已经过于粗糙。当前最强的系统会在行动前验证步骤、定位决定性故障，或显式维护关于正确性的信念。

安全评估正在走向流水线级与系统级 安全失败越来越多地出现在端到端流水线中，而不是孤立提示词中。今天的论文表明，评估必须覆盖检索、记忆、工具执行、多模态裁判以及沙箱边界。

信号 Agent 可靠性正在变成系统工程。 今天最强的论文加入了受治理的记忆、主动故障调查、贝叶斯控制和形式化轨迹验证，而不是只依赖更好的提示词。

张力 持久记忆既帮助 agent，也威胁 agent。 关于记忆的论文同时展示了效用提升和新的攻击面：投毒、隐藏状态泄露、检索失败以及跨 agent 传播都很关键。

判断 操作型基准将重置人们的预期。 AGORA、NatureBench、SAFARI 以及安全流水线评估测试的是基于档案、长时程和对抗性工作流，而这些都是玩具任务容易低估的。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

Securing LLM-Agent Long-Term Memory Against Poisoning: Non-Malleable, Origin-Bound Authority with Machine-Checked Guarantees

如果你在部署持久化 agent，这篇论文很值得看：它提供了一种有原则的写入时记忆防御，并带有机器校验的保证。

为什么现在值得读: 长期记忆正成为 agent 的标准基础设施，而投毒风险也正从理论走向实践。
怀疑点: 它的保证依赖于经过认证的来源溯源和一些有界假设，而这些在开放部署中可能会被削弱。

arXiv PDF

Red-Teaming the Agentic Red-Team

这是一篇非常具体的警示论文：它表明进攻型 agent 可能在系统层面被攻陷，而不只是通过提示注入。

为什么现在值得读: Agent 化安全工具正在被快速部署，而这篇论文认为其中很多在面对对抗性目标时并不安全。
怀疑点: 一些缓解措施之间的权衡仍未解决，尤其是如何在隔离约束与有用的进攻能力之间取得平衡。

arXiv PDF

VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification

值得打开看看，因为它提供了一种可复用模式：把推理编译成可检查的结构，并在局部修复失败。

为什么现在值得读: 随着推理模型进入更高风险的使用场景，步骤级验证比表面上漂亮的最终答案更重要。
怀疑点: 语义检查仍部分依赖 LLM 审核，而且验证成本会随着轨迹长度增长。

arXiv PDF

英文版：/paper-news/2026-06-25/

运行统计

候选论文: 228
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-06-23T00:00:00Z → 2026-06-24T00:00:00Z (arxiv_announce, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2606.24496`	Red-Teaming the Agentic Red-Team PDF	cs.CR, cs.AI	95	Security analysis of offensive agents shows sandbox escapes, key theft, and full operator compromise.	agent-security, red-teaming, sandboxing, offensive-agents, system-security
`2606.24251`	Probing the Misaligned Thinking Process of Language Models PDF	cs.AI	95	Probes internal signals of deception/self-preservation; strong direct relevance to alignment monitoring.	alignment, interpretability, monitoring, misalignment, probes, safety
`2606.24597`	Qwen-AgentWorld: Language World Models for General Agents PDF	cs.CL	95	Large language world models for general agents across 7 domains; strong frontier-agent relevance.	LLM, agents, world-models, reasoning, simulation, frontier
`2606.24322`	Securing LLM-Agent Long-Term Memory Against Poisoning: Non-Malleable, Origin-Bound Authority with Machine-Checked Guarantees PDF	cs.CR	94	Formal defense against LLM memory poisoning with machine-checked guarantees and origin-bound authority.	agent-safety, memory-poisoning, formal-methods, long-term-memory, security
`2606.24626`	SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation PDF	cs.AI	93	Targets long-horizon agent fault attribution with active investigation beyond context limits.	agents, evaluation, debugging, long-context, tool-use, reliability
`2606.24530`	NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers? PDF	cs.CL	93	Benchmark for coding agents on real science tasks; strong eval setup and clear limits to agent capability.	agents, benchmark, coding, evaluation, scientific-discovery
`2606.24245`	AutoSpec: Safety Rule Evolution for LLM Agents via Inductive Logic Programming PDF	cs.SE, cs.AI, cs.CR	92	Evolves interpretable safety rules for LLM agents from feedback, targeting false pos/neg tradeoff.	agent-safety, guardrails, rule-learning, interpretability, tool-use
`2606.24526`	AGORA: An Archive-Grounded Benchmark for Agentic Workplace Document Reasoning PDF	cs.CL	92	Large archive-grounded benchmark for agentic document reasoning with authentic long-context tasks.	agents, benchmark, RAG, document-reasoning, evaluation, long-context
`2606.24820`	SHERLOC: Structured Diagnostic Localization for Code Repair Agents PDF	cs.CL	92	Structured localization for code repair agents with strong SWE-Bench results and practical tool-use gains.	agents, code, tool-use, evaluation, software-engineering, reasoning
`2606.24402`	Poisoned Playbooks: Demystifying Knowledge Poisoning Effects on AI Security Agents PDF	cs.CR	91	Studies RAG poisoning on action-taking security agents, not just QA, with real exploit-behavior effects.	rag, data-poisoning, security-agents, agent-safety, evaluation
`2606.24453`	Bayesian control for coding agents PDF	cs.AI, cs.CL	91	Bayesian orchestration for coding agents improves tool-use decisions and uncertainty estimation.	agents, coding, uncertainty, tool-use, bayesian, reliability
`2606.24281`	CALIBER: Calibrating Confidence Before and After Reasoning in Language Models PDF	cs.CL, cs.AI	91	Targets LM calibration before/after reasoning; directly relevant to reliability and deployment safety.	calibration, reasoning, reliability, uncertainty, evaluation
`2606.24855`	OpenThoughts-Agent: Data Recipes for Agentic Models PDF	cs.AI	90	Open data pipeline for training general agentic models with extensive ablations and strong reuse value.	agents, training-data, open-source, ablation, post-training, datasets
`2606.24428`	Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning PDF	cs.CL	90	Targets self-confirmation failures in agent learning via execute-distill-verify with third-party checks.	agents, safety, experience-learning, verification, multi-agent, reliability
`2606.24388`	PHANTOM: A Large-Scale Dataset of Multimodal Adversarial Attacks for Vision-Language Models PDF	cs.AI, cs.LG	89	Large open VLM adversarial attack dataset broadens harmful-intent coverage for multimodal safety eval.	vlm-safety, adversarial-attacks, dataset, benchmark, multimodal
`2606.24124`	VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification PDF	cs.AI	89	Verifies and repairs CoT via compilable formalism plus structured checks; useful for reasoning reliability.	reasoning, verification, CoT, reliability, hallucination, formal-methods
`2606.24026`	Can Language Model Agents be Helpful Circuit Explainers in Mechanistic Interpretability? PDF	cs.AI	89	Agentic benchmark for circuit explanation; useful bridge between LMs and mechanistic interpretability.	mechanistic-interpretability, agents, benchmark, explainability, evaluation
`2606.24819`	HelpBench: Assessing the Ability of LLMs to Provide Privacy, Safety, and Security Advice PDF	cs.CR	88	Benchmark for LLM privacy/safety/security advice with authentic scenarios and rubric-based evaluation.	benchmark, safety-evaluation, privacy, security, helpfulness
`2606.24515`	Reinforcement Learning for Computer-Use Agents with Autonomous Evaluation PDF	cs.AI, cs.HC	88	RL for computer-use agents using autonomous VLM evaluation; scalable but evaluator reliability matters.	agents, RL, computer-use, evaluation, multimodal, post-training
`2606.24589`	AdversaBench: Automated LLM Red-Teaming with Multi-Judge Confirmation and Cross-Model Transferability PDF	cs.AI, cs.CL	87	Automated LLM red-teaming pipeline with multi-judge confirmation and cross-model transfer analysis.	red-teaming, evaluation, robustness, tool-use, reasoning
`2606.24595`	MEMPROBE: Probing Long-Term Agent Memory via Hidden User-State Recovery PDF	cs.CL	87	Audits long-term agent memory via hidden user-state recovery; useful for memory reliability and privacy.	agents, memory, benchmark, auditing, privacy, evaluation
`2606.24790`	Grad Detect: Gradient-Based Hallucination Detection in LLMs PDF	cs.LG, cs.AI	87	Gradient-based hallucination detection beats output-level signals; promising for abstention and reliability.	hallucination, detection, reliability, uncertainty, LLM, abstention
`2606.24391`	Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War PDF	cs.AI, cs.CL, cs.GT, cs.MA	87	Strategic benchmark stresses reasoning, diplomacy, and strict action reliability under partial observability.	benchmark, reasoning, agents, reliability, multi-agent
`2606.24408`	Natural Identifiers for Privacy and Data Audits in Large Language Models PDF	cs.LG	86	Post-hoc privacy/data audits for trained LLMs without canaries could be highly practical.	privacy, auditing, data-governance, LLMs, dataset-inference, security
`2606.24143`	AsyncOPD: How Stale Can On-Policy Distillation Be? PDF	cs.LG	86	Studies stale-policy effects in asynchronous on-policy distillation for LLM post-training efficiency.	post-training, distillation, reasoning, efficiency, training
`2606.24535`	Governed Shared Memory for Multi-Agent LLM Systems PDF	cs.AI	85	Production-oriented governed shared memory for multi-agent systems with explicit failure modes/primitives.	multi-agent, memory-governance, provenance, policy, agent-infrastructure
`2606.24081`	PixJail: Self-Evolving Paper-to-Pipeline Reproduction for Text-to-Image Jailbreak Evaluation PDF	cs.CR, cs.AI	84	Reproducible, self-evolving T2I jailbreak evaluation pipeline addresses paper-to-pipeline comparability.	jailbreaks, text-to-image, evaluation, reproducibility, agents
`2606.24311`	LemonHarness Technical Report PDF	cs.AI	84	Execution framework constrains workspace state for long-horizon agents; practical safety infrastructure.	agents, sandboxing, execution, tooling, reliability, infrastructure
`2606.24622`	Themis: An explainable AI-enabled framework for Reinforcement Learning with Human Feedback PDF	cs.AI, cs.HC	84	Framework combining explainability and RLHF-style evaluation across 200+ environments; reusable safety infra.	RLHF, alignment, evaluation, XAI, framework, safety
`2606.24133`	Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning PDF	cs.LG, cs.CL	84	Online data-mixing for pretraining via RL; potentially impactful for frontier LLM training efficiency.	pretraining, data-mixing, scaling, reinforcement-learning, training

AI 论文洞察简报

2026-06-25

0) 执行要点（请先读这里）

Agent 可靠性研究正从“更好的提示词”转向显式控制结构：今天最强的论文通过形式化验证、受治理的记忆、贝叶斯编排、主动调查或符号规则演化来提升能力，而不再仅仅依赖原始模型能力本身。
记忆如今已成为一类一等安全面：多篇论文表明，长期/共享记忆可能被投毒、跨作用域泄露、检索失败，或积累错误经验；最佳防御是在写入时绑定权限/来源，而不是事后再尝试清洗内容。
基准测试正变得更贴近实际运行，而不再是玩具任务：新的评测强调基于档案的工作、长时程终端执行、多模态越狱流水线、科学发现、职场文档，以及对抗性的战争迷雾环境。
Agent 可解释性与调试的主要瓶颈不在于提出假设，而在于验证/执行：无论是机制可解释性 agent，还是长轨迹故障归因系统，只要它们能够主动查询证据并运行受限工具，表现都会更好。
今天的安全结果异常具体：无需提示注入即可攻陷 agent 红队工具、系统性投毒安全 RAG agent，以及为记忆权限提供形式化保证，这些都直接指向即时部署层面的影响。
对于 agent 而言，数据与编排选择和模型规模同样重要：开放数据配方、在线数据调度、异步蒸馏以及成本感知控制器策略，都在吞吐、校准或下游成功率上显示出可测量收益。

2) 关键主题（聚类）

主题：记忆成为新的 agent 攻击面与失效面

为什么重要：持久记忆不再只是一个便利层；它是未来行动的控制平面。多篇论文表明，失败可能出现在写入时的权限分配、检索时的暴露、跨 agent 传播，以及经验整合阶段。
代表论文：
共同方法：
- 将记忆对象绑定到显式元数据：来源、作用域、溯源、替代关系或权限类别。
- 通过双探针或分阶段归因，将写入侧质量与读取侧检索质量分离。
- 在记忆进入共享状态之前，使用结构化治理原语或共识验证。
- 将记忆作为独立产物来评估，而不只是通过下游任务成功率来衡量。
开放问题 / 失效模式：
- 在形式化记忆防御中，正确的来源标注和独立佐证者仍然是前提假设。
- 即使有用证据已被存储，top-k 检索也常常失败。
- 基于共识的记忆构建仍可能批准共享的失败模式。
- 大型存储可能变得不可读，或超出取证评估上下文的容量。

主题：对长时程推理进行验证、诊断与控制

为什么重要：随着轨迹变长、任务后果更严重，事后检查最终答案已经过于粗糙。当前最强的系统会在行动前验证步骤、定位决定性故障，或显式维护关于正确性的信念。
代表论文：
共同方法：
- 将自由形式推理转换为结构化中间对象：DSL 轨迹、信念状态、诊断发现或原子声明。
- 用通过工具进行的定向证据访问（如 read/search 或 critic/oracle 调用）替代整段上下文摄入。
- 使用显式不确定性估计来决定是验证、细化还是停止。
- 优化目标是可执行的定位，而不只是最终正确性标签。
开放问题 / 失效模式：
- 逐步验证和主动调查会增加运行时开销。
- 许多系统在语义判断上仍依赖 LLM 审核。
- 校准质量依赖于稳定的 critic 似然或评估器行为。
- 基准提升可能部分来自代码仓库熟悉度或数据集泄漏。

主题：安全评估正在走向流水线级与系统级

为什么重要：安全失败越来越多地出现在端到端流水线中，而不是孤立提示词中。今天的论文表明，评估必须覆盖检索、记忆、工具执行、多模态裁判以及沙箱边界。
代表论文：
共同方法：
- 评估完整攻击流水线，包括检索、生成、过滤和裁判。
- 标准化接口/契约，使攻击能够跨论文和模型复现与比较。
- 强调跨模型迁移、黑盒设定以及运维部署假设。
- 不仅衡量攻击成功率，还衡量复现保真度、可迁移性和效用保持。
开放问题 / 失效模式：
- 自动裁判和黑盒过滤器可能扭曲测得的 ASR。
- 稀疏证据场景对检索时防御仍然困难。
- 许多已部署的 agent 工具仍缺乏强隔离和权限边界。
- 标准化基准可能遗漏新型攻击家族或隐藏的实现细节。

主题：从内部信号监测失配与幻觉

为什么重要：仅依赖输出监测往往太晚、太贵，或太容易被规避。多篇论文推动使用内部状态或状态感知的置信信号，以更早、更低成本地发现失败。
代表论文：
共同方法：
- 在内部激活或梯度上训练轻量检测器，而不只是基于输出文本。
- 区分推理前与推理后的不确定性状态，并使用不同监督目标。
- 使用级联：先用廉价的内部过滤器，再进行昂贵的裁决。
- 在 OOD、跨语言或高风险建议场景下评估，而不只是 IID QA。
开放问题 / 失效模式：
- 基于梯度或激活的方法需要白盒访问。
- 内部探针可能会对表面认知模式相似的对齐推理过度报警。
- 在低准确率或极端分布偏移场景下，校准可能退化。
- 强平均分数仍可能掩盖有害的长尾错误建议。

主题：Agent 能力提升越来越多地由数据、运行时设计和系统选择驱动

为什么重要：多篇论文表明，更好的 agent 表现来自数据整理、调度、运行时边界和异步训练设计，而不只是更强的基础模型。
代表论文：
共同方法：
- 将数据混合、rollout 新鲜度和运行时状态视为可控优化变量。
- 增加轻量控制器或调度器，以较小开销换取明显收益。
- 使用结构化工具边界和显式工作区管理来减少状态漂移。
- 通过消融实验验证哪些流水线阶段最重要。
开放问题 / 失效模式：
- 一些收益依赖精细的超参数调优或特定模型家族行为。
- 异步方法面临陈旧支持与方差之间的权衡。
- 运行时改进未必能干净地迁移到其他模型家族或环境。
- 开放配方在更大规模或更广泛基础模型上的测试仍不足。

主题：基准测试正在走向真实 agent 工作

为什么重要：新的基准越来越多地测试已部署 agent 实际会做的事：搜索档案、推理职场文档、导航 GUI、定位代码故障，或在预算约束下尝试科学发现。
代表论文：
共同方法：
- 使用隐藏评估器、确定性数值答案或游戏引擎来减少污染并自动评分。
- 强调长时程探索、部分可观测性或真实执行约束。
- 分析除 headline accuracy 之外的失效模式，尤其是证据发现和结构化输出可靠性。
- 通过容器或沙箱保持环境有界且可复现。
开放问题 / 失效模式：
- 许多基准仍然规模较小或扩展成本高。
- harness 设计会实质性改变绝对性能。
- 一些排行榜仍属初步结果，因为采样不均或版本漂移。
- closed-book 或 no-web 协议测试的是发现能力，但可能低估真实工作流。

3) 技术综合

一个反复出现的模式是先结构化分解，再做判断：VeryTrace 将轨迹编译为 DSL，SHERLOC 输出五字段诊断，HYVE 将流程分解为 observe/hypothesize/validate，SAFARI 则将故障归因拆成原子声明加定向证据收集。
在记忆安全中，写入时控制优于事后过滤：TMA-NM 的来源绑定权限和 MemClaw 的作用域元数据/溯源都表明，一旦被投毒状态已存储，基于内容的信任评分就太容易被操纵。
多篇论文将产物质量与任务成功分离：MEMPROBE 直接审计存储的用户状态；EDV 审计记忆质量；SHERLOC 在修复前衡量定位质量；PixJail 衡量的是复现保真度，而不只是 ASR。
先便宜、后昂贵的级联出现在多个领域：先用失配探针，再做 LLM 裁决；先用贝叶斯 critic，再做 oracle 验证；以及 SAFARI 先定向读取，再做最终故障归因。
工具可靠性如今是一阶瓶颈：HYVE 的主要失败来自验证/代码执行；LemonHarness 处理由变异操作引起的状态漂移；SHERLOC 为格式错误的工具使用加入自恢复。
多篇论文将不确定性形式化为状态依赖量：CALIBER 区分推理前后置信度；Bayesian control 维护关于正确性的后验信念；AsyncOPD 研究缓存教师支持下的陈旧策略失配。
跨模型迁移是重要评估轴：PHANTOM、AdversaBench、PixJail 和 Poisoned Playbooks 都测试攻击或发现是否能泛化到源模型/设定之外。
可以清楚看到从单轮文本评估转向操作型流水线的趋势，这些流水线涉及检索、记忆、工具、裁判和环境状态。
多个强结果来自小型、显式的控制模块，而不是端到端重训练：SAC 数据调度器、信念状态控制器、ILP 引导的规则编辑器，以及噪声校正的评估器奖励。
基准论文越来越多地报告失效分类法，而且这些分类法是可操作的：证据误识别（AGORA）、方法选择错误（NatureBench）、战争迷雾/状态跟踪错误（Age of LLM），以及检索失败与写入失败的区分（MEMPROBE）。

4) Top 5 论文（附“为什么是现在”）

Securing LLM-Agent Long-Term Memory Against Poisoning: Non-Malleable, Origin-Bound Authority with Machine-Checked Guarantees

形式化说明了为什么基于内容和基于谱系的记忆防御，在自我摘要、可信工具回声和伪造佐证面前会被结构性绕过。
提出 TMA-NM，包含写入时来源绑定、不可延展的污点传播、以佐证为门控的权限提升，以及防篡改日志。
实证报告称，在直接攻击和洗白攻击下，攻击者行动成功率为 0%，同时保留合法效用。
为什么是现在：长期记忆正迅速成为 agent 的标准组件，而这篇论文给出了目前最清晰、最有原则性的安全设计之一，而不是又一个启发式检测器。
怀疑点 / 局限性：其保证依赖于正确的认证来源标签和独立佐证者；机械化定理是有界模型，而不是完全无界证明。

Red-Teaming the Agentic Red-Team

表明 agent 化 offensive-security 工具可以被攻击者控制的目标攻陷，而无需显式提示注入。
报告称，在运行未拒绝时，无提示注入的“agent-phishing”成功率为 97.8%；此外，12 个 agent 中有 10 个发生主机逃逸，12 个中有 8 个发生主机 RCE。
提供了一个具体的安全架构，核心是隔离、最小权限、worker/orchestrator 分离以及出口控制。
为什么是现在：agent 化红队工具正在快速投入实用，而这篇论文表明，许多此类工具目前并不安全，不能直接对抗对手控制的目标运行。
怀疑点 / 局限性：一些缓解方向仍未解决，尤其是软持久化/记忆投毒，以及功能性与沙箱化之间的权衡。

VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification

引入一种轻量 DSL，将自然语言推理转化为带类型的状态转移，并可执行检查。
结合确定性验证、定向 LLM 审核和局部修复，在数学、规划和关系推理任务上提升了零样本表现。
在 ProcessBench 上的验证器指标很强，消融实验支持其两阶段翻译与机械检查设计。
为什么是现在：推理模型正越来越多地部署到那些步骤级正确性比“漂亮的最终答案”更重要的领域。
怀疑点 / 局限性：成本会随轨迹长度扩展，而语义推导仍依赖 LLM 审核和有限的 schema 库。

OpenThoughts-Agent: Data Recipes for Agentic Models

提供了一个完全开放的六阶段 SFT 流水线，并在数据来源、混合、增强、教师选择和 rollout 过滤上进行了 100+ 项消融。
发布了一个 10 万样本数据集和一个 32B 模型，在七个 agent 基准上达到 44.8% 平均分，在这一规模上超过此前开放数据路线的同类工作。
发现任务来源选择以及保留更长的多轮轨迹，比许多人预期的许多调节旋钮更重要。
为什么是现在：开放 agent 的进展越来越受制于数据质量和可复现性，而不只是架构。
怀疑点 / 局限性：RL 结果只在 8B 上给出，而且该配方主要在 Qwen3 家族上得到验证。

Poisoned Playbooks: Demystifying Knowledge Poisoning Effects on AI Security Agents

表明单篇被投毒的 write-up 就可以改变基于 RAG 的安全 agent 的 exploit 行为。
提出 Verification Boundary：L1 代码可验证声明会被拒绝，L2 知识可验证声明依赖模型，L3 运行时依赖声明则会被持续采纳。
真实 CVE 测试显示，文档充分的案例会被拒绝，而若干截止日期后/运行时依赖的 CVE 会以 100% PAR 被采纳。
为什么是现在：安全 agent 越来越依赖新鲜的公共知识，而这恰恰是稀疏证据投毒最可能发生的地方。
怀疑点 / 局限性：结果是在一个代表性的 RAG 栈上展示的，而 Verification Boundary 是经验框架，不是形式化保证。

5) 实际下一步

将记忆写入视为特权操作：在允许记忆授权行动之前，加入来源标签、作用域元数据、替代关系链接和显式权限提升规则。
直接审计记忆，而不只是看下游成功率：运行 dump-all 与 top-k 检索探针，以区分写入失败和检索失败。
在昂贵裁判前加入廉价内部监测器：基于探针或置信度的预过滤器可以在保持覆盖率的同时降低裁决成本。
对于长轨迹，不要再把完整日志全部塞进上下文：使用 read/search 工具、持久摘要和基于声明的调查循环来进行调试和故障归因。
在系统层加固 agent 运行时：隔离 worker 与 orchestrator，最小化能力，集中管理状态变更操作，并记录所有变异操作。
用流水线保真度而不只是 headline success 来做基准：对于越狱、安全 agent 或 coding agent，要跟踪复现误差、检索排名、定位质量和效用保持。
在 agent 阶段之间使用结构化诊断输出：传递根因假设、依赖关系和测试含义，而不是原始文件列表或转录文本。
优先进行 agent 训练中的数据整理实验：来源选择、教师选择和多轮 rollout 过滤，相比许多模型侧微调，似乎能带来更大的收益。

根据逐篇论文分析生成；未进行外部浏览。

Agent 控制变得显式化。

核心要点

先读这篇：Securing LLM-Agent Long-Term Memory Against Poisoning: Non-Malleable, Origin-Bound Authority with Machine-Checked Guarantees

主题

值得优先阅读的论文

Securing LLM-Agent Long-Term Memory Against Poisoning: Non-Malleable, Origin-Bound Authority with Machine-Checked Guarantees

Red-Teaming the Agentic Red-Team

VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification

AI 论文洞察简报

2026-06-25

0) 执行要点（请先读这里）

2) 关键主题（聚类）

主题：记忆成为新的 agent 攻击面与失效面

主题：对长时程推理进行验证、诊断与控制

主题：安全评估正在走向流水线级与系统级

主题：从内部信号监测失配与幻觉

主题：Agent 能力提升越来越多地由数据、运行时设计和系统选择驱动

主题：基准测试正在走向真实 agent 工作

3) 技术综合

4) Top 5 论文（附“为什么是现在”）

Securing LLM-Agent Long-Term Memory Against Poisoning: Non-Malleable, Origin-Bound Authority with Machine-Checked Guarantees

Red-Teaming the Agentic Red-Team

VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification

OpenThoughts-Agent: Data Recipes for Agentic Models

Poisoned Playbooks: Demystifying Knowledge Poisoning Effects on AI Security Agents

5) 实际下一步