核心要点

结构性控制正成为主导性的安全模式：多篇论文指出，仅靠提示词或策略层面的防御是不够的；相反，通过改变接口边界本身可获得更强效果——例如用于工具调用的合约证明、面向文档代理的私有字段隔离、针对代码上下文的 CST 级清洗，以及解耦的搜索网关。
安全研究正从“模型会不会被骗”转向“模型在信任什么隐藏基底”。当前攻击面已扩展到工具合约、技能包、分布式嵌入、模型工件、系统提示词，以及世界模型微调缓冲区。
面向推理的强化学习正走向更细粒度的信用分配与探索控制。多篇论文用 token 级、轮次级、图级或 rubric 条件化信号，替代统一的序列级更新，并持续报告相较于 GRPO/DAPO 风格基线的提升。

先读这篇：TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction

为什么先读： 它同时提供了一个实用基准，以及一个关于为何仅靠提示词的隐私防御会在文档智能体中失效的形式化理由。

建议重点质疑： 其最强防御使用了理想化掩码，因此真实部署中的 OCR 和定位误差可能会削弱效果。

agents privacy benchmark security

arXiv PDF

主题

结构性防御优于仅靠提示词的安全 多篇论文得出同一结论：如果模型能直接观察或输出敏感/携带控制含义的内容，软约束就很脆弱。更稳健的防御方式，是把信任转移到围绕工具、提示词、代码上下文和私有字段的类型化、可审计边界上。

面向智能体的供应链与隐藏状态攻击面 攻击面正在从用户提示词扩展到智能体所消费的工件与状态：技能、合约、模型文件、世界模型缓冲区，以及分布式嵌入。这些部分通常比模型的文本接口监控更少，但危险性同样甚至更高。

面向推理与智能体的细粒度 RL 信用分配 一大类论文认为，序列级奖励对于重推理场景来说过于粗糙。更好的进展来自在 token、轮次、状态或准则层面分配信用，同时仍保持在可验证奖励设定之内。

信号 仅靠提示词的安全看起来已接近失效。 TRAP、CodeSentinel、ContractGuard 和解耦式 grounding 都是通过改变接口而不只是补充更好的指令来提升安全性。

张力 能力提升也会扩大暴露面。 TRAP 表明，智能体需要私有字段才能完成任务，却又会在攻击下泄露这些字段；原生搜索和共享记忆也带来了类似权衡。

判断 信用分配会走向局部化。 GraphPO、STARE、rubric-conditioned self-distillation 和 self-conditioned RL 都在用 token 级、图级或准则级信号替代粗糙的序列级奖励。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction

如果你在构建文档智能体，这篇很有用：它同时衡量效用与隐私，并解释了为什么软性防御会失效。

为什么现在值得读: 企业智能体越来越需要私有上下文，同时也正面临主动提取攻击。
怀疑点: Oracle 式掩码比实际部署更强，因此最佳情形下的防御未必能直接迁移。

arXiv PDF

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating

它是 TRAP 的强力配套论文，因为它表明工具安全依赖于可信合约、来源证明和运行时验证。

为什么现在值得读: 函数调用和 MCP 风格的工具生态扩张速度，已经快于其合约安全假设被审计的速度。
怀疑点: 其保证依赖可信的证明基础设施，而运行时检查无法撤销已经发生的有害外部动作。

arXiv PDF

Code-Augur: Agentic Vulnerability Detection via Specification Inference

它通过把隐含假设转化为可执行不变量并对其进行压力测试，使安全智能体的判断变得可审计。

为什么现在值得读: 安全智能体正走向生产环境，在那里隐藏假设比演示准确率更重要。
怀疑点: 结果仍然依赖 LLM 的推理质量，且未针对对抗性修改过的代码库进行测试。

arXiv PDF

英文版：/paper-news/2026-06-19/

运行统计

候选论文: 241
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-06-17T00:00:00Z → 2026-06-18T00:00:00Z (arxiv_announce, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2606.18673`	Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications PDF	cs.CR	96	Large real-world study finds prompt leakage in 80%+ apps and evaluates practical defenses.	prompt-injection, security, prompt-leakage, real-world-eval, defenses
`2606.18996`	TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction PDF	cs.CR, cs.AI	95	Strong agent privacy benchmark for task utility vs active extraction attacks.	agents, privacy, benchmark, security, evaluation
`2606.18656`	The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs PDF	cs.CL	95	Directly studies alignment failures in LLMs and introduces a benchmark to quantify misfired safety behavior.	alignment, LLM safety, reliability, benchmark, bias
`2606.19168`	Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection PDF	cs.AI, cs.LG	94	Pushes safety into pretraining via safety reflection; directly relevant to alignment foundations.	alignment, pretraining, safety, llm, post-training
`2606.18829`	GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents PDF	cs.LG, cs.CL	93	Timely benchmark for memory access control, deletion, and shared-agent governance.	agents, memory, access-control, privacy, benchmark
`2606.18710`	Image Prompt Reconstruction Attacks on Distributed MLLM Inference Frameworks PDF	cs.CR	93	Targets privacy leakage in distributed multimodal inference via image prompt reconstruction attacks.	security, privacy, MLLM, attack, distributed inference
`2606.19262`	Detecting Hidden ML Training With Zero-Overhead Telemetry PDF	cs.LG	92	Compute governance relevance; robust hidden-training detection with adversarial evaluation.	governance, monitoring, compute, security, evaluation
`2606.19023`	Lifecycle-Aware Dynamic Analysis for Secure ML Model Execution PDF	cs.CR, cs.LG	92	Dynamic analysis for malicious ML models targets novel model-execution attack paths across frameworks.	ml-security, model-supply-chain, dynamic-analysis, malware, deployment-safety
`2606.19235`	CodeSentinel: A Three-Layer Defense Against Indirect Prompt Injection in Code Contexts PDF	cs.CR	91	Concrete defense for indirect prompt injection in code-agent retrieval contexts.	prompt-injection, code-llm, agents, defense, security
`2606.18733`	SWE-Future: Forecast-Conditioned Data Synthesis for Future-Oriented Software Engineering Agents PDF	cs.SE, cs.AI	91	Future-oriented coding-agent benchmark synthesis reduces contamination and improves realistic agent evaluation.	agents, evaluation, coding agents, benchmark, data contamination
`2606.18767`	Output Vector Editing for Memorization Mitigation in Large Language Models PDF	cs.CL	91	Targets LLM memorization/privacy via minimal weight edits; strong safety relevance and concrete multi-model eval.	llm-safety, privacy, memorization, model-editing, security
`2606.19191`	PhantomSkill: Malicious Code Injection in Agent Skill Ecosystems PDF	cs.CR	90	Important supply-chain attack on agent skill ecosystems with stealthy malicious payloads.	agents, supply-chain, security, code, attack
`2606.18936`	SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety PDF	cs.AI, cs.CY	90	Risk-dimension-aware AI4Science safety benchmark with broad coverage and direct safety evaluation value.	benchmark, ai4science, safety, evaluation, risk-assessment
`2606.18619`	Code-Augur: Agentic Vulnerability Detection via Specification Inference PDF	cs.CR, cs.AI, cs.SE	89	Makes agentic vuln detection auditable by surfacing inferred security specs and assumptions.	agents, cybersecurity, auditing, specification-inference, reliability
`2606.19327`	Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation PDF	cs.AI, cs.CL	89	Structured rubric feedback for post-training could improve reasoning reliability beyond scalar rewards.	post-training, reasoning, self-distillation, reward modeling, LLM
`2606.18550`	The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating PDF	cs.CR	88	Sharp analysis of RACG trust assumptions and contract-layer attack surface.	agents, tool-use, prompt-injection, security, formalism
`2606.18954`	GraphPO: Graph-based Policy Optimization for Reasoning Models PDF	cs.CL	88	Graph-based policy optimization for reasoning models offers finer credit assignment and less redundant exploration.	reasoning, RLVR, policy optimization, LLM training, efficiency
`2606.18890`	Skill-Guided Continuation Distillation for GUI Agents PDF	cs.AI	88	Improves GUI agents on off-trajectory states, a key reliability bottleneck for agentic systems.	agents, gui-agents, self-improvement, imitation-learning, reliability
`2606.19057`	Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning PDF	stat.ML, cs.LG, stat.CO, stat.ME	87	Audits LLM-as-judge bias under selective labels; useful evaluation correction idea.	llm-evaluation, bias, auditing, judge-models, reliability
`2606.18947`	Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents PDF	cs.AI, cs.CL, cs.IR, cs.MA	87	Decouples search from reasoning for inspectable grounding in LLM agents; useful for safer agent design.	agents, grounding, rag, search, architecture, inspectability
`2606.19341`	Native Active Perception as Reasoning for Omni-Modal Understanding PDF	cs.CV, cs.CL, cs.SD	87	Agentic active perception for omni-modal understanding is notable frontier agent architecture progress.	agents, multimodal, active perception, video understanding, architecture
`2606.19236`	STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability PDF	cs.LG, cs.AI, cs.CL	87	Addresses entropy collapse in RL post-training for reasoning LLMs with token-level analysis and method.	llm-training, rlhf, reasoning, post-training, optimization
`2606.18697`	Stealthy World Model Manipulation via Data Poisoning PDF	cs.LG, cs.CR, cs.RO	86	Novel poisoning attack on learned world models with downstream planning impact.	poisoning, world-models, rl, security, robustness
`2606.18831`	Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning PDF	cs.CL, cs.AI	86	Data-centric long-context RL recipe for agent-relevant reasoning gains without heavy reward engineering.	long-context, reinforcement-learning, reasoning, agents, training-data
`2606.18686`	ForecastBench-Sim: A Simulated-World Forecasting Benchmark PDF	cs.AI, cs.CL, cs.LG	85	Simulated forecasting benchmark enables scalable, causal, and counterfactual evaluation for general AI systems.	evaluation, forecasting, benchmark, simulation, agents
`2606.18782`	RedactionBench PDF	cs.CL, cs.AI	84	Useful privacy benchmark separating contextual redaction from simple PII extraction.	privacy, redaction, benchmark, llms, evaluation
`2606.18910`	REVES: REvision and VErification--Augmented Training for Test-Time Scaling PDF	cs.LG, cs.CL	84	Revision-and-verification training targets test-time scaling and learning from recoverable reasoning errors.	reasoning, test-time-scaling, verification, post-training, llm
`2606.18844`	Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation PDF	cs.LG	84	Self-distillation with explicit mistake-correcting trajectories could improve reasoning reliability.	llm-training, self-distillation, reasoning, reinforcement-learning, reliability
`2606.18810`	Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards PDF	cs.LG, cs.AI	83	Self-conditioned token credit assignment for RLVR could improve reasoning training without extra teachers.	rlvr, credit-assignment, reasoning, post-training, llm-training
`2606.18774`	RouteJudge: An Open Platform for Reproducible and Preference-Aware LLM Routing PDF	cs.LG	83	Open preference-aware framework for evaluating LLM routers is reusable and deployment-relevant.	evaluation, LLM routing, preferences, cost-aware, framework

AI 论文洞察简报

2026-06-19

0) 执行要点（请先阅读）

结构性控制正成为主导性的安全模式：多篇论文指出，仅靠提示词或策略层面的防御是不够的；相反，通过改变接口边界本身可获得更强效果——例如用于工具调用的合约证明、面向文档代理的私有字段隔离、针对代码上下文的 CST 级清洗，以及解耦的搜索网关。
安全研究正从“模型会不会被骗”转向“模型在信任什么隐藏基底”。当前攻击面已扩展到工具合约、技能包、分布式嵌入、模型工件、系统提示词，以及世界模型微调缓冲区。
面向推理的强化学习正走向更细粒度的信用分配与探索控制。多篇论文用 token 级、轮次级、图级或 rubric 条件化信号，替代统一的序列级更新，并持续报告相较于 GRPO/DAPO 风格基线的提升。
基准测试正变得更贴近部署形态：记忆治理、主动隐私提取、上下文脱敏、AI4Science 风险维度、路由偏好评估，以及模拟因果预测，都在衡量标准准确率基准无法捕捉的失效模式。
一个反复出现的经验规律是：更强的能力往往也会增加暴露面，除非系统架构限制模型能看到或输出的内容。这一点体现在多个现象中：科学专用模型具有更高的 ASR，文档代理需要私有字段才能行动却又会泄露它们，原生搜索提升了时效性却破坏了输出合约。
对前沿智能体构建者而言，实践含义很明确：应减少对单层提示词防御的投入，转而更多投资于类型化接口、来源证明、运行时验证、记忆治理，以及同时衡量效用与抗滥用能力的评估。

2) 关键主题（聚类）

主题：结构性防御优于仅靠提示词的安全

为什么重要：多篇论文得出同一结论：如果模型能直接观察或输出敏感/携带控制含义的内容，软约束就很脆弱。更稳健的防御方式，是把信任转移到围绕工具、提示词、代码上下文和私有字段的类型化、可审计边界上。
代表论文：
共同方法：
- 从指令级防御转向接口级控制：签名来源证明、类型化证明、掩码/哈希间接引用、保持语法的清洗、外部 grounding 网关。
- 通过限制模型可调用、可读取或可输出的内容来落实最小权限原则，而不是寄希望于模型能正确拒绝。
- 在可能情况下进行运行时验证：效果验证、工具层解析、清洗后的重新解析，以及针对边界决策的遥测/日志记录。
开放问题 / 失效模式：
- 大多数保证都依赖可信基础设施这一前提：签名注册表、正确的掩码/OCR、可信网关或本地替代模型。
- 一旦外部动作已经触发，运行时检查通常无法撤销不可逆的副作用。
- 自适应攻击者仍可瞄准控制平面本身：证明机制被攻破、掩码失败、分布式触发器，或预言机引导的提示词泄露。

主题：面向智能体的供应链与隐藏状态攻击面

为什么重要：攻击面正在从用户提示词扩展到智能体所消费的工件与状态：技能、合约、模型文件、世界模型缓冲区，以及分布式嵌入。这些部分通常比模型的文本接口监控更少，但危险性同样甚至更高。
代表论文：
共同方法：
- 将非提示词工件视为一等攻击向量：辅助脚本、序列化模型、微调目标、中间嵌入。
- 在现实攻击者约束下评估：被动黑盒参与者、受限投毒预算、类似市场的技能安装、仅运行时检测。
- 明确衡量隐蔽性，而不仅是攻击成功率：效用保持、低残差偏移、审查者误判、低告警率。
开放问题 / 失效模式：
- 许多防御仍然是不完整的，因为攻击者可以利用“被信任但未验证”的组件，或规避动态分析。
- 检测往往依赖于关于硬件、运行时依赖或嵌入空间规律性的假设。
- 某些攻击对良性效用的保留足够好，以至于能同时躲过人工和自动化审查。

主题：面向推理与智能体的细粒度 RL 信用分配

为什么重要：一大类论文认为，序列级奖励对于重推理场景来说过于粗糙。更好的进展来自在 token、轮次、状态或准则层面分配信用，同时仍保持在可验证奖励设定之内。
代表论文：
共同方法：
- 用结构化信号替代统一的 token 处理：基于 KL 的 token 权重、图状态比较、由 surprisal 控制的重加权、修订状态增强。
- 复用模型自身的 rollout，而不是要求外部过程标签。
- 直接针对部署行为优化：修订成功率、熵稳定性、更短路径，或向测试时搜索的迁移。
开放问题 / 失效模式：
- 大多数方法都会增加超参数和额外计算，即便端到端开销仍属中等。
- 这些方法最适用于可验证任务；向不可验证或偏好主导领域的迁移仍缺乏充分证据。
- 近似状态合并、教师选择或熵目标若调参不当，可能引入偏差或不稳定性。

主题：衡量治理、隐私与真实部署权衡的基准

为什么重要：若干新基准拒绝用单一分数评估能力，而是衡量系统在保持有用性的同时，是否能遵守隐私、访问控制、删除要求或用户偏好多样性。
代表论文：
共同方法：
- 显式评估多目标行为：效用 vs 泄露、效用 vs 遗忘、质量 vs 成本 vs 偏好。
- 使用更丰富的标签或分类体系：风险维度、强制/上下文脱敏、隐藏检查点、以路由为中心的记录。
- 在可能情况下用人工验证，但也构建可扩展的评审流水线以覆盖更广范围。
开放问题 / 失效模式：
- 许多结果仍依赖具体基准或评审器，在某些情况下人工样本量也有限。
- 治理指标可以暴露权衡，但尚未提供清晰的优化配方。
- 某些任务，尤其是上下文隐私和类似重构的行为，仍然天然存在歧义。

主题：面向长时程智能体的数据中心化与自纠正训练

为什么重要：另一类论文较少关注新的奖励函数，而更关注更好的训练数据或纠错轨迹：长上下文混合、微反思式自纠正、偏离轨迹的 GUI 延续，以及预训练阶段的安全反思。
代表论文：
共同方法：
- 从模型自身失败中，或从能激发缺失能力的定向混合中，合成训练信号。
- 保留错误上下文，而不是只展示理想轨迹。
- 强调迁移：长上下文收益迁移到智能体任务，纠错轨迹迁移到首次推理，预训练反思迁移到越狱鲁棒性。
开放问题 / 失效模式：
- 若干方法依赖冷启动脚手架、外部审计器，或反思格式的一致性。
- 合成或构造数据未必能完全匹配真实部署分布。
- 交互密集型流水线可能成本较高，尤其是在 GUI 或长时程环境中。

3) 技术综合

一个强烈的跨论文模式是将信任结构化：ContractGuard、TRAP、CodeSentinel、DSG 和 MOAT 都通过约束或审计模型周围的基底，来减少对模型意图的依赖。
多篇安全论文区分了内容通道攻击与元数据/状态通道攻击。合约篡改、技能资源载荷、被投毒的世界模型目标，以及泄露的系统提示词，都绕过了经典的“不要遵循恶意指令”框架。
多篇 RL 论文独立地从轨迹级标量奖励转向局部化信号：SC-GRPO 使用逐 token 的 KL 加权，STARE 使用 surprisal 条件化 token 权重，GraphPO 使用节点/边优势，REVES 将成功修订状态转化为单轮监督，RCSD 使用 rubric 条件化的 token 级蒸馏。
一个共同关注点是分布失配：Code-Augur 在模糊测试前将假设外显化；TAPO 保留错误前缀；SGCD 只在交接后的延续上训练；REVES 在已访问的修订状态上训练；RCSD 在学生 rollout 上蒸馏。
熵/探索管理正在 RLVR 中变得显式化：STARE 直接针对熵坍塌，GraphPO 通过状态合并减少冗余探索，而 OmniAgent 中的 TAURA 会对高不确定性轮次重新加权。
多篇论文表明，能力与风险会同步扩张，除非重新设计接口：SciRisk-Bench 中科学专用模型提高了 ASR；TRAP 中文档代理需要私有字段才能行动却会泄露它们；提示词泄露在已部署应用中很普遍；原生搜索提升 grounding，但可能违反输出合约。
基准正越来越多地在构造上就是多目标的，而不是事后补充：GateMem 的 MGS 将效用、访问控制和遗忘相乘；RouteJudge 在预算约束下将偏好归因回路由决策；RedactionBench 区分强制性与上下文性隐私语义。
一个反复出现的评估动作是自适应攻击者搜索：ContractGuard 穷举枚举扰动，提示词泄露防御测试自适应攻击，SWAAP 针对检测器和鲁棒训练进行评估，而基于遥测的训练检测则进行了五轮监控者—规避者协同进化。
多种方法依赖冻结或外部辅助模型，而不是端到端重训练：CodeSentinel 中的本地替代模型、PUAUDIT 中的奖励模型编码器、OmniAgent SFT 中的 GPT-4o 理性审计、SRP 中的安全分类器，以及 ContractGuard 中对托管模型的验证。
在系统论文中，可观测性被视为一等原语：DSG 中的遥测、RouteJudge 中以路由为中心的记录、MOAT 中的 syscall/action tracing，以及用于隐藏训练检测的 NVML 计数器。

4) Top 5 论文（附“为什么是现在”）

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating
- 表明如果工具合约被篡改，最小权限工具门控就会失效；真正承重的信任点在前置条件/效果，而不只是风险标签。
- 提出一个三层防御栈——签名来源证明、类型化证明、运行时效果验证——并给出清晰的必要性阶梯。
- 穷尽式自适应评估发现，部分防御栈会失败，但完整防御栈在建模空间内可将最坏情况下攻击诱导的 ISR 降至 0，并包含对六个托管前沿模型的验证。
- 为什么是现在：MCP/函数调用生态正在快速扩张，而这篇论文在工具门控成为默认安全原语之前，就识别出一个现实的供应链失效模式。
- 怀疑性看法：其保证依赖可信的签名证明，而运行时验证无法撤销不可逆副作用。
TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction
- 定义了一个主动场景：智能体必须正确使用私有字段来执行工具，同时抵抗直接提取尝试。
- 实证显示 22 个模型中持续存在效用—隐私权衡；提示词防御只能让模型沿着一条前沿移动，但无法解决问题。
- 还加入了一个形式化不可能性结果：对于基于 softmax 的模型，随着攻击长度增长，软约束防御无法保证零泄露。
- 为什么是现在：文档 grounding 智能体正进入企业工作流，而这篇论文同时给出了一个基准和一个系统层面的理由，说明应停止依赖仅靠提示词的隐私防御。
- 怀疑性看法：最强防御结果使用了理想化的 Oracle 掩码；实际掩码仍受 OCR/定位错误影响。
Code-Augur: Agentic Vulnerability Detection via Specification Inference
- 将智能体隐含的“这看起来是安全的”判断转化为显式、可执行的不变量，再用引导式模糊测试去证伪它们。
- 报告称比智能体基线多发现 34%–370% 的漏洞，并发现 22 个此前未知的漏洞，其中 16 个已修复或确认。
- 产出可持久化工件——已提交的不变量——可在单次审计运行之后继续发挥作用。
- 为什么是现在：安全智能体正从演示走向生产，而信任取决于它们隐藏的假设能否被显化并接受压力测试。
- 怀疑性看法：性能仍依赖 LLM 推理质量，且未在遭对抗性修改的代码库上评估。
GraphPO: Graph-based Policy Optimization for Reasoning Models
- 用合并语义等价状态的 DAG rollout 替代链式/树式 rollout，从而减少冗余探索。
- 加入针对正确性与路径效率的双组优势，提供更密集、方差更低的学习信号。
- 在推理和智能体搜索任务上，相比链式和树式基线都表现出稳定提升。
- 为什么是现在：RLVR 正遭遇由冗余推理轨迹带来的效率瓶颈；GraphPO 提供了一条具体路径，可在无需标注过程奖励的情况下提升 token/样本效率。
- 怀疑性看法：收益依赖近似等价检测，因此合并质量和阈值调节至关重要。
Native Active Perception as Reasoning for Omni-Modal Understanding
- 将长视频理解重构为迭代式主动感知过程，采用 Observation-Thought-Action 与持久文本记忆。
- 在十个基准上取得开源 SOTA，并在 LVBench 上击败一个大得多的被动模型，同时使用的帧数约少 73%。
- 展示了正向的测试时扩展性，以及来自 agentic SFT 和 turn-aware RL 的收益。
- 为什么是现在：长上下文多模态智能体受制于“什么都看”的成本瓶颈；这篇论文提出了一种原生智能体设计，使计算量随推理轮次而非原始时长扩展。
- 怀疑性看法：顺序交互会增加延迟，且 RL 精炼仅限于 300 秒以下的查询。

5) 实际下一步

在工具、记忆和私有字段周围加入类型化接口边界：签名注册表、权限类型、面向模型的占位符/哈希键，以及在可行时加入运行时效果检查。
用联合效用—滥用指标评估智能体，而不是只看单独准确率：任务成功率加上泄露、访问控制违规、遗忘失败，或输出合约合规性。
对代码智能体，在检索到的代码上下文上插入API 前清洗层，并将注释/字符串/标识符视为不可信输入，而非惰性文本。
对使用工具的智能体，审计模型周边的供应链：技能包、辅助脚本、模型工件、合约注册表，以及微调缓冲区。
在 RLVR 流水线中，在扩展计算之前先测试局部化信用分配变体：token KL 加权、面向熵目标的重加权、图 rollout，或修订状态增强。
将自适应攻击者评估作为标准实践：扰动元数据、优化提示词泄露、在鲁棒训练下测试投毒，并进行留一策略外鲁棒性检查。
对记忆型智能体，在部署前于多主体场景中显式基准测试治理能力；高召回率本身不是安全信号。
将可观测性内建到生产栈中：遥测、路由记录、缓存/提供商日志、syscall/action tracing，以及评审器分歧切片，以捕捉仅靠模型输出无法发现的失效。

基于逐篇论文分析生成；未进行外部浏览。

智能体安全正转向结构层。

核心要点

先读这篇：TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction

主题

值得优先阅读的论文

TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction

The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating

Code-Augur: Agentic Vulnerability Detection via Specification Inference

AI 论文洞察简报

2026-06-19

0) 执行要点（请先阅读）

2) 关键主题（聚类）

主题：结构性防御优于仅靠提示词的安全

主题：面向智能体的供应链与隐藏状态攻击面

主题：面向推理与智能体的细粒度 RL 信用分配

主题：衡量治理、隐私与真实部署权衡的基准

主题：面向长时程智能体的数据中心化与自纠正训练

3) 技术综合

4) Top 5 论文（附“为什么是现在”）

5) 实际下一步