核心要点

Agent 评估正从单一汇总分数转向**可预测部署表现、感知轨迹的测量方式**。多篇论文指出，静态排行榜、单轮越狱测试和粗粒度通过率，无法捕捉生产环境中真正重要的失效模式。
一个反复出现的系统模式是**围绕模型构建结构化控制**：类型化账本、策略门控、执行代理、分层恢复、选择性验证以及工具程序运行时，都能在不改变基础权重的情况下提升可靠性。
**安全失效往往是架构层面的，而不只是模型能力失效**：过度授权的工具选择、评估器偏差传染、多轮操作员团队越狱，以及裁判漂移，都源于编排与反馈回路。

先读这篇：Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

为什么先读： 它挑战了我们给 Agent 排名的默认方式，并提出了一个与部署更相关的视角，可能会重塑评估实践。

建议重点质疑： 预测有效性框架很有说服力，但在真实部署中的大规模验证仍然有限。

agents evaluation deployment OOD

arXiv PDF

主题

评估正从静态分数转向部署有效性 多篇论文质疑，用一个标量基准分数来评估 Agent 或安全系统是否足够。共同趋势是转向更能预测分布外行为、真实操作危害或与人类判断一致性的评估方式。

可靠性提升正来自 Agent 外围的结构化封装 多篇论文中的一个强烈模式是，当模型被嵌入显式状态、策略或恢复机制中时，可靠性会提升。这些方法很有吸引力，因为它们通常无需重训练，并且针对具体的操作失效模式。

工具使用与编排已成为一等安全表面 多篇论文表明，Agent 风险较少来自原始文本生成，更多来自模型如何选择工具、协调专门模块以及从失败中恢复。这正是爆炸半径、权限和状态损坏出现的地方。

信号 静态 Agent 分数正在失效。 预测有效性研究、多轮红队测试和裁判审计都表明，单一汇总分数会漏掉对部署至关重要的失效。

张力 更安全的 Agent 需要更多脚手架。 账本、执行代理、选择性验证和工具运行时提升了控制力，但也带来了延迟、模式依赖和运维复杂性。

判断 最小权限将成为默认做法。 过度授权的工具选择与证书绑定执行都指向一个方向：更严格的权限边界将成为 Agent 设计的核心模式。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

如果你在评估 Agent，这篇论文很有价值：它认为，相比排行榜名次，更重要的是能否迁移到隐藏场景和分布外设置。

为什么现在值得读: 越来越多团队正根据基准排名部署 Agent，而这些排名未必能预测真实表现。
怀疑点: 所提出的预测有效性评估体系很有前景，但其广泛部署迁移能力的证据仍处于早期。

arXiv PDF

When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

它为一种真实的 Agent 失效模式提供了一个清晰基准：在更安全的选项已足够时，仍选择了不必要地更强大的工具。

为什么现在值得读: 企业 Agent 正在获得工具访问能力，使得不必要的权限直接成为安全与合规风险。
怀疑点: 该基准使用的是模拟的短时域设置，因此真实生产中的行为可能更复杂。

arXiv PDF

Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes

它提供了一种具体的运行时架构，用来约束 Agent 行动，而不是只依赖对模型行为的信任。

为什么现在值得读: Agent 化的基础设施自动化来得比针对云变更的稳健执行控制更快。
怀疑点: 这种方法增加了运维开销，而且仍然依赖正确的 IAM 配置以及对 broker 的普遍强制执行。

arXiv PDF

英文版：/paper-news/2026-06-20/

运行统计

候选论文: 288
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-06-18T00:00:00Z → 2026-06-19T00:00:00Z (arxiv_announce, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2606.20408`	LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems PDF	cs.CR, cs.AI	96	Multi-turn red-teaming benchmark for LLM agents in safety-critical control with objective harm signal.	agent-safety, red-teaming, benchmark, jailbreaks, safety-critical-systems, evaluation
`2606.20023`	When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents PDF	cs.SE, cs.AI, cs.CL	95	Benchmark on over-privileged tool choice in LLM agents; directly targets agent safety failures.	agent-safety, tool-use, least-privilege, benchmark, security, evaluation
`2606.19704`	Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents PDF	cs.AI	95	Strong agent-eval paper on predictive validity; argues leaderboards fail to transfer OOD.	agents, evaluation, benchmarking, deployment, ood, safety-relevance
`2606.20520`	Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes PDF	cs.CR, cs.AI, cs.DC, cs.LG	93	Concrete runtime enforcement boundary for agent actions with certificate-bound authority and scoped execution.	agent-safety, security, access-control, runtime-enforcement, tool-use, infrastructure
`2606.20508`	What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations? PDF	cs.AI, cs.LG	93	Directly studies jailbreak-relevant mixed demos and preference optimization effects on harmful compliance.	llm-safety, jailbreaks, in-context-learning, preference-optimization, alignment
`2606.20002`	Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning PDF	cs.LG, cs.AI, cs.CL	93	RL framework for long-lifecycle agents that learn/update context across tasks; high agent impact.	agents, reinforcement-learning, long-horizon, memory, generalization, llm-training
`2606.20470`	Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems PDF	cs.CR, cs.AI	92	Analyzes prompt-injection defense under adaptive automated attacks; misdirection may beat detect-and-block.	prompt-injection, jailbreaks, agent-safety, adversarial-robustness, defenses, security
`2606.19992`	Beyond Static Endpoints: Tool Programs as an Interface for Flexible Agentic Web Services PDF	cs.SE, cs.AI	91	Flexible tool-program interface with effect typing and sandboxing for safer agentic web services.	agents, tool-use, sandboxing, web-services, systems, safety
`2606.20529`	LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents PDF	cs.AI, cs.CL	91	Structured state for policy-adherent tool agents targets reliability and policy compliance in deployment.	agents, tool-use, policy-compliance, state-tracking, reliability
`2606.20510`	Efficient and Sound Probabilistic Verification for AI Agents PDF	cs.CR, cs.AI	90	Formal probabilistic policy verification for AI agents addresses uncertainty beyond deterministic monitoring.	formal-verification, agent-safety, runtime-monitoring, security-policies, probabilistic-reasoning
`2606.20113`	When Does Streaming Tool Use Help? Characterizing Tool-Intent Stabilization in Streaming Retrieval-Augmented Generation PDF	cs.CL, cs.IR	90	Clarifies when streaming tool use helps in RAG via measurable tool-intent stabilization.	rag, tool-use, latency, evaluation, agents, retrieval
`2606.20068`	Process-Verified Reinforcement Learning for Theorem Proving via Lean PDF	cs.AI	89	Uses Lean as a process oracle for dense verified RL feedback; strong reliability signal for reasoning.	reasoning, RLVR, formal-verification, theorem-proving, process-supervision
`2606.19831`	Leverage Is Not Reach: A Control-Window Law for Single-Neuron Steering in Language Models PDF	cs.CL, cs.LG	89	Mechanistic theory for single-neuron steering of refusal/behavior is highly relevant to alignment control.	interpretability, mechanistic, steering, refusal, alignment
`2606.20493`	Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems PDF	cs.LG, cs.AI, cs.MA	89	Studies evaluator-bias propagation in multi-agent LLM systems with a formal contagion framework.	multi-agent, evaluation, bias, llm-systems, safety, auditing
`2606.20225`	Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families PDF	cs.CL	88	Finds actionable activation direction for emergent misalignment and shows causal mitigation across LMs.	alignment, interpretability, misalignment, activation-steering, mechanistic-analysis, safety
`2606.19787`	ORAgentBench: Can LLM Agents Solve Challenging Operations Research Tasks End to End? PDF	cs.AI	88	Execution-grounded benchmark for end-to-end LLM agents on realistic OR tasks with isolated environments.	agents, benchmark, evaluation, tool-use, execution
`2606.19899`	Measuring Biological Capabilities and Risks of AI Agents PDF	cs.CY, cs.AI	87	Timely framework for interpreting biological capability/risk evaluations of agentic AI scientists.	biosecurity, ai-risk, agents, evaluation, governance, safety
`2606.19744`	Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings PDF	cs.CL, cs.AI, cs.HC	87	Analyzes sequential DPO across safety and other preferences; useful for multi-objective alignment practice.	alignment, dpo, preference-optimization, safety-training, forgetting
`2606.20512`	Probe-and-Refine Tuning of Repository Guidance for Coding Agents PDF	cs.SE, cs.LG	87	Practical method to tune repo guidance for coding agents; likely reusable for agent reliability.	coding-agents, repository-guidance, software-engineering, reliability, agents
`2606.20517`	Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages PDF	cs.AI, cs.PL	86	Contamination-aware multilingual coding benchmark extends LiveCodeBench to 12 languages.	benchmark, code-llms, evaluation, multilingual, contamination
`2606.19887`	FFinRED: An Expert-Guided Benchmark Generation and Evaluation Framework for Financial LLM Red-Teaming PDF	cs.CR, cs.AI	85	Expert-guided finance red-teaming benchmark targets domain-specific harms missed by generic safety evals.	red-teaming, benchmark, financial-llms, domain-safety, compliance, evaluation
`2606.19714`	AURA: Adaptive Uncertainty-aware Refinement for LLM-as-a-Judge Auditing PDF	stat.ML, cs.AI, cs.LG, stat.CO, stat.ME	85	Audits LLM-as-a-judge with uncertainty-aware human verification, improving evaluation reliability.	evaluation, llm-as-a-judge, auditing, uncertainty, human-in-the-loop
`2606.20474`	UltraQuant: 4-bit KV Caching for Context-Heavy Agents PDF	cs.LG, cs.AI, cs.PF	85	4-bit KV caching tailored to context-heavy agents; meaningful efficiency for long-context deployment.	efficiency, kv-cache, long-context, agents, serving, systems
`2606.20553`	From Efficiency to Leakage -- Privacy Backdoor in Federated Language Model Fine-Tuning PDF	cs.CR	84	Shows PEFT federated fine-tuning can hide privacy backdoors that memorize client samples without utility loss.	privacy, federated-learning, backdoors, language-models, security, data-leakage
`2606.19782`	AgentFinVQA: A Deployable Multi-Agent Pipeline for Auditable Financial Chart QA PDF	cs.AI, cs.CL	84	Auditable multi-agent chart QA with trace packets and on-prem deployment; concrete gains in regulated use.	multi-agent, auditability, finance, VQA, deployment, trust
`2606.19808`	Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning PDF	cs.AI, cs.CL	84	Budget-aware selective verification improves reasoning accuracy while cutting tokens; practical serving advance.	reasoning, verification, efficiency, inference-time, serving
`2606.20058`	Autonomous Event-Driven Multi-Agent Orchestration for Enterprise AI at Scale PDF	cs.AI	84	Enterprise-scale multi-agent orchestration study with production-derived scenarios and scaling findings.	multi-agent, orchestration, enterprise-ai, evaluation, scaling
`2606.20254`	Quantization as a Malicious Task: Removing Quantization-Conditioned Backdoors via Task Arithmetic PDF	cs.CR	83	Defends against quantization-conditioned backdoors via task arithmetic; notable model security angle.	security, backdoors, quantization, defense, model-integrity
`2606.20502`	Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software PDF	cs.CR, cs.AI, cs.SE	82	Leakage-aware benchmark probes whether LLM vulnerability detection reflects reasoning or shallow calibration.	security, evaluation, llm-reliability, benchmark, vulnerability-detection, data-contamination
`2606.20487`	Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems PDF	cs.CL	82	Hierarchical recovery for cross-device agents addresses failure handling in realistic multi-device execution.	agents, multi-device, replanning, robustness, computer-use

AI 论文洞察简报

2026-06-20

0) 执行要点（请先阅读）

Agent 评估正从单一汇总分数转向可预测部署表现、感知轨迹的测量方式。多篇论文指出，静态排行榜、单轮越狱测试和粗粒度通过率，无法捕捉生产环境中真正重要的失效模式。
一个反复出现的系统模式是围绕模型构建结构化控制：类型化账本、策略门控、执行代理、分层恢复、选择性验证以及工具程序运行时，都能在不改变基础权重的情况下提升可靠性。
安全失效往往是架构层面的，而不只是模型能力失效：过度授权的工具选择、评估器偏差传染、多轮操作员团队越狱，以及裁判漂移，都源于编排与反馈回路。
测试时计算与 Agent 脚手架呈现出非单调收益。选择性验证可能优于始终验证，但更好的初始预算分配仍可能占优；更多运行时或更复杂规划，只有在针对正确瓶颈时才有帮助。
对齐干预仍然高度依赖训练阶段、模型家族和表征几何。DPO 可以消除良性示范放大效应，模型内部激活方向可能可操作，但跨模型迁移通常较弱或缺乏特异性。
安全研究正越来越聚焦于真实部署表面：量化模型、联邦 PEFT、云变更控制平面、金融领域红队测试，以及相关不确定性下的概率化运行时验证。

2) 关键主题（聚类）

主题：评估正从静态分数转向部署有效性

为什么重要：多篇论文质疑，用一个标量基准分数来评估 Agent 或安全系统是否足够。共同趋势是转向更能预测分布外行为、真实操作危害或与人类判断一致性的评估方式。
代表论文：
常见方法：
- 用多轴或对 OOD 敏感的标准替代汇总分数，例如预测有效性、隐藏测试迁移，或基于环境的危害评估。
- 审计评估器本身，使用选择性人工验证或与专家对齐的评分规则，而不是假设裁判输出就是干净标签。
- 将结果锚定在外部验证器或模拟器上，而不只是依赖 LLM 评判的文本。
- 强调假设文档化：工具访问、动作空间、评分规则和报告约束。
开放问题 / 失效模式：
- 预测有效性方案很有吸引力，但在大规模上仍缺乏充分验证。
- LLM 裁判仍然噪声较大；即便改进了审计流程，也依赖表征质量和有限的人类标签。
- 领域特定基准未必能在不同部署场景间干净迁移。
- 固定回放工作负载提升了可比性，但可能低估最坏情况下自适应攻击者的行为。

主题：可靠性提升正来自 Agent 外围的结构化封装

为什么重要：多篇论文中的一个强烈模式是，当模型被嵌入显式状态、策略或恢复机制中时，可靠性会提升。这些方法很有吸引力，因为它们通常无需重训练，并且针对具体的操作失效模式。
代表论文：
常见方法：
- 通过账本、证书或结构化失败事件，将潜在状态显式化。
- 在高风险边界插入确定性门控，例如写操作、权限提升或云变更。
- 将局部恢复与全局重规划分离，以保留上下文并减少不必要的重置。
- 将验证视为路由/控制问题，而不只是一个推理提示。
开放问题 / 失效模式：
- 这些封装依赖良好的模式、谓词或平台适配器；覆盖缺口会变成安全缺口。
- 增加的控制层可能提高延迟、token 成本或运维复杂度。
- 许多评估仍在模拟或基准环境中进行，而非真实生产流量。
- 一些剩余失效仍然是基础动作遗漏或参数错误，而不是策略违规。

主题：工具使用与编排已成为一等安全表面

为什么重要：多篇论文表明，Agent 风险较少来自原始文本生成，更多来自模型如何选择工具、协调专门模块以及从失败中恢复。这正是爆炸半径、权限和状态损坏出现的地方。
代表论文：
常见方法：
- 构建基准，在其中根据隐藏约束、充分性检查或可执行环境来验证工具选择。
- 不仅衡量任务成功，还衡量权限使用、可行性-质量差距、Agent 调用精度和恢复行为。
- 引入更丰富的接口，例如带效果类型的工具程序或事件驱动任务管理器。
- 使用隐藏验证器和沙箱执行，将“看起来合理的计划”与“实际正确的结果”区分开来。
开放问题 / 失效模式：
- 即使代码能够执行，建模失效仍主导许多端到端任务。
- 注册表规模和发现噪声可能压垮原本有能力的编排策略。
- 模拟工具和有限时域可能低估真实世界复杂性。
- 后训练缓解措施能减少风险行为，但无法彻底消除。

主题：对齐行为高度依赖阶段且具有表征特异性

为什么重要：一组论文在探查，对齐训练究竟改变了什么。新出现的图景是，行为强烈依赖训练顺序、示范混合方式以及模型特定的内部几何。
代表论文：
常见方法：
- 从汇总行为转向成对级别边际、混合上下文响应曲线或激活空间干预。
- 直接比较训练阶段，尤其是 SFT 与 DPO/RL 风格对齐。
- 使用对照测试因果特异性，而不是依赖相关性探针或梯度。
- 区分表面服从、连贯的行为变化，以及真正可操作的不安全输出。
开放问题 / 失效模式：
- 对齐方向的跨模型迁移往往具有因果性，但不具方向特异性。
- 梯度显著性甚至可能反向预测有用控制。
- 小模型和基于 LoRA 的发现未必能推广到更大模型或全量微调系统。
- 行为研究仍未解决内部机制问题。

主题：安全研究正瞄准部署特定攻击面

为什么重要：最具实践相关性的安全论文聚焦于现代系统真正脆弱的地方：量化、联邦 PEFT、金融工作流，以及不确定性下的运行时验证。
代表论文：
常见方法：
- 在部署的原生表示中重构攻击：量化增量、PEFT 适配器、专家分类体系，或概率 Datalog 轨迹。
- 优先采用可在部署前或运行时执行、且无需重训练的轻量防御。
- 针对自适应或领域特定威胁进行验证，而不是泛化的有害性提示。
- 在可能时使用形式化或专家锚定的保证。
开放问题 / 失效模式：
- 一些防御依赖于对量化方案、辅助数据或提供方正确性的假设。
- 形式化验证在长时域上可能变得宽松或昂贵。
- 领域特定红队测试提升了真实性，但可能难以泛化或公开发布。
- 供应链和基础设施攻击仍部分超出以模型为中心的防御范围。

主题：效率研究正变得面向 Agent 工作负载，而不只是面向模型内核

为什么重要：效率论文越来越针对 Agent 工作负载进行优化，这类负载具有长上下文、重复前缀和多步工具循环。最好的工作会将系统收益与真实 Agent 行为联系起来，而不是只看孤立的内核指标。
代表论文：
常见方法：
- 在并发、长共享前缀或多轮工作负载下评估，而不是单轮提示。
- 衡量端到端延迟、缓存驻留、流量或覆盖率提升，而不只是模型 FLOPs。
- 使用轻量结构——指导文件、流式触发器、验证器路由、量化 KV 路径——来提升吞吐或成功率。
- 接受依赖基准的权衡，而不是宣称普适胜利。
开放问题 / 失效模式：
- 效率提升可能伴随基准特定的精度回退。
- 流式/推测式工具使用只有在意图足够早稳定时才有帮助。
- 指导与优化工件可能具有模型特异性，且无法迁移。
- 硬件特定收益未必能在不同服务栈间泛化。

3) 技术综合

隐藏验证器、回放协议和基于模拟器的结果，正取代由 LLM 评判的文本，成为衡量 Agent 安全性与能力的首选方式。
多篇论文收敛到一种双层设计：生成模型提出动作，而确定性或形式约束组件决定这些动作是否、何时以及如何执行。
OOD 鲁棒性正以多种方式被操作化：留出场景、跨子集迁移、对抗扰动、固定回放攻击，以及无时间泄漏的数据切分。
许多强结果来自更好的状态表示，而不只是更好的推理：类型化账本、上下文提示、工具程序和跨 episode 记忆都能改善下游行为。
测试时干预论文持续区分有益修复与有害翻转；这比原始验证后准确率更适合作为可靠性视角。
对齐研究越来越多地使用成对级别或 token-/策略级别的信用分配，而不是粗粒度任务标签，无论是在 DPO 边际分析中，还是在基于 Lean 的过程奖励中。
跨模型泛化在多个方面仍然薄弱：指导迁移、激活方向迁移和基准迁移都表现出强烈的家族依赖。
安全论文正从泛化的越狱框架转向供应链与部署路径攻击：量化触发后门、联邦适配器泄露，以及执行时凭证强制。
多 Agent 系统引入了单 Agent 设置中不存在的新失效通道：评估器传染、发现噪声、角色条件攻击，以及模型间不重叠的脆弱性集合。
效率研究越来越与Agent 工作负载下的服务经济学绑定：实际 token 数、缓存压力、RTT 和客户端流量，比单纯配置预算更重要。

4) 前 5 篇论文（附“为什么是现在”）

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
- 重新定义 Agent 基准测试：关注样本内排名是否能预测样本外部署表现。
- 综合提出一个 12 层测量框架，并强调排行榜脆弱性的具体表现，包括某一赛道上公开→隐藏排名相关性低至 ρ = −0.13。
- 现在很有用，因为许多团队正基于不稳定的汇总排行榜做部署决策。
- 保留意见：预测有效性复合指标是被提出的方案，尚未在大规模上验证。
When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents
- 识别出一种清晰且在操作上重要的失效模式：即使低权限工具已足够，Agent 仍会选择更高权限工具。
- 引入 TOOLPRIVBENCH，并展示较高的 OPUR 率；同时表明，具备权限感知的后训练能在保留通用能力的同时显著降低该问题。
- 现在很有用，因为具备工具能力的 Agent 正进入企业场景，而不必要的权限本身就是直接的安全风险。
- 保留意见：该基准是在模拟环境、短时域和可替代工具条件下评测的，而非真实生产系统。
Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes
- 为防止 Agent 在云/控制平面环境中持有长期变更凭证，提供了一个具体架构。
- 结合准入证书、漂移检查、撤销、nonce 预留和即时最小范围凭证，并给出原型性能测量。
- 现在很有用，因为 Agent 化基础设施自动化的到来速度快于可信执行控制的建设。
- 保留意见：它增加了延迟和运维复杂度，并且仍依赖云提供方 IAM 的正确性以及强制经由 broker 路由。
Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning
- 清晰地将生成后验证重新定义为服务层预算分配问题。
- 结果表明，相比始终验证，选择性验证能减少有害翻转和验证成本；同时也揭示，在测试的成本前沿上，更长的初始求解可能占优。
- 现在很有用，因为许多推理栈正在加入验证器循环，却没有将其与更简单的预算重分配方案进行比较。
- 保留意见：结果绑定于一个求解器家族和公开基准，并且在该设置中，可恢复性与截断高度相关。
From Efficiency to Leakage – Privacy Backdoor in Federated Language Model Fine-Tuning
- 揭示了联邦 PEFT 中一种强隐私攻击：恶意服务器可通过隐蔽的适配器后门，重构客户端微调样本中的很大一部分。
- 该攻击具有分析基础，适用于多个模型家族，并被设计为能在现实的优化器和 batching 设置下存活。
- 现在很有用，因为基于 PEFT 的联邦微调正越来越被视为一种实用的默认隐私保护方案。
- 保留意见：其可扩展性依赖于记忆层大小和辅助数据假设，并且攻击需要控制所提供的适配器。

5) 实际下一步

在 Agent 基准中加入可预测部署表现的评估切片：隐藏验证器、留出场景、对抗性释义，以及排名迁移报告，而不只是平均分。
为 Agent 栈埋点记录有益修复、有害翻转、干预率、实际 token 数和延迟，然后将验证器循环与单纯增加初始求解预算进行比较。
在工具 Agent 中默认执行最小权限原则：跟踪 OPUR/PED 类指标，加入权限感知提示或后训练，并将高风险工具置于显式策略检查之后。
将具备写能力的 Agent 迁移到显式状态 + 动作前策略门控，使用类型化账本或等价的结构化状态存储。
对于云或基础设施变更，在允许自主写操作前，原型化证书绑定执行，配合短期 scoped 凭证、回放保护和漂移检查。
使用针对不确定/高影响比较的定向人工验证来审计 LLM-as-a-Judge 流程，而不是信任固定裁判或一小组干净种子集。
在多 Agent 系统中，通过跟踪委员会分歧、策略熵和对拓扑敏感的反馈回路，监控评估器传染和多样性坍缩。
将安全审查扩展到部署变换，例如量化、PEFT 适配器和联邦更新路径；这些现在是一阶攻击面，而不是实现细节。

基于逐篇论文分析生成；未进行外部浏览。

Agent 安全开始走向可操作化。

核心要点

先读这篇：Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

主题

值得优先阅读的论文

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes

AI 论文洞察简报

2026-06-20

0) 执行要点（请先阅读）

2) 关键主题（聚类）

主题：评估正从静态分数转向部署有效性

主题：可靠性提升正来自 Agent 外围的结构化封装

主题：工具使用与编排已成为一等安全表面

主题：对齐行为高度依赖阶段且具有表征特异性

主题：安全研究正瞄准部署特定攻击面

主题：效率研究正变得面向 Agent 工作负载，而不只是面向模型内核

3) 技术综合

4) 前 5 篇论文（附“为什么是现在”）

5) 实际下一步