核心要点

Agent 评估正在重新围绕**执行真实感**展开：多篇论文表明，当你改变 scaffold、harness、环境波动性、检索流水线或异步工具延迟时，基准分数会发生显著变化，而不只是由基础模型本身决定。
安全论文中反复出现的一个模式是：**接口层就是攻击面**。FedRAG 中的路由配置、GUI agent 中的用户生成内容、代码仓库上下文构建，以及协同感知中的信任信号，都会在核心模型开始推理之前就变成可利用点。
多篇有力论文主张，相比事后审核，**执行前或生成前控制**更有效：如 tokenization 前的仓库过滤、推理前的提示解缠、受治理的工具路由、代码执行前的 typed-hole 编译，以及联邦检索中的信任感知重路由。

先读这篇：A Unified Framework for the Evaluation of LLM Agentic Capabilities

为什么先读： 这是今天最清晰、最可复用的结果：在统一脚手架下，agent 排名会发生变化，从而改变了我们应如何解读能力声明。

建议重点质疑： 它标准化了一种脚手架，因此揭示了混杂因素，但并未消除脚手架特定偏差。

agent eval benchmarking sandbox reproducibility

arXiv PDF

主题

Agent 评估正从模型分数转向系统真实感 多篇论文表明，agent 性能在很大程度上受 scaffold、harness、环境波动和工具时序影响。这意味着当前许多排行榜比较，部分测量的是工程选择，而非模型的内在能力。

预处理与路由层正在成为主要安全边界 当下相当一部分实际攻击在模型主推理循环之前就已成功——通过被投毒的路由、被注入的上下文或格式异常的工具暴露。相比单纯输出审核，更早作用于流水线的防御通常更便宜，也更稳健。

神经符号与编译器式控制正在成为可信 agent 的重要方向 在正确性可以被外部检查的场景中，论文越来越多地用求解器检查、可执行规格或静态类型来替代“相信模型”。这是让 agent 输出可审计的最清晰高信号方向之一。

信号 Agent 分数取决于 harness。 Unified evaluation、Harness-Bench、AsyncTool 和 LiveBrowseComp 都表明，脚手架、延迟和环境选择会显著改变测得的 agent 表现。

张力 安全失效始于推理之前。 MIRAGE、federated RAG hijacking、realistic RAG injection 和 governed toolchain 等论文都指出，路由、上下文和工具暴露是主要控制点。

判断 执行前约束将胜出。 LACUNA、Tool Forge、Verus-SpecGym 和 neuro-symbolic verification 都更偏向类型化接口、验证和可执行检查，而不是只依赖事后审核。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

A Unified Framework for the Evaluation of LLM Agentic Capabilities

如果你在评估 agent，这篇很有用：它表明当执行条件被标准化后，基准结论可能会反转。

为什么现在值得读: 关于 agent 进展的声明正在加速出现，而这篇论文质疑当前比较是否真正隔离了模型能力。
怀疑点: 单一的通用脚手架提升了可比性，但仍可能编码其自身偏差。

arXiv PDF

LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

它是 lead paper 的强力补充，因为它检验了表面上的搜索能力是否真的由证据驱动。

为什么现在值得读: 搜索 agent 被广泛宣传，而这篇论文直接检验工具使用反映的是发现还是回忆。
怀疑点: 结果依赖单一搜索后端和一个经过策展的基准，扩展成本可能较高。

arXiv PDF

LACUNA: Safe Agents as Recursive Program Holes

值得一读，因为它提出了一个具体的编程模型，能够同时处理提示注入、工具误用和运行时控制。

为什么现在值得读: Agent 安全正从提示技巧转向更强的接口与执行保证。
怀疑点: 这种方法可能增加工程开销，并依赖开发者采纳其类型化抽象。

arXiv PDF

英文版：/paper-news/2026-05-31/

运行统计

候选论文: 8033
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-05-29T00:00:00Z → 2026-05-30T00:00:00Z (weekend_backlog_unknown, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2605.28116`	MIRAGE: Context-Aware Prompt Injection against Mobile GUI Agents via User-Generated Content PDF	cs.CR, cs.AI, cs.CL	96	Prompt injection attack on mobile GUI agents via user content; highly relevant agent security.	agent-security, prompt-injection, VLM-agents, mobile-agents, adversarial-attacks
`2605.26574`	GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning PDF	cs.CR	95	LLM fine-tuning backdoor defense with concrete signal and broad PEFT/full-tuning applicability.	llm-security, backdoor-defense, fine-tuning, data-poisoning, gradients
`2605.28617`	LACUNA: Safe Agents as Recursive Program Holes PDF	cs.AI, cs.PL	95	Typed agent programming model explicitly targets prompt injection, tool misuse, and safe runtime control.	agent-safety, prompt-injection, tool-use, programming-languages, runtime-safety
`2605.28000`	Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution PDF	cs.SE, cs.AI	94	Governed agent toolchain with sandboxing, validation, and policy controls; highly relevant to agent safety.	agents, tool-use, sandboxing, governance, validation, enterprise
`2605.27898`	A Unified Framework for the Evaluation of LLM Agentic Capabilities PDF	cs.AI	94	Unified, sandboxed framework for fair LLM agent benchmark comparison; highly reusable for agent eval.	llm-agents, evaluation, benchmarking, sandbox, react, reproducibility
`2605.27922`	Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows PDF	cs.AI	93	Benchmark isolates harness effects in realistic agent workflows; useful for safety and deployment eval.	agents, benchmark, evaluation, tool-use, deployment, safety
`2605.28017`	Can It Reach the Generator? Investigating the Survival of Prompt-Injection Attacks in Realistic RAG Settings PDF	cs.CR, cs.IR	93	Directly tests prompt-injection survival in realistic RAG pipelines; strong security relevance.	rag-security, prompt-injection, adversarial-evaluation, retrieval, llm-security
`2605.27209`	Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments PDF	cs.AI	93	Agent training under noisy environments targets real-world robustness for tool-using LLM agents.	llm-agents, robustness, agent-training, tool-use, reliability
`2605.27134`	Scaling, Benchmarking, and Reasoning of Vision-Language Agents for Mobile GUI Navigation PDF	cs.AI	92	Large-scale benchmark and scaling study for VLM mobile agents; strong agent relevance and reusable eval.	agents, vlm, mobile-gui, benchmark, reasoning, rl
`2605.27823`	Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security PDF	cs.CR, cs.AI, cs.CV	91	Direct defense against jailbreaks and prompt injection using semantic decomposition and intent graphs.	llm-security, prompt-injection, jailbreak-defense, adversarial-prompts, guardrails
`2605.28112`	A Wolf in Sheep's Clothing: Targeted Routing Hijacking in Federated RAG PDF	cs.CR, cs.CL, cs.IR	91	Shows routing-stage attack in federated RAG causing poisoning, hallucinations, and failures.	RAG, security, poisoning, federated-learning, retrieval, hallucination
`2605.22544`	One prompt is not enough: Instruction Sensitivity Undermines Embedding Model Evaluation PDF	cs.CL, cs.IR	91	Shows embedding leaderboards are prompt-fragile; strong eval warning with broad LLM relevance.	llm-evaluation, embeddings, prompt-sensitivity, benchmarking, reliability
`2605.28721`	LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know? PDF	cs.AI	91	Important diagnostic showing search agents may verify prior knowledge instead of evidence-driven search.	agents, evaluation, search, tool-use, benchmark-validity
`2605.27292`	Detectability in Diversity: Improved Canary Crafting for Privacy Auditing in One Run PDF	cs.LG, stat.ML	91	Improves one-run privacy auditing via better canaries; strong relevance to leakage measurement.	privacy, auditing, differential-privacy, membership-inference, evaluation
`2605.27995`	AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios PDF	cs.AI	90	Benchmark for async multi-task tool use; highly relevant to real-world LLM agents and evaluation.	llm-agents, tool-use, benchmark, evaluation, multi-task
`2605.28683`	VeriTrip: A Verifiable Benchmark for Travel Planning Agents over Unstructured Web Corpora PDF	cs.AI	89	Verifiable benchmark for web agents on noisy multimodal corpora; strong fit for robustness and reliability eval.	agents, benchmark, evaluation, multimodal, web-agents, grounding
`2605.27825`	MRMMIA: Membership Inference Attacks on Memory in Chat Agents PDF	cs.CR, cs.LG	89	Membership inference on chat agent memory targets a realistic privacy leakage surface.	privacy, agents, memory, membership-inference, security, chatbots
`2605.22122`	Adversarial Trust Poisoning in Vehicular Collaborative Perception PDF	cs.CR, cs.AI	89	Exposes a new attack surface where trust defenses are turned against benign agents.	security, adversarial-attacks, multi-agent, autonomous-vehicles, trust
`2605.27240`	ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agents PDF	cs.CL	89	Benchmark for proactive memory retrieval in emotional-support agents; targets agent memory evaluation gap.	agents, memory, benchmark, evaluation, emotional-support, retrieval
`2605.26457`	Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization PDF	cs.SE, cs.AI, cs.CL, cs.PL	89	Benchmark and environment for checking whether coding agents formalize specs faithful to user intent.	coding-agents, formal-verification, evaluation, specification, reliability
`2605.27135`	Do Modern Post-Hoc Watermarking Methods Beat Broken-Arrows? PDF	cs.CR, cs.CV	88	Security-focused evaluation of AI-image watermarking robustness against realistic attacks.	watermarking, security, generative-ai, image-forensics, robustness
`2605.26530`	Which Changes Matter? Towards Trustworthy Legal AI via Relevance-Sensitive Evaluation and Solver-Grounded Reasoning PDF	cs.AI	88	Relevance-sensitive legal LLM eval plus adversarial multi-agent mitigation for trustworthy reasoning.	llm-evaluation, robustness, legal-ai, multi-agent, trustworthiness
`2605.28597`	Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation PDF	cs.CR, cs.AI, cs.LG	87	Important security framing: hidden trigger behaviors need strict evaluation, not optimistic 'positive backdoor' claims.	alignment, backdoors, security, evaluation, secret-alignment, position-paper
`2605.27020`	Black-box Membership Inference Attacks on the Pre-training Data of Image-generation Models PDF	cs.CV, cs.AI	87	Black-box privacy auditing for closed image generators; relevant to memorization and data misuse.	privacy, membership-inference, diffusion, data-governance, security
`2605.26942`	Neuro-Symbolic Verification of LLM Outputs for Data-Sensitive Domains (extended preprint) PDF	cs.AI, cs.LO, cs.SE	87	Hybrid symbolic+neural verification for LLM outputs in high-stakes settings; directly reliability-focused.	llm-reliability, verification, neuro-symbolic, hallucination, privacy
`2605.28556`	A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks PDF	cs.AI	87	Automatic synthesis of harder agent tasks could improve benchmark coverage as current suites saturate.	agents, benchmarking, evaluation, tool-use, task-generation
`2605.28664`	Activation Steering for Synthetic Data Generation: The Role of Diversity in Downstream Safety Detection PDF	cs.LG, cs.CL	86	Studies activation steering for synthetic safety data; diversity findings matter for detector robustness.	safety, synthetic-data, activation-steering, evaluation, robustness, classifiers
`2605.20174`	Multi-axis Analysis of Image Manipulation Localization PDF	cs.CV, cs.LG	86	Large benchmark for image manipulation localization under domain shift; useful for trust and forensics.	benchmark, image-forensics, misinformation, robustness, evaluation
`2605.26720`	Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation PDF	cs.AI	86	Analyzes feedback attribution in self-evolving LLM agents; useful for agent planning transparency.	llm-agents, planning, analysis, code-generation, interpretability
`2605.14362`	Correctness-Aware Repository Filtering Under Maximum Effective Context Window Constraints PDF	cs.SE, cs.AI	86	Practical LLM repo-context filtering for MECW limits; directly useful for coding agents.	llm, agents, code, context-window, efficiency, developer-tools

AI 论文洞察简报

2026-05-31

0) 核心结论（请先阅读）

Agent 评估正在重新围绕执行真实感展开：多篇论文表明，当你改变 scaffold、harness、环境波动性、检索流水线或异步工具延迟时，基准分数会发生显著变化，而不只是由基础模型本身决定。
安全论文中反复出现的一个模式是：接口层就是攻击面。FedRAG 中的路由配置、GUI agent 中的用户生成内容、代码仓库上下文构建，以及协同感知中的信任信号，都会在核心模型开始推理之前就变成可利用点。
多篇有力论文主张，相比事后审核，执行前或生成前控制更有效：如 tokenization 前的仓库过滤、推理前的提示解缠、受治理的工具路由、代码执行前的 typed-hole 编译，以及联邦检索中的信任感知重路由。
基准测试正在变得更具诊断性，而不只是更大：新工作开始衡量系统为何失败，包括逐单元验证、失败分类、多轴鲁棒性、提示敏感性分布，以及生成级因果归因。
对安全性与可靠性工作而言，最可操作的趋势是混合化：符号求解器、可执行规格、编译器检查、信任掩码和确定性验证器，正越来越多地用于约束或审计 LLM 行为，因为纯提示方法过于脆弱。
隐私风险正在从训练数据泄露扩展到运行时记忆、联邦路由和黑盒生成式 API，这意味着隐私审计需要覆盖已部署 agent 的状态和检索基础设施，而不只是模型权重。

2) 关键主题（聚类）

主题：Agent 评估正从模型分数转向系统真实感

为什么重要：多篇论文表明，agent 性能在很大程度上受 scaffold、harness、环境波动和工具时序影响。这意味着当前许多排行榜比较，部分测量的是工程选择，而非模型的内在能力。
代表论文：
常见方法：
- 在一次只改变一个系统层（scaffold、harness、在线/离线环境、延迟）的同时，标准化执行条件。
- 在任务成功率之外加入过程指标：步骤数、token 数、耗时、失败分类、交错行为。
- 使用受控消融，如离线快照、证据屏蔽或延迟工具返回，以隔离隐藏混杂因素。
开放问题 / 失败模式：
- 单一 scaffold 研究提升了可比性，但仍可能掩盖 scaffold 特有偏差。
- 离线或沙箱设置提升了可复现性，但可能遗漏在线服务漂移和长时程状态效应。
- 搜索 agent 仍可能依赖内在知识，而非基于证据的发现。
- 异步协同依然薄弱：依赖关系违反、任务忽略和调度不佳仍然存在。

主题：预处理与路由层正在成为主要安全边界

为什么重要：当下相当一部分实际攻击在模型主推理循环之前就已成功——通过被投毒的路由、被注入的上下文或格式异常的工具暴露。相比单纯输出审核，更早作用于流水线的防御通常更便宜，也更稳健。
代表论文：
常见方法：
- 对完整流水线建模，而不是假设被攻击对象一定会到达生成器。
- 攻击或防御元数据、路由配置、可见 UI 内容或仓库文件选择，而不只是模型内部。
- 测量分阶段的存活/暴露指标，以定位攻击是在何处被放大或被过滤。
开放问题 / 失败模式：
- 当防御依赖在线信任累积时，首次暴露攻击仍然难以阻止。
- 在 GUI 场景中，视觉上“看起来合理”并不是安全性的可靠代理。
- 检索与重排序可以压制许多攻击，但幸存攻击仍足够强，不能忽视。
- 启发式过滤器可能排除本来合法且相关的大型工件，或在新文件类型上失效。

主题：神经符号与编译器式控制正在成为可信 agent 的重要方向

为什么重要：在正确性可以被外部检查的场景中，论文越来越多地用求解器检查、可执行规格或静态类型来替代“相信模型”。这是让 agent 输出可审计的最清晰高信号方向之一。
代表论文：
常见方法：
- 将自然语言意图转换为可执行或可由求解器检查的中间形式。
- 对结构化声明使用确定性门控，对模糊情况使用回退执行/测试。
- 在执行前通过类型化接口、词法作用域或能力跟踪来约束权限。
开放问题 / 失败模式：
- 静态或符号层面的有效性，并不保证在语义上忠实于用户意图。
- 有限测试集和可执行检查仍会漏掉部分规格错误。
- 自动形式化质量仍受上游信息抽取质量限制。
- 这些系统通常会增加延迟、工程复杂度或领域特定假设。

主题：基准测试正变得更具对抗性、多轴化且可诊断失败

为什么重要：新基准不再只关注总体准确率，而是更强调在真实分布偏移下暴露脆弱性：提示措辞、操纵规模、情感需求不匹配、噪声环境，以及程序覆盖缺口。
代表论文：
常见方法：
- 用分布、扰动族或受控变化轴替代单点分数。
- 使用人工撰写的对抗样例、长尾场景或理论驱动标签来暴露隐藏失败模式。
- 评估检索或推理质量对下游的影响，而不只是中间检索指标。
开放问题 / 失败模式：
- 许多新基准仍部分依赖合成生成或有限人工验证。
- 提示敏感性和 benchmark hacking 在报告规范中仍未得到充分处理。
- 更好的诊断并不意味着已经有明确的训练修复方案。
- 覆盖率提升往往伴随更高标注成本和不完美的验证器召回率。

主题：隐私与安全审计正在扩展到已部署 agent 状态和生成式 API

为什么重要：隐私暴露面已不再只是“这是否出现在预训练中？”这里的论文展示了聊天记忆、单次运行 canary 审计、扩散 API 和微调数据流水线中的泄露与滥用机会。
代表论文：
常见方法：
- 围绕真实可观测接口构建攻击：多轮召回探测、text-to-image 查询或逐样本梯度。
- 强调可在真实部署/训练环境中运行的低开销审计或过滤。
- 跨访问级别（黑盒/灰盒/白盒）评估，并在稀疏或极端条件下进行压力测试。
开放问题 / 失败模式：
- 强攻击性能通常依赖重复查询或辅助模型。
- 一些隐私审计在单实例上的能力仍然有限，主要通过聚合才提升效果。
- 防御通常比攻击更弱，或探索得更少。
- 结果未必能平滑迁移到更大的闭源模型或更复杂的 agent 架构。

3) 技术综合

一个强烈的方法论模式是分阶段拆解：论文越来越多地将检索存活、重排序暴露、生成成功，或决策失败与执行失败分开，而不是只报告一个最终指标。
多项工作用内在逐样本信号替代成对比较/重聚类分析，以提升效率：如用文件大小作为 token 代理、用梯度谱熵做投毒过滤，以及用 influence/self-interference 分数进行 canary 构造。
分布式评估正在替代点估计：15 个提示上的提示敏感性、多轴图像取证、噪声与干净 rollout 对比，以及闭卷与启用搜索的比较。
许多 agent 论文趋向于使用冻结或沙箱回放来隔离因果效应：CUDA 规划中的冻结轨迹、web agent 的离线快照、harness 研究中的确定性沙箱，以及旅行规划中的静态语料库与隐藏知识库。
一个清晰趋势是走向无需 gold spec 但可执行的评估：Verus 规格被编译为可执行谓词、法律推理锚定于 SMT 约束，以及基于隐藏结构化真值的逐单元行程验证。
信任与路由正在成为一等安全对象：协同感知信任分数、FedRAG 客户端配置，以及工具/路由器选择都成为可攻击的控制点。
多篇论文表明，更好的 grounding 可能与更高层规划质量形成权衡：主动检索提升了旅行规划中的事实可靠性，但可能损害偏好满足；显式推理可提升 GUI agent 的多样性，却降低稳定性。
在安全论文中，轻量缓解措施通常有帮助，但无法闭环解决问题：Prompt Guard 微调、TrustReflect、TASR 和 system-prompt 防御都能不均匀地降低风险，但往往仍无法解决首次接触或自适应攻击。
一个反复出现的系统经验是渐进式披露：向模型暴露更少上下文、更少工具，或仅暴露选定 schema，可以同时降低 token 成本和攻击面。
多篇论文暗示，评估基础设施本身已成为瓶颈技术：更好的基准正在直接改变我们对模型能力、攻击真实感和安全态势的结论。

4) Top 5 论文（附“为什么是现在”）

A Unified Framework for the Evaluation of LLM Agentic Capabilities
- 表明在统一 scaffold 和离线快照条件下，基准结果会显著变化，一些既有流水线会压低或抬高分数。
- 将 7 个基准迁移到 24 个领域，并运行超过 40 万次 rollout，使其在 agent 评估基础设施方面的证据覆盖面异常广。
- 增加了统一效率指标和失败分类，对工程实践比原始成功率更有用。
- 审慎看法：它固定了一个 scaffold（smolagents），因此它诊断了 benchmark 混杂问题，但并未完全解决 scaffold 依赖。
Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization
- 引入了一个包含 581 个任务的基准，以及可执行规格评估，能够捕捉到 LLM 裁判遗漏的失败。
- 最强模型达到 77.8% Pass@1，但论文更大的贡献在于表明：即便代码生成很强，规格忠实性仍然是真正瓶颈。
- 为什么是现在：可验证代码生成正在进步，因此薄弱环节正从代码正确性转向规格正确性。
- 审慎看法：基准范围仍是竞赛风格的单文件问题，而有限测试仍只能近似衡量忠实性。
A Wolf in Sheep’s Clothing: Targeted Routing Hijacking in Federated RAG
- 识别出 FedRAG 中一个清晰的新攻击面：伪造客户端配置可以在检索开始前就劫持路由。
- 展示了在 embedding、神经网络和 LLM 路由器上的高劫持率，以及在医疗问答中的下游危害。
- TASR 提供了一种实用缓解方法，在预热后可显著降低持续性劫持。
- 审慎看法：TASR 是在线方法且依赖预热，因此并未彻底解决首次暴露攻击。
LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
- 用证据提出了一个尖锐结论：许多“搜索”agent 依赖的是内在知识，而不是真正的发现。
- 在静态基准上，闭卷分数出人意料地高；而在新的 90 天基准上，所有测试模型的闭卷准确率都降到 2% 以下。
- 为什么是现在：搜索 agent 的进展正被广泛宣称，而这篇论文直接检验这种进展是否真实。
- 审慎看法：结果依赖单一搜索后端和高成本人工策展流程，可能难以扩展。
GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning
- 提供了一种简单的逐样本防御，避免聚类，并据称在测试设置中以 100% 召回将 ASR 降至 0%。
- 适用于 LoRA 和全量微调、1% 到 90% 的投毒比例，甚至测试了自适应稀释变体。
- 为什么是现在：在开放模型生态中，不可信微调数据正逐渐成为默认假设。
- 审慎看法：证据仍局限于 SFT 风格设置，并依赖训练数据访问权限和逐样本梯度计算。

5) 实践上的下一步

在你的评估中加入流水线阶段指标：应分别记录检索存活、重排序暴露、工具调用正确性、执行状态一致性和最终任务成功。
将 scaffold/harness 视为实验变量，而不是常量。在得出模型层面结论前，至少用另一种 harness 或 scaffold 重跑一部分任务。
对 RAG 和代码 agent，优先实现廉价预过滤器：仓库大小/二进制/压缩混淆文件过滤、渐进式工具/schema 披露，以及按意图限定的路由，都能同时降低成本和攻击面。
如果你部署了记忆或持久化 agent 状态，请针对该记忆存储运行membership 风格隐私审计，而不只是针对模型权重或检索语料。
对高风险领域，优先采用可验证的中间表示：尽可能使用可执行规格、可由 SMT 检查的约束、类型化契约或确定性验证器。
在基准中加入分布式鲁棒性报告：多提示、噪声环境、异步工具延迟，以及在线/离线环境变体都应成为标准项。
对 GUI 和多模态 agent，显式测试用户生成内容注入以及推理—执行不匹配；仅靠视觉真实感并不足以作为防御标准。
如果你用合成数据训练安全检测器，请将多样性作为一等指标来衡量，并与标签保真度和连贯性并列；狭窄但高成功率的生成区间，仍可能导致下游检测器表现不佳。

基于逐篇论文分析生成；未进行外部浏览。

Agent 基准测试开始直面现实。

核心要点

先读这篇：A Unified Framework for the Evaluation of LLM Agentic Capabilities

主题

值得优先阅读的论文

A Unified Framework for the Evaluation of LLM Agentic Capabilities

LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

LACUNA: Safe Agents as Recursive Program Holes

AI 论文洞察简报

2026-05-31

0) 核心结论（请先阅读）

2) 关键主题（聚类）

主题：Agent 评估正从模型分数转向系统真实感

主题：预处理与路由层正在成为主要安全边界

主题：神经符号与编译器式控制正在成为可信 agent 的重要方向

主题：基准测试正变得更具对抗性、多轴化且可诊断失败

主题：隐私与安全审计正在扩展到已部署 agent 状态和生成式 API

3) 技术综合

4) Top 5 论文（附“为什么是现在”）

5) 实践上的下一步