核心要点

智能体系统正从“更多采样”转向**更多结构**：多篇论文通过加入显式控制层来提升可靠性——如持久化元策略监督、探索阶段通信、反驳循环、策略生成或证据证书——而不只是单纯扩大模型规模。
一个反复出现的模式是**廉价前端 + 选择性升级**：特征级检测器只将困难样本路由给 VLM，本地 GraphRAG 可在消费级 GPU 上运行但有明显限制，且多个系统使用确定性验证器或轻量评分器，将昂贵推理保留给模糊案例。
基准测试正更现实地暴露**隐藏失效模式**：状态门控检索、法律领域的 claim 级 RAG、自动驾驶中的稀有类检索、纵向医疗对话、电子表格工作流以及跨域异常检测，都揭示了标准 QA 式评测难以发现的脆弱性。

先读这篇：SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval

为什么先读： 它隔离出了一个真实的智能体失效模式——检索状态漂移——并为 Web 与工具使用系统提供了一个可复用的评测目标。

建议重点质疑： 基准规模仍然不大，而且轨迹可见性有限，使其向商业智能体的迁移效果更难验证。

agents evaluation retrieval tool-use

arXiv PDF

主题

结构化智能体控制优于朴素的测试时扩展 多篇论文表明，长程任务失败往往来自错误传播、陈旧信念或捷径路径，而不是原始模型能力不足。最显著的提升来自在模型外围加入显式控制结构。

检索失败的方式比“有没有取到正确文档”更微妙 多个基准显示，检索失败越来越多地体现在上下文保持、状态维护和 claim 级落地，而不只是 top-k 相关性。这在法律、医疗和 Web 智能体中尤为重要。

当与下游验证绑定时，合成/自生成数据才真正有用 最强的合成数据论文并不把生成视为一次性的代理目标；它们通过私有验证、基准混合或显式数据集质量指标来闭环。

信号 控制层优于额外采样。 STAR-PólyaMath、ExComm、AnomalyClaw 和 DISC 都是通过监督中间计划、信念或策略来提升可靠性，而不只是单纯扩大推理规模。

张力 落地性增强的同时，成本也在上升。 证据证书、反驳循环、来源栈和多智能体编排让系统更可审计，但也带来了更高延迟、对验证器的依赖以及额外的基础设施开销。

判断 状态感知评测将会扩散。 SGR-Bench、法律领域的 claim 级 RAG、长期医疗对话和电子表格工作流都表明，未来基准会更聚焦隐藏状态与工作流脆弱性。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval

它很有价值，因为它表明许多搜索智能体的失败来自检索范围和状态的丢失，而不只是最终答案生成本身。

为什么现在值得读: 当前的智能体评测由于忽略了真实搜索工作流中的隐藏界面状态，仍在高估系统能力。
怀疑点: 基准规模有限且轨迹不完整，限制了这些发现的广泛泛化。

arXiv PDF

STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision

值得一读，因为它给出了一套具体方案，在长程问题求解中将推理、验证和持久化战略控制分离开来。

为什么现在值得读: 许多团队都在探索智能体式推理，而这篇论文认为结构比朴素的测试时扩展更重要。
怀疑点: 系统成本高、速度慢，而且对困难主张仍缺乏形式化证明检查支持。

arXiv PDF

ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling

它提供了一种实用机制，可在跨智能体错误固化为最终答案之前将其捕获。

为什么现在值得读: 并行智能体系统已经开始部署，因此减少错误级联是一个迫切的工程问题。
怀疑点: 其收益依赖验证器质量，而且部分评测因成本原因只使用了子集。

arXiv PDF

英文版：/paper-news/2026-05-25/

运行统计

候选论文: 7309
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-05-22T00:00:00Z → 2026-05-23T00:00:00Z (weekend_backlog_sat, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2605.22634`	Contractual Skills: A GovernSpec Design Framework for Enterprise AI Agents PDF	cs.SE, cs.AI	92	Enterprise agent framework for inspectable permissions, evidence, approvals, and handoffs.	agents, agent-safety, governance, guardrails, enterprise-ai
`2605.22258`	Harder to Defend: Towards Chinese Toxicity Attacks via Implicit Enhancement and Obfuscation Rewriting PDF	cs.CL	92	Chinese implicit toxicity red-team framework exposes major detector blind spots and supports defense data.	llm-safety, toxicity, red-teaming, evaluation, adversarial-robustness, multilingual
`2605.21071`	Fine-grained Claim-level RAG Benchmark for Law PDF	cs.CL, cs.AI	91	Fine-grained legal RAG benchmark targets hallucination analysis in a high-stakes domain.	RAG, benchmark, hallucination, legal-ai, evaluation
`2605.19478`	Exposing Functional Fusion: A New Class of Strategic Backdoor in Dynamic Prompt Architectures PDF	cs.CR, cs.CV	90	Security paper on strategic backdoors in dynamic prompt architectures; timely PEFT/VLM risk.	security, backdoor, PEFT, VLM, adversarial
`2605.22219`	SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval PDF	cs.AI	89	New benchmark for search agents needing stateful retrieval setup; useful for agent evaluation.	agents, benchmark, retrieval, evaluation, tool-use
`2605.22373`	Boundary-targeted Membership Inference Attacks on Safety Classifiers PDF	cs.LG, cs.CL	89	Targets privacy risks in AI safety classifiers with a new boundary-focused membership inference attack.	privacy, safety-classifiers, membership-inference, security, generative-ai-safety
`2605.22057`	FlyRoute: Self-Evolving Agent Profiling via Data Flywheel for Adaptive Task Routing PDF	cs.CL	89	Adaptive routing for evolving agents; practical agent infrastructure with data flywheel and exploration.	agents, routing, enterprise, evaluation, tool-use
`2605.19833`	Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation PDF	cs.SD, cs.AI, cs.CL, cs.MM, eess.AS	88	Targets ASR hallucinations/robustness with large-scale realistic data and policy optimization.	ASR, robustness, hallucination, audio-language, benchmark, post-training
`2605.10310`	Positive Alignment: Artificial Intelligence for Human Flourishing PDF	cs.AI, cs.CY, cs.HC, q-bio.NC	88	Alignment agenda reframed toward human flourishing; broad conceptual impact despite non-empirical focus.	alignment, AI safety, human flourishing, governance, value alignment
`2605.14621`	Do We Really Need External Tools to Mitigate Hallucinations? SIRA: Shared-Prefix Internal Reconstruction of Attribution PDF	cs.CV, cs.AI, cs.CL	88	Training-free LVLM hallucination mitigation via internal contrastive decoding; strong reliability relevance.	hallucination, LVLM, decoding, reliability, multimodal
`2603.14992`	Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos PDF	cs.AI, cs.MM	88	Multimodal misinformation detection with interpretable cross-modal consistency signals and benchmark results.	misinformation, multimodal, evaluation, robustness, interpretability
`2605.19663`	Pseudocode-Guided Structured Reasoning for Automating Reliable Inference in Vision-Language Models PDF	cs.AI	88	Structured pseudocode reasoning aims to reduce VLM hallucinations for safer robotic inference.	VLM, reliability, hallucination, robotics, reasoning
`2605.21002`	Verifiable Provenance and Watermarking for Generative AI: An Evidentiary Framework for International Operational Law and Domestic Courts PDF	cs.CR, cs.CV, cs.CY, cs.MM	87	Unified provenance/watermarking framework with benchmark across modalities and laundering threats.	provenance, watermarking, multimodal, security, benchmark
`2605.22564`	SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations PDF	cs.CL, cs.LG, cs.SE	87	Useful framework for judging synthetic eval data quality for tool-calling agents under real-data constraints.	agents, tool-calling, evaluation, synthetic-data, benchmarks, reliability
`2605.22300`	Cross-domain benchmarks reveal when coordinated AI agents improve scientific inference from partial evidence PDF	cs.AI, cs.LG, cs.MA	87	Benchmarks when coordinated AI agents help scientific inference; strong eval framing and ablations.	agents, benchmark, evaluation, scientific-inference, multi-agent
`2605.21915`	CCLab: Adversarial Testing of Learning- and Non-Learning-Based Congestion Controllers PDF	cs.CR, cs.LG	86	Adversarial robustness framework for learning-based controllers; strong evaluation utility for safety-critical ML.	robustness, adversarial-evaluation, RL, networking, benchmark, safety
`2605.19766`	Synthesis and Evaluation of Long-term History-aware Medical Dialogue PDF	cs.CL, cs.AI	86	Long-horizon medical dialogue benchmark targets memory/reasoning evaluation for healthcare agents.	LLM evaluation, medical agents, long-context, benchmark, synthetic data
`2605.19338`	STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision PDF	cs.MA, cs.AI, cs.CL	86	Multi-agent reasoning with verifier/orchestrator design for long-horizon reliability in math.	agents, reasoning, verification, multi-agent, reliability
`2605.22102`	ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling PDF	cs.AI	85	Addresses error propagation in agentic test-time scaling via cross-agent conflict detection during exploration.	agents, test-time-scaling, reasoning, reliability, multi-agent
`2605.21988`	Learning Spatiotemporal Sensitivity in Video LLMs via Counterfactual Reinforcement Learning PDF	cs.CV, cs.AI	85	RL post-training for Video LLMs to reduce shortcutting via counterfactual sensitivity rewards.	video-llm, rl, robustness, reasoning, counterfactuals
`2605.20815`	GraphRAG on Consumer Hardware: Benchmarking Local LLMs for Healthcare EHR Schema Retrieval PDF	cs.CL, cs.AI, cs.IR, cs.LG	84	Evaluates local GraphRAG for privacy-sensitive healthcare deployment under consumer constraints.	rag, healthcare, local-llm, evaluation, privacy
`2605.21993`	ECPO: Evidence-Coupled Policy Optimization for Evidence-Certified Candidate Ranking PDF	cs.AI, cs.LG	84	Evidence-certified ranking with provenance and auditability is highly relevant to trustworthy AI.	trustworthy-ai, evidence, ranking, auditability, provenance, evaluation
`2605.22642`	Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning PDF	cs.AI	84	RL fine-tuning for realistic spreadsheet agents is a strong frontier agent capability advance with reuse potential.	agents, rl, tool-use, spreadsheet, llm-training, automation
`2604.08008`	SearchAD: Large-Scale Rare Image Retrieval Dataset for Autonomous Driving PDF	cs.CV, cs.AI, cs.LG	84	Large rare-scenario retrieval benchmark for autonomous driving; strong safety relevance and reuse value.	benchmark, autonomous-driving, retrieval, safety-critical, dataset
`2605.10397`	AnomalyClaw: A Universal Visual Anomaly Detection Agent via Tool-Grounded Refutation PDF	cs.CV, cs.AI	84	Agentic VLM anomaly detection with multi-round refutation; relevant to reliable tool-grounded perception.	VLM, agents, reliability, anomaly-detection, tool-use, multimodal
`2605.09855`	Concordia: Self-Improving Synthetic Tables for Federated LLMs PDF	cs.LG	84	Federated LLM adaptation with synthetic tables addresses privacy and non-IID utility under isolation.	federated learning, LLMs, privacy, synthetic data, tabular
`2605.20856`	DISC: Decoupling Instruction from State-Conditioned Control via Policy Generation PDF	cs.RO, cs.AI, cs.LG	84	Structural fix for observation leakage in language-conditioned control; strong reliability angle.	robotics, grounding, reliability, control, language-conditioning
`2605.14495`	Contestable Multi-Agent Debate with Arena-based Argumentative Computation for Multimedia Verification PDF	cs.MM, cs.AI	84	Contestable multi-agent verification with explicit argument graphs and tools; useful for auditable agents.	agents, verification, multimodal, argumentation, auditing
`2603.11804`	OSM-based Domain Adaptation for Remote Sensing VLMs PDF	cs.CV, cs.LG	84	VLM domain adaptation without large teachers; reusable self-annotation idea for scarce-label settings.	VLM, domain-adaptation, self-training, data-efficiency, multimodal
`2604.18955`	Assessing Capabilities of Large Language Models in Social Media Analytics: A Multi-task Quest PDF	cs.CL, cs.AI, cs.SI	84	Broad LLM evaluation on social-media tasks with new data and human study; useful reliability evidence.	llm-evaluation, benchmark, social-media, generalization, human-study

AI 论文洞察简报

2026-05-25

0) 执行要点（请先阅读）

智能体系统正从“更多采样”转向更多结构：多篇论文通过加入显式控制层来提升可靠性——如持久化元策略监督、探索阶段通信、反驳循环、策略生成或证据证书——而不只是单纯扩大模型规模。
一个反复出现的模式是廉价前端 + 选择性升级：特征级检测器只将困难样本路由给 VLM，本地 GraphRAG 可在消费级 GPU 上运行但有明显限制，且多个系统使用确定性验证器或轻量评分器，将昂贵推理保留给模糊案例。
基准测试正更现实地暴露隐藏失效模式：状态门控检索、法律领域的 claim 级 RAG、自动驾驶中的稀有类检索、纵向医疗对话、电子表格工作流以及跨域异常检测，都揭示了标准 QA 式评测难以发现的脆弱性。
安全/安全性研究正越来越聚焦于运行层攻击面，而不只是模型输出：动态提示后门、安全分类器上的成员推断、中文隐式毒性规避，以及来源/水印清洗，都表明部署管线仍是主要薄弱点。
合成数据或自生成数据仍然是强有力的杠杆，但前提是与下游效用紧密耦合：基于 OSM 的自标注在遥感中优于教师蒸馏，联邦合成表格提升了对少数类敏感的 MCC，而 SynAE 说明合成智能体基准需要显式的有效性/保真度/多样性检查。
对前沿 LLM/智能体安全团队而言，实际启示是投资于可审计的中间状态：信念存储、证据片段、检索状态跟踪、来源对象和结构化契约，反复与更强鲁棒性和更易故障诊断相关。

2) 关键主题（聚类）

主题：结构化智能体控制优于朴素的测试时扩展

为什么重要：多篇论文表明，长程任务失败往往来自错误传播、陈旧信念或捷径路径，而不是原始模型能力不足。最显著的提升来自在模型外围加入显式控制结构。
代表论文：
共同方法：
- 增加一个跨尝试或跨智能体持续存在的监督层。
- 干预中间信念/计划，而不只是对最终答案重新排序。
- 使用显式状态机、工具支撑的验证或生成的任务特定策略来阻断捷径行为。
- 通过软更新、回溯或并行的直接/反驳分支，在纠错的同时保留多样性。
开放问题 / 失效模式：
- 多智能体或多次调用系统的计算与延迟成本仍然很高。
- 验证器质量成为新的瓶颈；错误纠正可能让多个智能体同步到错误信念上。
- 部分收益可能来自额外推理预算，而不完全是架构本身。
- 在数学和异常检测等领域，形式化验证仍然缺失。

主题：检索失败的方式比“有没有取到正确文档”更微妙

为什么重要：多个基准显示，检索失败越来越多地体现在上下文保持、状态维护和 claim 级落地，而不只是 top-k 相关性。这在法律、医疗和 Web 智能体中尤为重要。
代表论文：
共同方法：
- 用结构化输出、claim 级检查或仅证据恢复来评估检索。
- 使用确定性验证器或细粒度指标，将检索质量与生成质量分离。
- 聚焦隐藏状态：过滤器、范围、图社区或证据证书。
- 将普通效用指标与更严格的“认证”或 grounded 指标进行比较。
开放问题 / 失效模式：
- 在专业法律场景中，稠密检索可能不如词法方法。
- GraphRAG 的全局摘要即使在本地检索保持 grounded 时也可能产生幻觉。
- 法律 claim 检查器中的矛盾检测仍然较弱。
- 当中间轨迹不可用时，商业系统很难审计。

主题：当与下游验证绑定时，合成/自生成数据才真正有用

为什么重要：最强的合成数据论文并不把生成视为一次性的代理目标；它们通过私有验证、基准混合或显式数据集质量指标来闭环。
代表论文：
共同方法：
- 在真实标签昂贵或不可得的稀缺/受监管领域，用合成数据补足覆盖。
- 通过私有验证评分器、基准混合或任务特定质量指标，将生成与下游效用耦合。
- 将生成拆解为更小、可控的单元，以减少幻觉并保持一致性。
- 同时使用自动指标和 judge-based 评估来审计合成输出。
开放问题 / 失效模式：
- 合成分布可能偏离真实部署分布。
- LLM-as-judge 仍不完美，可能掩盖质量问题。
- 地理、机构或标注偏差可能被合成管线放大。
- 隐私保证通常是实践性的，而非形式化的。

主题：安全威胁正转移到适配器、分类器和来源层

为什么重要：攻击面正在超越基础模型越狱。小型 PEFT 模块、安全分类器和来源栈都可能以在运维上很严重的方式泄露或失效。
代表论文：
共同方法：
- 攻击那些通常被视为轻量或辅助的组件：提示生成器、审核分类器、水印/来源检测器。
- 在现实对手条件下评估，如清洗、剪枝、混淆或黑盒分数访问。
- 表明标准防御往往失效，或只能部分缓解泄露。
- 提出实用缓解措施，如 logit 扰动、融合来源信号，或在生成攻击上进行防御微调。
开放问题 / 失效模式：
- 许多防御缺乏形式化保证或广泛迁移测试。
- 在更强对手或更高清洗等级下，鲁棒性往往崩溃。
- 安全评估在模型家族和部署设置上仍然较窄。
- 某些攻击管线虽然效果很强，但持续监控成本很高。

主题：更真实的基准正在暴露长尾与工作流脆弱性

为什么重要：新数据集不再只是追求排行榜饱和，而是更关注暴露运行盲点：稀有检索、电子表格语义、多模态虚假信息、声学退化和长期记忆。
代表论文：
共同方法：
- 围绕真实工作流而非孤立 QA 构建基准。
- 强调长尾、组合式或跨模态失效模式。
- 同时报告质量指标和系统指标，如吞吐量、显存或查询时间。
- 通过广泛消融识别当前方法在强基础模型下仍然失败的环节。
开放问题 / 失效模式：
- 在许多真实任务上，绝对性能仍然较低。
- 小目标、组合噪声和多步电子表格语义仍然困难。
- 一些基准依赖合成或人工筛选子集，限制了外部有效性。
- 更真实的评测通常会增加标注和运行成本。

主题：可解释性正变得更具操作性，而不只是解释性

为什么重要：多篇论文不再停留于事后解释，而是转向可审计、可争议或可用于路由决策的产物。这比自由形式的理由更适合安全关键部署。
代表论文：
共同方法：
- 输出结构化产物：论证卡、证据片段、一致性字段或类似契约的技能规范。
- 将可解释性与可操作性绑定：升级处理、确定性验证或治理审查。
- 偏好局部、以 claim 为中心的推理对象，而非单体式解释。
- 使用不确定性区间或模式校验来触发更强审查。
开放问题 / 失效模式：
- 许多可解释性主张仍缺乏大规模用户研究。
- 结构化产物可能在形式上有效，但在实质上不足。
- judge 模型和评分启发式可能成为隐藏偏差来源。
- 运行时开销和标注负担可能限制采用。

3) 技术综合

一个常见的可靠性模式是分支并比较：SIRA 对比完整视觉分支与内部遮蔽分支；AnomalyClaw 融合直接分数与反驳分数；ExComm 比较智能体信念；MAGIC3 比较跨模态一致性信号，并将困难案例继续路由。
多篇论文用确定性接口替代不透明的端到端行为：ECPO 的证据验证器、GraphRAG 的结构化抽取管线、基于 Excel 的电子表格验证器，以及法律 claim 级指标，都减少了对“正确”含义的歧义。
选择性升级正成为一种实用系统设计：MAGIC3 将约 25% 的困难样本路由给 VLM；多媒体验证中出现了基于不确定性的升级；本地 GraphRAG 表明较小的本地模型在索引/查询上能处理到一定规模，超过后才失效。
在更强的智能体系统中，持久记忆/状态被视为一等对象：STAR-PólyaMath 保留跨尝试状态，FlyRoute 维护成功存储和蒸馏画像，MediLongChat 明确评测跨会话记忆，而 SGR-Bench 表明隐藏的网站状态往往才是真正瓶颈。
多项工作表明，普通任务指标可能具有误导性：ECPO 在认证指标上的提升大于 NDCG；法律 RAG 即使生成表现尚可，仍暴露检索和矛盾检测失败；SearchAD 的低 MAP 揭示当前检索在稀有类上的薄弱。
当干预足够精准时，免训练的推理时控制仍具竞争力：SIRA 无需重训练即可减少幻觉，AnomalyClaw 在提示时提升跨域 VAD，PStar 则通过伪代码检索而非模型更新来改善 VLM 推理。
奖励设计正变得更具任务结构性：Concordia 使用源自私有验证的评分器，Mega-ASR 按 WER 区间切换 token 与句子奖励，CITA 结合规避与隐式性奖励，ECPO 则将排序奖励与证书恢复耦合。
多篇论文揭示了鲁棒性与成本之间的张力：多智能体编排、反驳循环以及来源/证明机制提升了可靠性，但也增加了延迟、VLM 调用或基础设施开销。
薄弱组件主导系统失效：3.8B 本地模型无法完成 GraphRAG 索引，法律 claim 检查中的矛盾检测失败，验证器质量限制 ExComm，而 PEFT 提示生成器则成为隐蔽后门载体。
跨领域来看，最强结果通常来自让控制机制匹配失效模式：Web 智能体用检索状态跟踪，机器人场景用策略解耦，遥感用地图支撑的自监督，ASR 鲁棒性则用组合式仿真。

4) 前 5 篇论文（附“为什么是现在”）

STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision
- 在推理角色与控制之间引入了清晰分离：Reasoner、Verifier，以及由确定性编排器管理的持久化 Meta-Strategist。
- 报告了 8 个竞赛数学基准上的 SOTA，包括多个数据集上的满分，并通过强消融证据表明回溯/重规划是关键机制。
- 现在有用，因为它提供了一套具体方案，可在不依赖单一超大模型的情况下提升长程推理可靠性。
- 质疑 / 局限：成本高、速度慢，且对难以验证的主张没有形式化证明检查后端。
ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling
- 表明 67–71% 的中间错误可被跨智能体检测，并利用这一点在最终答案形成前纠正信念。
- 相比强测试时扩展基线取得稳定增益，且性能-成本权衡优于单纯增加智能体数量。
- 现在有用，因为许多团队已经在部署并行智能体系统，需要一种有原则的方法来减少错误级联。
- 质疑 / 局限：依赖一个本身也可能出错的验证器，且部分评测因成本原因只使用了子集。
OSM-based Domain Adaptation for Remote Sensing VLMs
- 用渲染的 OSM 瓦片加上基础 VLM 自身的地图/OCR 能力进行自标注，替代昂贵的教师蒸馏。
- 构建了约 20 万条 caption 数据集，并在 10 个遥感基准中的 6 个上取得最佳结果，同时表明自生成 caption 优于更大教师生成的 caption。
- 现在有用，因为它是一个强有力的领域适配案例，且不依赖前沿模型——这是许多垂直团队想要的模式。
- 质疑 / 局限：继承了 OSM 的覆盖与标注偏差，尤其是在标注稀疏或混合用途区域。
Exposing Functional Fusion: A New Class of Strategic Backdoor in Dynamic Prompt Architectures
- 识别出一种 PEFT 时代的新型后门机制：动态提示生成器可将良性与恶意行为融合进一个微小但稳健的参数核心。
- 展示了接近 100% 的 ASR、强抗剪枝能力、低延迟开销，以及 Neural Cleanse 等标准防御的失效。
- 现在有用，因为动态提示模块和轻量 PEFT 插件正在生产工作流中越来越广泛地共享。
- 质疑 / 局限：防御评估的广度仍有限，更广泛的独立复现会很重要。
SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval
- 引入了一个针对现实中许多 Web 智能体常见失效模式的基准：找到了正确网站，却无法维持正确的检索状态。
- 显示最佳 item-level F1 也只有 66.18%，且 64.7% 的审计失败由检索范围漂移或条件不匹配引起，而非答案合成问题。
- 现在有用，因为许多智能体基准由于忽略隐藏接口状态而高估了能力。
- 质疑 / 局限：基准规模仍然不大，且商业系统缺乏完整轨迹可见性，难以做更深入诊断。

5) 实际下一步

为智能体系统加入中间状态日志与审计：信念存储、检索状态快照、证据片段和工具验证轨迹应成为一等遥测对象。
在有状态检索任务上评估智能体栈，而不只是开放 Web QA；重点测量范围漂移、过滤器不匹配和证据可恢复性。
对多智能体系统，在增加更多智能体或更多采样前，先测试探索阶段干预；比较信念冲突消解与简单多数投票。
如果使用合成数据，要求一个三部分准入门槛：有效性、保真度和多样性。不要只依赖“看起来真实”。
在组件级对安全管线做红队测试：审核分类器的成员泄露、PEFT 模块的后门，以及来源栈在清洗攻击下的表现。
优先采用选择性升级架构：简单案例用轻量检测器或本地模型处理，模糊案例再校准路由到更强的 VLM 或人工。
在机器人或工具使用型智能体中，显式测试捷径路径，如观测泄露或陈旧画像；架构解耦可能优于增加更多数据。
对幻觉缓解，可先尝试内部对比式或反驳式解码，再考虑外部工具，尤其是在具备白盒访问时。
将评测从最终准确率扩展到认证式 grounded 指标：claim 级矛盾检测、仅证据恢复、结构化输出有效性，以及模糊条件下的校准。

基于逐篇论文分析生成；未进行外部浏览。

智能体可靠性开始走向结构化。

核心要点

先读这篇：SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval

主题

值得优先阅读的论文

SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval

STAR-PólyaMath: Multi-Agent Reasoning under Persistent Meta-Strategic Supervision

ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling

AI 论文洞察简报

2026-05-25

0) 执行要点（请先阅读）

2) 关键主题（聚类）

主题：结构化智能体控制优于朴素的测试时扩展

主题：检索失败的方式比“有没有取到正确文档”更微妙

主题：当与下游验证绑定时，合成/自生成数据才真正有用

主题：安全威胁正转移到适配器、分类器和来源层

主题：更真实的基准正在暴露长尾与工作流脆弱性

主题：可解释性正变得更具操作性，而不只是解释性

3) 技术综合

4) 前 5 篇论文（附“为什么是现在”）

5) 实际下一步