核心要点

今天最强的趋势是：评测正从静态评估转向**更贴近部署现实、具备生命周期意识的测试**。论文不再只做孤立问答，而是评测智能体在法律工作流、医生辅助、科学仪器控制、旅行预订、多模态记忆和可复现性审计中的表现。
多篇论文指出，**表面上的成功具有误导性**：胸部放射影像 VLM 即使不使用图像也能答对；仅基于文本的真实性修复在更严格控制下往往失效；心理测量式偏见探针也无法干净地预测真实下游行为。
在智能体训练方面，当前最可落地的进展是**稳定性与数据效率机制**：CGTR 通过控制教师刷新来稳定自举式 on-policy 蒸馏；Q-Evolve 通过分布内评论家学习提升稀疏奖励智能体；RODS 在线合成面向边界区域的多轮数据。

先读这篇：ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues

为什么先读： 它提供了一个可复用、基于真实制品的智能体评测基准，用来衡量系统是否能大规模处理混乱的可复现性失败。

建议重点质疑： GitHub issue 只是噪声很大的代理信号，而静态审计仍会遗漏只有在执行中才会暴露的失败。

agents evaluation reproducibility tool-use

arXiv PDF

主题

真实世界智能体评测正在取代玩具基准 许多论文表明，单轮或孤立任务基准会高估系统成熟度。新一波基准关注的是：当系统必须协调工具、记忆、角色和长时程状态时，是否仍然可靠。

在智能体化、多模态和时间耦合场景中，安全与偏见失效更严重 多篇论文表明，当模型开始行动、逐步推理或消费不断变化的上下文时，危害会更明显。仅基于直接生成测得的安全性，往往低估部署风险。

训练阶段的稳定性与自适应课程正成为一等公民问题 随着智能体训练转向 on-policy RL、自蒸馏和稀疏奖励环境，不稳定性已不再是次要实现细节。多篇论文识别了具体失败模式，并提出自适应控制回路。

信号 基准正在变成工作流。 LegalWorld、PhysAssistBench、LabOSBench 和 ReproRepo 评估的是处于有状态、会使用工具环境中的智能体，而不是孤立问答。

张力 表面成功可能是假的。 胸部放射影像 VLM 可能不看图也能作答，而受控真实性测试显示，一些解码阶段的方法收益会缩小甚至反转。

判断 验证将胜过提示词补丁。 OpenAnt、DeFAb、Data Journalist Agent 以及安全触发相关工作，都依赖显式检查、来源追踪或结构化控制回路。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues

对于任何在评估智能体的人来说，这都是一篇很值得先读的论文，因为它用可扩展的真实仓库 issue 取代了小而精的任务。

为什么现在值得读: 智能体评测正从静态基准切片转向更真实、可持续刷新的工作流。
怀疑点: Issue 报告并不完整且噪声较大，因此基准上的成功可能高估真实调试能力。

arXiv PDF

A Controlled Study of Decoding-Time Truthfulness Methods on Instruction-Tuned LLMs

作为配套阅读很有价值，因为它检验了流行的轻量级可靠性修复在更严格控制下是否依然成立。

为什么现在值得读: 许多团队仍希望推理时的真实性补丁可以替代更深层的系统改造。
怀疑点: 结果仅覆盖两个模型家族和三个基准。

arXiv PDF

Vision-language models for chest radiography do not always need the image

这是一项尖锐的因果审计，表明多模态成功可能来自捷径，而不是预期中的真实落地。

为什么现在值得读: 医疗和多模态部署越来越默认模型会使用图像，却常常没有检验模型是否真的依赖图像。
怀疑点: 这一发现具有领域特异性，未必能直接迁移到其他 VLM 场景。

arXiv PDF

英文版：/paper-news/2026-06-21/

运行统计

候选论文: 3477
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-06-19T00:00:00Z → 2026-06-20T00:00:00Z (weekend_backlog_unknown, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2606.16562`	MIRAGE: Auditing Anti-Muslim Bias in Frontier LLMs Across Reasoning, Agentic, and Time-Coupled Conditions PDF	cs.LG	95	Bias benchmark for frontier LLMs in reasoning and agentic settings; strong safety relevance.	llm-safety, bias, agent-evaluation, reasoning, benchmark
`2606.16808`	Adaptive and Explicit safe: Triggering Latent Safety Awareness in Large Reasoning Models PDF	cs.AI	94	Targets jailbreak robustness in reasoning models via adaptive safety triggering and preference tuning.	llm-safety, jailbreaks, reasoning-models, alignment, dpo, sft
`2606.16751`	Automated jailbreak attack targeting multiple defense strategies PDF	cs.CR, cs.AI	93	Automated black-box jailbreak framework across defenses; highly relevant for LLM safety eval.	llm-safety, jailbreaks, red-teaming, adversarial-prompts, evaluation
`2606.19047`	RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents PDF	cs.AI	93	Online data synthesis for multi-turn tool-use RL; strong agent-training relevance and concrete mechanism.	llm-agents, tool-use, reinforcement-learning, data-synthesis, post-training
`2606.16127`	AuAu: A Benchmark for Auditing Authoritarian Alignment in Large Language Models PDF	cs.CL, cs.AI, cs.LG	92	Audits authoritarian tendencies in LLMs with psychometrics, vignettes, and realistic prompts.	alignment, benchmark, auditing, political-bias, llm-evaluation
`2606.19149`	OpenAnt: LLM-Powered Vulnerability Discovery Through Code Decomposition, Adversarial Verification, and Dynamic Testing PDF	cs.CR, cs.LG	91	LLM-based vulnerability discovery with decomposition, verification, and dynamic testing; strong security relevance.	security, llm-agents, vulnerability-discovery, code-analysis, verification
`2606.16898`	Semantic Flip: Synthetic OOD Generation for Robust Refusal in Embodied Question Answering and Spatial Localization PDF	cs.CV, cs.AI	91	Targets robust refusal for embodied VLMs on unanswerable queries via synthetic OOD generation.	embodied-agents, refusal, ood, vlm-safety, reliability
`2606.16988`	Agent trajectories as programs: fingerprinting and programming coding-agent behavior PDF	cs.SE, cs.LG	90	Procedural fingerprinting for coding agents; useful for auditing, monitoring, and agent behavior analysis.	agents, auditing, behavioral-analysis, coding-agents, evaluation
`2606.18613`	Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance PDF	cs.CL, cs.AI	90	Interactive benchmark for doctor-patient-EHR agents; grounded tool-use evaluation with realistic scenarios.	benchmark, llm-agents, tool-use, evaluation, medical-ai
`2606.17710`	Vision-language models for chest radiography do not always need the image PDF	cs.CV, cs.AI, cs.CL, cs.LG	90	Causal audit shows medical VLMs may ignore images; strong reliability and evaluation contribution.	vlm-evaluation, causal-audit, multimodal, reliability, medical-ai
`2606.18728`	LegalWorld: A Life-Cycle Interactive Environment for Legal Agents PDF	cs.CL	90	Lifecycle legal-agent environment with causal state, memory, and benchmark for long-horizon evaluation.	agents, benchmark, evaluation, legal, long-horizon
`2606.12160`	A Controlled Study of Decoding-Time Truthfulness Methods on Instruction-Tuned LLMs PDF	cs.CL	89	Hallucination detection from internal logits; strong truthfulness/reliability relevance.	LLM, truthfulness, hallucination, decoding, reliability, evaluation
`2606.11182`	EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents PDF	cs.LG, cs.AI	89	Test-time prompt learning for real-world agent streams; strong agent relevance and practical adaptation.	agents, test-time learning, prompting, adaptation, evaluation
`2606.16802`	LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control PDF	cs.AI	89	Safe, realistic benchmark for computer-use agents in scientific instrument control; high agent eval value.	agents, benchmark, computer-use, multimodal, evaluation, safety
`2606.16801`	The Art of Mixology: Mixup-based Obfuscation for Privacy-Preserving Split Learning in Large Language Models PDF	cs.CL	89	LLM split-learning privacy method with concrete obfuscation design and attack/utility tradeoff focus.	LLM, privacy, split-learning, security, training
`2606.13100`	LEDGER: A Long-Context Benchmark of Corporate Annual Reports for Grounded Financial Retrieval and Extraction PDF	cs.CL	89	Long-context grounded retrieval/extraction benchmark with full reports, tables, figures, and KPI labels.	benchmark, long-context, retrieval, grounding, finance, evaluation
`2606.11176`	Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories PDF	cs.CV, cs.CL, cs.CY, cs.HC	89	Multi-agent data journalism with evidence grounding and verifiable claims; strong agent reliability angle.	agents, verification, grounding, multimodal, evaluation
`2606.18557`	DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models PDF	cs.AI, cs.LG, cs.LO	89	Verifiable reasoning benchmark exposing major FM gaps on defeasible abduction and rendering robustness.	reasoning, benchmark, evaluation, robustness, logic
`2606.17449`	MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation PDF	cs.CL, cs.AI, cs.CV, cs.LG, cs.MM	88	Targets multimodal RAG hallucinations with dynamic multi-agent intervention and evaluation.	multimodal-rag, hallucination, agents, evaluation, reliability
`2606.18190`	Multi-Source Cybersecurity Logs: An ATT&CK-Labeled Dataset and SLM Evaluation PDF	cs.CR, cs.LG	88	ATT&CK-labeled multi-source cyber log dataset fills a key gap; strong security evaluation utility.	cybersecurity, dataset, evaluation, ATT&CK, logs
`2606.03532`	When Should the Teacher Move? Temporal Coupling and Stability in Self On-Policy Distillation PDF	cs.LG, cs.AI	88	Studies stability in self on-policy distillation for Qwen3-8B; useful for reliable LLM post-training.	llm-training, distillation, stability, post-training, reasoning
`2606.05711`	Beyond tokens: a unified framework for latent communication in LLM-based multi-agent systems PDF	cs.CL	88	Unified view of latent communication for LLM multi-agent systems; relevant to agent design and oversight.	llm-agents, multi-agent, latent-communication, survey/framework
`2606.18237`	ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues PDF	cs.CL, cs.AI, cs.LG	88	Scalable reproducibility audit framework for LLM agents using real GitHub issues and paper-repo pairs.	agents, evaluation, reproducibility, benchmark, tool-use
`2606.16952`	Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data PDF	cs.LG, cs.AI, stat.AP, stat.ME, stat.ML	87	Audits synthetic-data privacy leakage with causal framing and statistical tests.	privacy, synthetic-data, auditing, memorization, causal, evaluation
`2602.12430`	Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward PDF	cs.MA, cs.AI	87	Timely survey on LLM agent skills, MCP integration, and security risks; high reuse for agent safety.	agents, survey, MCP, security, skills
`2606.18142`	Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models PDF	cs.AI, cs.CL, cs.CY	87	Agentic benchmark for implicit welfare preferences in tool-using frontier models; novel deployment eval.	agent-safety, benchmark, tool-use, evaluation, ai-ethics
`2606.07367`	Self-evolving LLM agents with in-distribution Optimization PDF	cs.LG	87	Self-evolving LLM agent RL with process rewards and in-distribution optimization for long-horizon tasks.	llm-agents, reinforcement-learning, process-reward, long-horizon, training
`2606.16316`	RL-Index: Reinforcement Learning for Retrieval Index Reasoning PDF	cs.IR, cs.AI, cs.LG	87	Agentic retrieval shifts reasoning to indexing time; promising for RAG quality and latency.	RAG, retrieval, agents, reinforcement-learning, indexing
`2606.05008`	M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks PDF	cs.CV, cs.AI, cs.CL	87	Cognitively grounded benchmark for multimodal memory in long-video models; exposes retention failures.	multimodal, memory, benchmark, video, evaluation, reliability
`2606.03954`	VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring PDF	cs.CV, cs.LG, cs.RO	87	Embodied safety agent with real-time intervention and goal-conditioned safety filtering for risky actions.	embodied-safety, vision-language, agents, intervention, robotics

AI 论文洞察简报

2026-06-21

0) 执行要点（请先阅读）

今天最强的趋势是：评测正从静态评估转向更贴近部署现实、具备生命周期意识的测试。论文不再只做孤立问答，而是评测智能体在法律工作流、医生辅助、科学仪器控制、旅行预订、多模态记忆和可复现性审计中的表现。
多篇论文指出，表面上的成功具有误导性：胸部放射影像 VLM 即使不使用图像也能答对；仅基于文本的真实性修复在更严格控制下往往失效；心理测量式偏见探针也无法干净地预测真实下游行为。
在智能体训练方面，当前最可落地的进展是稳定性与数据效率机制：CGTR 通过控制教师刷新来稳定自举式 on-policy 蒸馏；Q-Evolve 通过分布内评论家学习提升稀疏奖励智能体；RODS 在线合成面向边界区域的多轮数据。
安全研究正收敛到制品级与工作流级攻击面，而不只是提示词：agent skills 引入了包级漏洞，UniAttack 展示了跨防御的强单轮越狱迁移，合成数据审计需要区分真实泄露与“幻影”匹配，split learning 在缺乏混淆时仍会泄露。
一个反复出现的设计原则是结构化的中间验证：显式安全标签、来源绑定、验证器支持的推理任务、约束解码、动态检索过滤，以及漏洞复现，都比纯提示词控制更有效或更持久。
对从业者而言，近期更重要的启示是：少投入一次性提示词补丁，多投入门控式流水线、来源追踪、验证器支持的评估，以及长时程失败分析。

2) 关键主题（聚类）

主题：真实世界智能体评测正在取代玩具基准

为什么重要：许多论文表明，单轮或孤立任务基准会高估系统成熟度。新一波基准关注的是：当系统必须协调工具、记忆、角色和长时程状态时，是否仍然可靠。
代表论文：
共同方法：
- 从真实制品或工作流构建环境：MIMIC-IV 入院记录、配对法律判决、GitHub issue、基于浏览器的仪器模拟器。
- 用轮次级、子任务级和会话级指标，将局部能力与长时程可靠性区分开来。
- 使用可执行工具或有状态接口，而不是仅靠自由文本评估。
- 通过人工评分、隐藏问题或真实世界结果代理指标进行验证。
开放问题 / 失败模式：
- 静态或模拟环境可能遗漏硬件延迟、真实用户行为或仅在执行中暴露的失败。
- 会话级成功率仍显著低于轮次级成功率，说明错误累积非常严重。
- 仍大量依赖 LLM-as-judge，因此评估器偏差问题尚未解决。
- 尽管真实性提升了，但若干基准的领域覆盖仍然偏窄。

主题：在智能体化、多模态和时间耦合场景中，安全与偏见失效更严重

为什么重要：多篇论文表明，当模型开始行动、逐步推理或消费不断变化的上下文时，危害会更明显。仅基于直接生成测得的安全性，往往低估部署风险。
代表论文：
共同方法：
- 评测配对场景或角色条件场景，而不是泛化提示词。
- 比较直接生成与 CoT、智能体动作或检索条件设置下的表现。
- 测量干预时机、决策不对称性或真实下游行为，而不只看口头表态。
- 测试简单提示词缓解方法能否迁移到不同部署模式。
开放问题 / 失败模式：
- 基于提示词的缓解通常能改善直接输出，但对 CoT 或智能体场景迁移很差。
- 偏见和安全判断仍高度依赖自动评审器或合成场景。
- 在具身场景中，目标推断错误会级联成错误的安全决策。
- 一些报告中的草稿结果仍依赖占位值或低置信度估计。

主题：训练阶段的稳定性与自适应课程正成为一等公民问题

为什么重要：随着智能体训练转向 on-policy RL、自蒸馏和稀疏奖励环境，不稳定性已不再是次要实现细节。多篇论文识别了具体失败模式，并提出自适应控制回路。
代表论文：
共同方法：
- 使用自适应门控或路由，而不是固定日程或共享提示词。
- 将学习聚焦在信息量大的边界区域：奖励方差、分布内评论家估计，或任务专用提示槽位。
- 结合离线种子与在线自生成数据，而不是依赖静态语料。
- 通过消融实验隔离刷新门、回放策略或路由机制的作用。
开放问题 / 失败模式：
- 大多数证据仍来自中等规模模型和有限任务族。
- 即使每次更新局部稳定，跨迭代分布漂移仍是问题。
- 在线合成与协同演化会增加计算成本和随机性。
- 学到的自适应机制仍常依赖标签、确定性模拟器或结构化反馈。

主题：验证器、来源追踪与结构化审计优于朴素信任

为什么重要：一个强烈的跨论文趋势是，用显式证据通道替代“相信模型”：来源链接、精确验证器、漏洞复现或因果控制。这对真实性、可复现性和安全尤其重要。
代表论文：
共同方法：
- 增加精确或可执行检查：代码重跑、多项式时间验证器、Docker 化漏洞测试、配对 bootstrap 控制。
- 将输出绑定到证据来源，如代码行、URL 或结构化推导。
- 在多个评审器、随机种子或渲染模态下对结论进行压力测试。
- 区分语义成功与精确定位或精确匹配正确性。
开放问题 / 失败模式：
- 验证器支持的任务可能过窄，或形式化方式无法覆盖更广泛的现实歧义。
- 尽管控制更强，LLM 评审器仍是许多流水线中的瓶颈。
- 精确匹配表现通常落后于语义匹配表现，限制了实际可用性。
- 一些方法提升了保真度，但代价是延迟或过度保守。

主题：安全正在从提示攻击转向系统表面

为什么重要：攻击面正从越狱提示词扩展到 skills、合成数据发布、split-learning 激活，以及仓库级代码分析。安全评估正变得更偏系统化。
代表论文：
共同方法：
- 将制品和中间状态视为攻击向量：skills、激活、合成输出、融合提示词。
- 使用不需要内部访问的黑盒或模型无关审计。
- 用确认流水线量化实际可利用性，而不只讨论理论风险。
- 提出治理层，如信任分级、验证门或留出对照比较。
开放问题 / 失败模式：
- 许多防御是启发式的，而非形式化隐私或鲁棒性保证。
- 单轮越狱测试可能遗漏多轮漏洞。
- 安全结论可能依赖辅助模型、评审器或所选特征提取器。
- 治理方案通常尚未在生产中得到验证。

3) 技术综合

多篇论文用状态感知门控替代静态阈值：CGTR 仅在奖励和长度尾部分布满足条件后刷新教师；MODE-RAG 只将高 VFE 样本路由到重干预；Safe Trigger 主要在高风险输入上激活 <safe>。
分布控制是一个共同母题：Q-Evolve 将策略改进约束在评论家支持范围内，Eevee 通过路由隔离提示词专门化，RODS 则让训练停留在能力边界附近，而不是过度采样已解决任务。
一个显著的评测模式是配对或反事实测试：MIRAGE 使用穆斯林/非穆斯林匹配提示词，TAC 使用受控场景变体，胸部放射影像审计会交换同标签图像，合成数据审计则比较训练集与留出集泄露。
许多系统现在是在冻结或大型骨干模型之上叠加小型结构化模块，而不是全量重训练：Semantic Flip 的 MLP 弃答头、VLESA 的 Q-filter、MIXGUARD 的校准模型，以及 Data2Story 中的来源/验证层。
精确或可执行验证正越来越多地被用作训练或评测原语：DeFAb 的多项式时间验证器、OpenAnt 的漏洞容器、ReproRepo 的隐藏 issue 恢复，以及 Data2Story 基于代码的声明检查。
在多模态工作中，主要失败并非原始感知，而是错误落地的整合：M3Eval 发现干扰与时间混淆；MODE-RAG 针对检索-视觉不匹配；胸部放射影像 VLM 常依赖先验而不是图像。
多篇论文表明，仅靠提示词的修复很脆弱：真实性增益在控制实验下消失，福利提示词帮助不均衡，偏见缓解也难以从直接生成迁移到 CoT/智能体场景。
安全论文越来越多地量化按成本调整的攻防表现：UniAttack 报告了较低查询/token 成本，OpenAnt 报告了可达性过滤带来的流水线成本节省，RL-Index 则将推理成本离线化以换取显著延迟收益。
基准正转向生命周期指标：Pass@Session、端到端工作流成功率、paper-any issue 恢复，以及长时程崩溃检测，都揭示了被逐轮或逐步平均值掩盖的失败。
一个反复出现的经验教训是：语义匹配成功率高于精确匹配成功率。这一点出现在可复现性审计、ATT&CK 技术识别和多个检索/抽取场景中，说明定位与格式化仍是薄弱环节。

4) Top 5 论文（附“为什么是现在”）

When Should the Teacher Move? Temporal Coupling and Stability in Self On-Policy Distillation
- 识别出教师更新调度是自蒸馏中的核心稳定性变量，而不是次要训练细节。
- 表明固定硬刷新会导致灾难性的“state-oblivious collapse”，而 CGTR 能避免崩溃，并在四个任务上取得最佳最终分数。
- 现在很有用，因为越来越多的后训练流水线依赖自生成监督和 on-policy 更新。
- 保留意见：证据来自单一模型家族且规模中等，因此其普适性仍未被证明。
Self-evolving LLM agents with in-distribution Optimization
- 结合 weighted IQL、源自 GAE 的过程奖励，以及接近行为策略的 PPO，在无需回溯或人工标签的情况下提升稀疏奖励智能体。
- 在 AlfWorld、WebShop 和 ScienceWorld 上超过强基线，并展现出显著的样本效率提升。
- 现在很有用，因为智能体 RL 正受限于稀疏奖励和脆弱的过程监督。
- 保留意见：回顾式奖励依赖结构化文本反馈，且跨迭代漂移问题尚未完全解决。
A Controlled Study of Decoding-Time Truthfulness Methods on Instruction-Tuned LLMs
- 提供了一个包含六类控制的评测框架，并表明许多 token 级真实性增益在 instruction-tuned 模型上会缩小甚至反转。
- 发现简单解码基线和审慎式提示往往优于更复杂的 token 级干预。
- 现在很有用，因为许多团队仍在考虑将轻量级推理时真实性补丁用于部署。
- 保留意见：范围仅限于两个模型家族和三个基准，因此其他场景中的小幅真实效应仍可能存在。
ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues
- 围绕真实 GitHub issue 重构可复现性评测，得到比手工整理设置更大、也更真实的基准。
- 表明静态、无执行的智能体可以为大多数论文找回语义相关的阻塞问题，同时保持较低误报。
- 现在很有用，因为智能体评测需要可扩展、可持续刷新的真实世界任务，而不是精品式小基准。
- 保留意见：GitHub issue 噪声大且不完整，静态审计也会遗漏仅在执行中暴露的失败。
Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward
- 总结了正在形成中的“agent skills”抽象，并强调了围绕社区贡献 skill 包的一个具体新安全表面。
- 汇总了基准进展、获取方法和安全证据，包括社区 skills 中报告的 26.1% 漏洞率。
- 现在很有用，因为 skills/MCP 风格封装正成为智能体的实用标准。
- 保留意见：其治理框架仍是提案，而不是经过实证验证的部署系统。

5) 实际下一步

为任何自蒸馏或自训练回路加入状态感知门控；记录教师刷新事件、奖励变化量和序列长度尾部分布，以检测崩溃前兆。
用会话级或工作流级指标评估智能体系统，而不只是逐轮准确率；显式跟踪错误累积。
在信任某种缓解方法之前，先在直接生成、CoT、智能体化和检索条件设置上做配对审计。
尽可能优先采用验证器支持或来源支持的输出：声明到代码的链接、可执行检查、结构化证据清单，或精确奖励函数。
如果在构建工具使用型智能体，优先测试面向边界的数据生成或回放选择，而不是不加区分地扩展静态语料。
对多模态系统，加入因果落地检查，如交换、遮挡或检索扰动，以验证模型确实在使用预期模态。
将 skills、提示词、合成输出和中间激活都视为安全表面；加入信任分级、沙箱和留出对照审计。
在上线前，用简单基线和严格控制去检验基于提示词的修复；多篇论文表明，表面增益往往只是评测伪影。

基于逐篇论文分析生成；未进行外部浏览。

评测开始具备生命周期意识。

核心要点

先读这篇：ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues

主题

值得优先阅读的论文

ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues

A Controlled Study of Decoding-Time Truthfulness Methods on Instruction-Tuned LLMs

Vision-language models for chest radiography do not always need the image

AI 论文洞察简报

2026-06-21

0) 执行要点（请先阅读）

2) 关键主题（聚类）

主题：真实世界智能体评测正在取代玩具基准

主题：在智能体化、多模态和时间耦合场景中，安全与偏见失效更严重

主题：训练阶段的稳定性与自适应课程正成为一等公民问题

主题：验证器、来源追踪与结构化审计优于朴素信任

主题：安全正在从提示攻击转向系统表面

3) 技术综合

4) Top 5 论文（附“为什么是现在”）

5) 实际下一步