核心要点

基准与评测质量是一阶瓶颈：多篇论文表明，噪声标注、结构性捷径、选择性归档以及与任务不匹配的指标，对模型表面进步的影响，往往比新的推理技巧更大。
推理时控制正变得更有针对性且更具机制性：今天最强的干预不再是泛化的“自我反思”，而是选择性的潜空间编辑、逐步对齐、校准后的反思触发，以及优先级化的人类复核。
Agent 可靠性的提升，越来越依赖模型外围的结构，而不只是更大的模型本身：记忆系统、确定性工具、技能库、验证后端和协议纪律，反复带来了显著收益。

先读这篇：Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

为什么先读： 建议先读这篇，因为它表明基准噪声可能盖过模型增益，并提供了一条可复用的修复流程。

建议重点质疑： 该审计覆盖的是精选子集和有限的模型家族，因此其对更广泛基准的影响仍不确定。

evaluation benchmark repair data quality

arXiv PDF

主题

评测本身就是产品 多篇论文指出，当前基准和公共记录会系统性地误报能力或安全性，因为评测底座本身存在缺陷。实际含义是，团队应将基准整理、归档设计和验证器质量视为核心基础设施，而不是“打扫卫生”式工作。

选择性干预优于常开式纠正 一个反复出现的模式是，当干预只施加在正确的层、步骤或不确定性区间时，可靠性会提升。这相比全局引导、强制模拟或统一对齐，能减少附带损伤。

Agent 脚手架正成为主要杠杆 许多最大的实际收益，来自于在固定或中等规模骨干模型周围加入记忆、技能、工具、验证器或结构化 RL 目标。这表明，在许多领域，前沿 Agent 的进展瓶颈可能更多在系统设计，而非纯粹的模型规模。

信号 基准质量如今已成为瓶颈。 FOLIO/MALLS 修复、数字重映射攻击、归档审计方法以及生物医学捷径分析都表明，评测伪影可能主导表面上的进展。

张力 结构有帮助，但证据仍然封顶性能。 DEEPRUBRIC、AdMem、OpenClaw-Skill 和 StepGuard 都提升了 Agent，但药物估值结果表明，专有证据仍然决定事实覆盖率和决策效用。

判断 选择性控制将胜过常开式纠正。 DCO、StepGuard、逐步 VLA 分析以及严格证明验证都更支持在高风险步骤进行定向干预，而不是统一反思或全局引导。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

如果你在评估推理模型，这篇很有用：它表明标签错误会实质性改变结论，并提供了一个实用的重标注工作流。

为什么现在值得读: 如果基准噪声大于所宣称的增益，那么推理进展就很难令人信服。
怀疑点: 结果在精选子集上最强，未必能完全预测更广泛基准生态中的表现。

arXiv PDF

AI Scientists Are Only as Good as Their Evidence: A Stratified Ablation of Proprietary Data and Reasoning Skills in Drug-Asset Valuation

这是一篇很强的配套论文，因为它在真实决策流程中清晰地区分了推理脚手架与证据获取的作用。

为什么现在值得读: 许多 Agent 论文声称提升了科学推理能力，却没有隔离出真正的驱动因素是否其实是数据获取。
怀疑点: 较小的基准规模以及 gold-set 可能存在的循环性，限制了结论的泛化范围。

arXiv PDF

Hallucinations as Orthogonal Noise: Inference-Time Manifold Alignment via Dynamic Contextual Orthogonalization

值得一读，因为它提供了一种机制性、无需训练的推理时方法，能够在不依赖泛化“自我反思”的情况下针对幻觉问题。

为什么现在值得读: 推理时可靠性研究正从宽泛的解码启发式，转向更有选择性的潜空间干预。
怀疑点: 该方法依赖其表示假设，并且需要一个可靠的上下文锚点。

arXiv PDF

英文版：/paper-news/2026-06-23/

运行统计

候选论文: 3675
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-06-19T00:00:00Z → 2026-06-20T00:00:00Z (weekend_backlog_sun, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2606.16121`	Invisible Manipulation Channels in AI-Assisted Financial Advisory: Implications for Market Integrity and Regulatory Design PDF	cs.CR	93	Shows stealthy inference-time manipulation of LLM outputs that evades output-based audits.	llm-security, manipulation, auditing, finance, watermarking
`2606.17815`	Beyond Native Success: Auditing Deployment-Interface Exposure of CLIP Backdoors PDF	cs.CR, cs.CL	90	Audits CLIP backdoors across deployment interfaces; strong security eval framework reuse value.	backdoors, CLIP, security, evaluation, multimodal
`2606.12830`	Perceive, Interact, Reason: Building Tool-Augmented Visual Agents for Spatial Reasoning PDF	cs.CV, cs.AI	90	Tool-augmented visual agent for spatial reasoning; strong agentic capability with reusable training setup.	agents, multimodal, tool-use, spatial-reasoning, VLM
`2606.02837`	Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling PDF	cs.CL, cs.AI	90	Audits major reasoning benchmarks; many label errors found, with corrected releases and relabeling framework.	benchmark, reasoning, data-quality, evaluation, neurosymbolic
`2606.17029`	DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents PDF	cs.CL	90	Rubric supervision for RL deep-research agents; strong agent quality/eval relevance.	agents, RL, evaluation, deep-research, rubrics
`2606.10799`	Evaluating Research-Level Math Proofs via Strict Step-Level Verification PDF	cs.AI	89	Step-level proof verification targets hallucination and context poisoning in LLM evaluation.	LLM-evaluation, verification, reasoning, hallucination, math
`2606.16774`	OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Models PDF	cs.AI, cs.CL	89	Skill-tree search for agentic LLMs; reusable tool-use skills with broad downstream relevance.	llm-agents, tool-use, skill-learning, tree-search, generalization
`2606.17005`	Bayesian Inference and Decision Audits for Public Archives of Frontier AI Evaluations PDF	cs.AI, stat.ME	89	Framework for auditing frontier AI eval archives under missingness and benchmark drift.	evaluation, frontier-models, bayesian-inference, auditing, benchmarks
`2606.12983`	Structured Testbench Generation for LLM-Driven HDL Design and Verification-Oriented Data Curation PDF	cs.AI	89	Structured verification for LLM-driven HDL; strong speed/coverage gains and reusable workflow.	LLM, verification, evaluation, code-generation, hardware
`2606.03327`	CAPER: Clause-Aligned Process Supervision for Text-to-SQL PDF	cs.DB, cs.CL	89	Clause-level process supervision for Text-to-SQL with concrete gains; reusable PRM idea.	LLM, process-supervision, reward-modeling, text-to-sql, reliability
`2606.09556`	AI Scientists Are Only as Good as Their Evidence: A Stratified Ablation of Proprietary Data and Reasoning Skills in Drug-Asset Valuation PDF	cs.AI	88	Careful ablation of evidence access vs reasoning in AI scientist agents; high agent reliability relevance.	agents, evaluation, evidence, reasoning, reliability
`2606.03603`	World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning PDF	cs.CV, cs.CL	88	Combines world models with MLLMs and adds benchmarks for controlled concrete vs abstract reasoning.	multimodal, reasoning, world-models, benchmarks, MLLM
`2606.19135`	A Technical Taxonomy of LLM Agent Communication Protocols PDF	cs.MA, cs.AI, cs.NI	88	Useful taxonomy of LLM multi-agent protocols; strong reuse value for agent interoperability/safety.	llm-agents, multi-agent, protocols, taxonomy, infrastructure
`2606.05872`	Entropy-Based Evaluation of AI Agents: A Lightweight Framework for Measuring Behavioral Patterns PDF	cs.AI, cs.CV	88	Lightweight agent-behavior metrics beyond success/cost; useful for auditing tool use and robustness.	agents, evaluation, safety, tool-use, robustness
`2606.03159`	NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation PDF	cs.CV, cs.AI, cs.RO	88	Real-time action-conditioned world model for closed-loop AV simulation; strong safety evaluation relevance.	world-models, autonomous-driving, simulation, safety-evaluation, video-generation
`2606.12411`	Context-Driven Incremental Compression for Multi-Turn Dialogue Generation PDF	cs.CL, cs.LG	88	Long-dialogue context compression with revisable memory; strong efficiency/reliability relevance for agents.	llm, agents, long-context, memory, efficiency, dialogue
`2606.03606`	Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks PDF	cs.CR, cs.AI	87	Automatic numeric-remapping attacks expose brittle arithmetic generalization in LLM reasoning.	LLM-evaluation, reasoning, robustness, adversarial, benchmark
`2606.06787`	AdMem: Advanced Memory for Task-solving Agents PDF	cs.AI	87	Unified semantic/episodic/procedural memory for long-horizon agents; strong practical agent relevance.	llm-agents, memory, long-horizon, multi-agent, retrieval
`2606.11906`	When Does Language Matter? Multilingual Instructions Reveal Step-wise Language Sensitivity in Vision-Language-Action Models PDF	cs.CL	87	Systematic multilingual robustness eval for VLA models; reveals step-wise failure modes and intervention.	robustness, multilingual, robotics, VLA, evaluation
`2606.17727`	LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings PDF	cs.AI	87	Long-horizon webpage generation benchmark with structural and functional agent-based eval.	benchmark, evaluation, web-agents, vlm, long-horizon
`2606.12854`	Small LLMs for Biomedical Claim Verification: Cost-Effective Fine-Tuning, Structural Dataset Shortcuts, and Cross-Domain Generalization PDF	cs.CL, q-bio.QM	87	Small LLM claim verification beats larger models; exposes dataset shortcut and tests cross-domain generalization.	LLM, factuality, evaluation, biomedical, small-models
`2606.17871`	StepGuard: Guarding Web Navigation via Single-Step Calibration PDF	cs.AI	87	Web agent robustness via step calibration and selective reflection; practical agent reliability.	web-agents, calibration, reflection, RL, reliability
`2606.03399`	Selective Token-Level Cryptographic Redaction for Privacy-Preserving Clinical Deployment of Large Language Models PDF	cs.CL, cs.CR	86	Token-level cryptographic redaction for clinical LLM use targets practical privacy-preserving deployment.	privacy, LLMs, clinical, security, deployment
`2606.05525`	SciVisAgentSkills: Design and Evaluation of Agent Skills for Scientific Data Analysis and Visualization PDF	cs.AI, cs.HC	86	Reusable agent skills plus benchmark for scientific workflows; strong agent evaluation value.	agents, benchmark, tool-use, scientific-workflows, evaluation
`2606.04381`	From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models PDF	cs.LG, cs.AI	86	Adds spatial modality to LLMs for geometric reasoning; notable frontier capability advance if claims hold.	llm, multimodal, reasoning, spatial, architecture
`2606.17986`	ShellGames: Speculative LLM-Driven SSH Deception PDF	cs.CR	85	LLM-driven SSH deception studies persistent-state, hallucination, and subversion limits in agents.	agents, security, LLM, cyber, deception
`2606.03022`	Hallucinations as Orthogonal Noise: Inference-Time Manifold Alignment via Dynamic Contextual Orthogonalization PDF	cs.CL, cs.AI	85	Inference-time method for LLM hallucination reduction via representation geometry; reliability-focused.	LLMs, hallucination, inference-time, representation, reliability
`2606.16175`	PAL-Bench: Evidence-Grounded Profile Reconstruction from Longitudinal Personal Albums PDF	cs.AI	85	Evidence-grounded multimodal benchmark with citation/provenance; useful for reliability and privacy-aware eval.	benchmark, multimodal, evidence-grounding, evaluation, provenance
`2606.07237`	When Large Language Models Fail in Healthcare: Evaluating Sensitivity to Prompt Variations PDF	cs.CL, cs.AI, cs.LG	85	Healthcare LLM prompt sensitivity study highlights reliability risks under natural and adversarial variation.	LLM-safety, robustness, healthcare, evaluation, adversarial
`2606.17642`	FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness PDF	cs.AI	85	Agent memory for multimodal financial reasoning targets reliability, tool use, and hallucination reduction.	llm-agents, memory, multimodal, tool-use, reliability

AI 论文洞察简报

2026-06-23

0) 执行要点（先读这个）

基准与评测质量是一阶瓶颈：多篇论文表明，噪声标注、结构性捷径、选择性归档以及与任务不匹配的指标，对模型表面进步的影响，往往比新的推理技巧更大。
推理时控制正变得更有针对性且更具机制性：今天最强的干预不再是泛化的“自我反思”，而是选择性的潜空间编辑、逐步对齐、校准后的反思触发，以及优先级化的人类复核。
Agent 可靠性的提升，越来越依赖模型外围的结构，而不只是更大的模型本身：记忆系统、确定性工具、技能库、验证后端和协议纪律，反复带来了显著收益。
在知识密集型领域，证据获取仍然是一个硬上限：更好的脚手架有助于校准，但在药物估值、金融等领域，专有或有落地依据的证据源仍决定事实覆盖率和决策效用。
安全研究正在向下栈迁移：多篇论文表明，风险存在于部署接口和基础设施层（采样、检查点复用、shell 交互、隐私预处理），而不只是在模型输出中。
长时程场景暴露出复合式失败模式：多语言机器人控制、网页导航、长网页、对话压缩和世界模型使用都表明，若不在正确步骤纠正，小的局部错误会级联放大。

2) 关键主题（聚类）

主题：评测本身就是产品

为什么重要：多篇论文指出，当前基准和公共记录会系统性地误报能力或安全性，因为评测底座本身存在缺陷。实际含义是，团队应将基准整理、归档设计和验证器质量视为核心基础设施，而不是“打扫卫生”式工作。
代表论文：
共同方法：
- 审计数据集或归档中的隐藏假设，而不只是比较模型分数。
- 在受控扰动下重新计算标签或结果，以隔离真实的推理鲁棒性。
- 将终局指标与过程级指标或覆盖感知指标分离。
- 使用结构化验证流水线（人类+LLM、符号检查、滚动起点回测）来定位评测失效的位置。
开放问题 / 失败模式：
- 在修复标注或移除捷径后，基准增益有多频繁会消失？
- 审计流水线能否扩展到精选子集之外，而不引入新的评审偏差？
- 公共排行榜应如何暴露不确定性、选择效应和基准修订？
- 保守的攻击生成或审计过滤器，可能会低估真实失败率。

主题：选择性干预优于常开式纠正

为什么重要：一个反复出现的模式是，当干预只施加在正确的层、步骤或不确定性区间时，可靠性会提升。这相比全局引导、强制模拟或统一对齐，能减少附带损伤。
代表论文：
共同方法：
- 使用梯度比率、置信度或 rollout 质量等内部信号识别高风险步骤。
- 仅对关键步骤、离群头或不确定决策施加纠正。
- 保持基础模型大体冻结，在推理时进行干预。
- 不仅评估最终成功率，也评估接受/拒绝行为、调用率以及在受损输入下的退化情况。
开放问题 / 失败模式：
- 当上下文锚点较弱或错位时，内部置信度或几何代理指标可能失效。
- 逐步方法可能对当前架构或模拟器过拟合。
- 选择性反思与对齐仍依赖良好的阈值和检索参考。
- 当世界模型输出“看似合理但任务错误”时，模拟质量仍是瓶颈。

主题：Agent 脚手架正成为主要杠杆

为什么重要：许多最大的实际收益，来自于在固定或中等规模骨干模型周围加入记忆、技能、工具、验证器或结构化 RL 目标。这表明，在许多领域，前沿 Agent 的进展瓶颈可能更多在系统设计，而非纯粹的模型规模。
代表论文：
共同方法：
- 将可复用的过程性知识外化为技能、记忆条目或 rubric 树。
- 使用奖励塑形或组相对 RL 改善长时程信用分配。
- 将语义、情景和过程状态分离，而不是只依赖上下文。
- 在真实的多步环境中衡量收益，而不是静态 QA。
开放问题 / 失败模式：
- 这些系统通常会增加显著的提示、rollout 或编排成本。
- 技能和记忆质量可能高度依赖具体 harness。
- 超出已评估模型家族和环境的迁移证据仍然薄弱。
- 长期记忆可能缓慢固化错误，或注入过时/无关的指导。

主题：有依据的证据与确定性工具，是反幻觉基础设施

为什么重要：在高风险领域，最强的模式不是“更好的提示工程”，而是用确定性工具、证据来源追踪和显式验证来约束模型。这在金融、数学、硬件验证和研究 Agent 中尤其明显。
代表论文：
共同方法：
- 用带证据引用的评分卡、定理账本、确定性引擎或 golden-reference 对比，替代自由形式生成。
- 将任务分解为可审计的局部步骤，而不是整体式判断。
- 使用外部工具处理算术、检索、模拟或编译。
- 显式跟踪完整性或来源，而不只是答案质量。
开放问题 / 失败模式：
- 更好的推理无法弥补缺失的专有证据或长尾证据。
- 对开放式或弱规格任务，可能不存在确定性后端。
- 严格验证可能过于保守，从而拒绝有效输出。
- 工具质量和语料覆盖会成为新的单点故障。

主题：安全与隐私风险依赖于接口

为什么重要：多篇论文表明，当模型通过真实接口部署时，安全假设会失效：采样层、检查点复用路径、云端临床流水线或交互式 shell 都会引入问题。只审计最终文本输出，会遗漏重要攻击面。
代表论文：
共同方法：
- 显式建模部署接口：采样、检索/重排、shell I/O 或 token 级预处理。
- 在真实操作约束下评估攻击与防御，而不是做玩具式输出检查。
- 使用结构化威胁模型和接口特定指标。
- 将系统设计与部署指南或监管含义配套考虑。
开放问题 / 失败模式：
- 基于输出的审计和水印可能漏掉更底层的操控。
- 隐私保护预处理仍会泄露结构，并依赖密钥管理。
- 接口特定暴露程度，可能会随候选池、提示或复用模式剧烈变化。
- 有状态欺骗系统在文件系统真实性和长会话行为上仍存在现实差距。

3) 技术综合

多篇论文用语义对齐的中间单元替代粗粒度终局奖励：子句级 SQL 奖励、步骤级证明验证、逐步 VLA 敏感性和单步网页校准，都在直接解决信用分配问题。
检索正变得越来越有选择性，而非无条件调用：C-DIC 检索线程特定的潜在槽位，FinAcumen 通过相似度阈值门控记忆，PF-OPSD 选择性调用模拟，多语言 VLA 对齐只编辑关键步骤。
多项工作采用“冻结骨干 + 外部结构”作为主导配方：FinAcumen、HERALD、DCO、STG 和 SciVis skills 都在不重度重训核心模型的情况下改善了行为。
验证流水线常将符号或确定性组件与 LLM 判断结合：NL→FOL 中的 Z3 等价性、HDL 中的 Verilator/Icarus、证明检查中的定理账本，以及网页评测中的浏览器/DOM 执行。
鲁棒性诊断正从聚合准确率转向条件化或分层视角：仅攻击样本算术准确率、PAL-Bench 中的 hard-target PIR、LongWebBench 中按页面/任务/步骤的成功率，以及药物估值中的 informed-DQ。
多篇工作揭示，不对称性是捷径学习的重要信号：HealthVer→SciFact 迁移良好，而 SciFact→HealthVer 崩塌；某些 CLIP 后门只通过特定部署接口迁移；多语言 VLA 失败集中在导航原语上。
人类工作正在被优化，而不是被移除：FOLIO/MALLS 使用 LLM 辅助优先排序进行重标注，而归档裁决和 PAL-Bench 则形式化了哪些部分应继续由评估者控制。
成本/延迟在系统论文中被视为一等指标：OmniDreams 报告实时 FPS，STG 报告运行时/能耗，HERALD 报告预处理开销，ShellGames 报告延迟降低，DEEPRUBRIC 报告 RL GPU 小时。
证据完整性反复作为“推理”表现背后的隐藏变量出现：药物估值中的专有语料访问、金融中的确定性数据面板，以及 PAL-Bench 中的公有/私有证据契约，都表明缺失证据会封顶效用。
许多方法依赖带阈值的控制旋钮（τ、K、置信触发器、关键步骤截断、检索深度），这表明广泛需要校准研究，而不是一次性的基准胜利。

4) 前 5 篇论文（以及“为什么是现在”）

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling
- 发现广泛使用的 NL→FOL 基准中存在严重标注错误率：FOLIO 验证集有 38.9% 的形式化不正确，抽样的 MALLS 测试集中有 36% 不正确。
- 表明基准修复会实质性改变测得的模型质量，重新评估后的增益为 +9 到 +22 点。
- 提出一个实用的人类+LLM 复核流水线，在最佳设置下，仅审查约 24% 的 FOLIO 和约 13% 的 MALLS，即可使数据集准确率达到 90%。
- 为什么现在有用：如果你依赖形式推理基准，这直接警告你：基准噪声可能比你的模型改进还大。
- 持保留态度之处：范围限于精选子集和三个 LLM 家族。
Hallucinations as Orthogonal Noise: Inference-Time Manifold Alignment via Dynamic Contextual Orthogonalization
- 提出一种机制性的潜空间干预方法，相对于上下文锚点，抑制正交的注意力头分量。
- 报告称其在忠实性、事实性以及部分推理场景上带来提升，同时避免了静态 steering 方法常见的回退。
- 单次前向、无需训练，复杂度与所选层/头/模型宽度线性相关。
- 为什么现在有用：这是对泛化解码技巧的一个具体替代方案，也契合当前朝向机制性推理时控制的趋势。
- 持保留态度之处：依赖线性表示框架，并且需要有意义的上下文锚点。
AI Scientists Are Only as Good as Their Evidence: A Stratified Ablation of Proprietary Data and Reasoning Skills in Drug-Asset Valuation
- 在一个真实科学决策任务中，清晰区分了推理脚手架带来的收益与专有证据访问带来的收益。
- 表明加入专有数据后，事实召回从 0.38 跃升到 0.96，而 informed decision quality 从 2.57 提升到 7.43。
- 证明更好的脚手架能适度改善校准/客观性，但无法弥合证据缺口。
- 为什么现在有用：对于任何在构建“AI scientist”系统、并试图判断进步究竟来自推理还是数据访问的人来说，这都非常及时。
- 持保留态度之处：gold-set 循环性和较小的基准规模限制了其泛化范围。
Structured Testbench Generation for LLM-Driven HDL Design and Verification-Oriented Data Curation
- 用面向结构、确定性的验证方式，替代随机式 LLM testbench 生成，并针对组合逻辑、时序逻辑和 FSM 密集设计进行了定制。
- 报告称在大规模整理任务中，testbench 生成速度提升 720×、覆盖率更高、编译成功率达 100%，并显著节省运行时间和能耗。
- 还通过减少平均节点数 14–47%（跨四个骨干模型），改善了下游搜索循环。
- 为什么现在有用：这是一个强有力的例子，说明确定性验证器如何为代码/设计 Agent 解锁可扩展的数据整理和测试时搜索。
- 持保留态度之处：最强结果出现在已知参考设置和基准规模 RTL 上。
Invisible Manipulation Channels in AI-Assisted Financial Advisory: Implications for Market Integrity and Regulatory Design
- 识别出一种采样层攻击：它能在保持水印完整的同时，偏置金融推荐，并规避六种黑盒检测器。
- 给出基于 KL 的可检测性论证，并在实验中将方向性关键词放大约 1.8–1.9×。
- 表明在所述威胁模型下，PRNG/CSPRNG 防御失效，而 QRNG+TEE 在实验中能够阻断该攻击。
- 为什么现在有用：这强调了，如果合规方案只关注输出文本或水印存在性，可能会漏掉基础设施层面的操控。
- 持保留态度之处：实验使用的是 7B 模型和有限提示集，因此在部署规模上的普遍性仍有待检验。

5) 实际下一步

在宣称模型增益之前，先审计你的核心基准是否存在标注噪声、结构性捷径和条件化评测伪影；优先处理那些小改动就可能颠覆结论的数据集。
在 Agent 评测中加入过程级诊断：每步准确率、干预触发率、检索命中质量、证据完整性和失败定位，应与最终成功率并列呈现。
优先采用选择性的推理时控制，而不是常开式反思或全局 steering；衡量干预是否确实只在高风险步骤上有帮助，而不损害干净样本。
对于高风险领域，在实验中将推理质量与证据获取分开；报告覆盖感知指标，而不只是润色后的最终答案。
在可能的地方构建确定性工具后端，用于算术、检索、验证、模拟或浏览器执行，并在接口边界强制进行来源/引用检查。
直接对部署接口做压力测试：采样层、检查点复用路径、shell 或浏览器交互循环，以及隐私预处理流水线，都需要各自的威胁模型和审计。
如果你运行长时程 Agent，与其只堆更大的骨干模型，不如投资外部记忆/技能/rubric；然后显式基准化其成本、延迟和陈旧记忆失败模式。
对于多语言或多模态具身系统，记录逐步敏感性热点和原语级失败集中区；用这些信息来定向分配对齐或微调预算。

根据逐篇论文分析生成；未进行外部浏览。

评测正在成为基础设施。

核心要点

先读这篇：Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

主题

值得优先阅读的论文

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

AI Scientists Are Only as Good as Their Evidence: A Stratified Ablation of Proprietary Data and Reasoning Skills in Drug-Asset Valuation

Hallucinations as Orthogonal Noise: Inference-Time Manifold Alignment via Dynamic Contextual Orthogonalization

AI 论文洞察简报

2026-06-23

0) 执行要点（先读这个）

2) 关键主题（聚类）

主题：评测本身就是产品

主题：选择性干预优于常开式纠正

主题：Agent 脚手架正成为主要杠杆

主题：有依据的证据与确定性工具，是反幻觉基础设施

主题：安全与隐私风险依赖于接口

3) 技术综合

4) 前 5 篇论文（以及“为什么是现在”）

5) 实际下一步