核心要点

评估正从静态能力测试转向贴近部署形态的基准：今天最强的一批论文强调动态调度、长文本评审、用户体验、价值冲突、代码执行框架，以及企业级部署前保障，而不再只看原始任务准确率。
一个反复出现的模式是，脚手架往往与基础模型同样重要：执行框架、批评器、验证器、适配器和控制器，在多模态任务、GUI 控制、代码智能体以及安全对齐的端侧部署中都带来了显著提升。
RAG 和携带上下文的系统仍然是主要攻击面，但失效模式正在多样化：除了经典提示注入，论文还展示了通过受污染检索实现成本耗尽、因安全过度反应导致品牌压制，以及长时程上下文投毒。

先读这篇：Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

为什么先读： 它挑战了一种被广泛使用的评估捷径，表明在真实文档长度下，长文本 LLM 评审器的可靠性仅属中等。

建议重点质疑： 基准覆盖面较强，但未测试检索增强或多智能体评审器架构。

evaluation llm-as-judge long-form reliability

arXiv PDF

主题

贴近部署现实的评估正在取代静态基准 许多论文认为，当前基准高估了系统就绪度，因为它们忽略了部分可观测性、长文档、用户行为、监管约束或执行框架效应。因此，研究正更强烈地转向能够映射真实运行条件、并更早暴露失效模式的评估。

执行框架、批评器与验证器正成为一等能力放大器 多篇论文表明，即使是冻结模型或仅做轻量调优的模型，只要包裹上更好的执行逻辑、验证或批评机制，性能也能显著提升。这意味着短期收益可能更多来自系统设计，而不是重新训练更大的基础模型。

RAG 与持久上下文系统面临新的攻击类别 攻击面正从直接提示攻击转向对检索文档、持久记忆和安全训练行为的间接操控。这在运营上很重要，因为这些攻击可以通过共享语料和标准智能体流水线进行规模化传播。

信号 静态评估正在失去公信力。 工作场景智能体、长文本评审器、UXBench、代码执行框架和企业级保障，都在测试静态准确率基准无法覆盖的真实运行条件。

张力 脚手架有帮助，但也会增加脆弱性。 MUSE、具备落地依据的批评器、分层工具学习和完整性闸门都改善了结果，但它们依赖验证器、编排以及额外的系统复杂度。

判断 RAG 安全正在走向操作化。 今天的攻击瞄准成本膨胀、品牌压制、路由安全和上下文投毒，推动防御转向审计、控制器和可执行边界。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

如果你依赖可扩展评估，这篇论文很有用：它表明长文本评审器的准确性远弱于短文本结果所暗示的水平。

为什么现在值得读: 研究智能体和审阅工作流越来越依赖对长输出进行评审。
怀疑点: 它基本没有测试更新的评审器设计，包括检索增强或多智能体变体。

arXiv PDF

Inference Cost Attacks for Retrieval-Augmented Large Language Models

它将 RAG 投毒重新定义为可用性和成本问题，而不只是事实性问题。

为什么现在值得读: RAG 已成为默认基础设施，因此 token 成本放大正变成一种现实的生产风险。
怀疑点: 结果展示基于三个 QA 数据集，并假设攻击者能够注入可被检索到的文档。

arXiv PDF

MUSE: A Unified Agentic Harness for MLLMs

这是一个很强的例子，展示了系统设计如何通过验证器、工具和修复循环胜过单纯扩大模型规模。

为什么现在值得读: 在快速变化的多模态基础模型中，执行框架层面的增益是少数具有持久性的杠杆之一。
怀疑点: 它的收益可能依赖于可靠的任务特定验证器和确定性工具。

arXiv PDF

英文版：/paper-news/2026-06-14/

运行统计

候选论文: 2527
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-06-12T00:00:00Z → 2026-06-13T00:00:00Z (weekend_backlog_unknown, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2606.10747`	The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment PDF	cs.AI	95	Directly targets monitoring emergent misalignment in multi-agent LLM conversations.	agent-safety, multi-agent, monitoring, misalignment, evaluation
`2606.09315`	Brain-Prompt Injection: A Route-Safety Audit for BCI-LLM Agents PDF	cs.CR, cs.AI	94	Novel audit framework for BCI-LLM agent routing attacks; strong agent safety relevance.	agent-safety, prompt-injection, BCI, auditing, tool-use, security
`2606.09204`	The Injection Paradox: Brand-Level Suppression in Safety-Trained LLM Recommendations via RAG Context Injection PDF	cs.LG, cs.CL, cs.CR	94	Concrete prompt-injection finding in RAG; safety training causes measurable brand suppression side effect.	RAG, prompt-injection, LLM-safety, security, evaluation
`2606.02643`	Inference Cost Attacks for Retrieval-Augmented Large Language Models PDF	cs.CR, cs.AI, cs.DB	93	Targets RAG via KB poisoning to inflate inference cost; practical security risk with clear attack model.	RAG, security, data-poisoning, inference-cost, adversarial
`2606.02947`	BYORn: Bootstrap Your Own Responses to Defend Large Vision-Language Models Against Backdoor Attacks PDF	cs.LG, cs.CV	92	Concrete defense against VLM backdoor attacks in open-ended fine-tuning settings.	security, backdoor-defense, VLM, robustness, fine-tuning
`2606.09388`	Distilling Safe LLM Systems via Soft Prompts for On Device Settings PDF	cs.LG	92	Practical safety distillation for on-device LLMs; strong relevance to deployable guardrails.	llm-safety, distillation, on-device, guardrails, alignment
`2606.04037`	Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification PDF	cs.AI, cs.LG, cs.SE	91	Pre-deployment assurance framework for enterprise AI agents with scenario generation and certification.	agents, assurance, verification, certification, enterprise-ai, safety
`2606.03793`	Exploring Adversarial Robustness and Safety Alignment in Multilingual Multi-Modal Large Language Models PDF	cs.CL, cs.CV	91	Systematic multilingual MLLM safety/robustness study shows cross-lingual adversarial transfer.	multimodal, safety, adversarial, multilingual, evaluation
`2606.09178`	Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis PDF	cs.CL, cs.AI	91	Shows translated safety benchmarks miss culturally grounded risks; strong red-teaming relevance.	red-teaming, multilingual, safety-evaluation, jailbreaks, benchmark
`2606.12344`	Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks PDF	cs.LG, cs.CL	91	Benchmark for coding agents with fair harness comparison; highly reusable for agent evaluation.	agents, benchmark, coding, evaluation, SWE-bench
`2606.02958`	Echelon: Auditable Aggregate-Only Language-Model Adaptation Across Privacy Boundaries PDF	cs.CR, cs.AI	91	Boundary-first LM adaptation with auditable aggregate-only exchange is highly relevant to privacy-safe deployment.	privacy, federated-learning, auditing, governance, lm-adaptation, security
`2606.09570`	UXBench: Benchmarking User Experience in AI Assistants PDF	cs.CL, cs.HC	91	Real-user UX benchmark for assistants; strong alignment/eval relevance and broad reuse potential.	benchmark, alignment, evaluation, user-experience, assistants
`2606.11078`	A History-Aware Visually Grounded Critic for Computer Use Agents PDF	cs.AI, cs.CL, cs.CV	91	History-aware, visually grounded critic for computer-use agents; strong agent reliability relevance.	agents, computer-use, multimodal, test-time, reliability, GUI
`2606.01629`	Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation PDF	cs.CL	91	Long-form LLM-as-judge benchmark targets a key reliability gap in scalable evaluation.	evaluation, llm-as-a-judge, reliability, benchmark, long-form
`2606.09499`	Targeting World Models to Compromise Robot Learning Pipelines PDF	cs.RO, cs.AI, cs.CR	90	Shows stealthy poisoning of robot learning via world models; important AI supply-chain risk.	robotics, data-poisoning, world-models, supply-chain, safety, security
`2606.03695`	Don't Forget Your Embeddings: Robust Knowledge Erasure via Precise Editing of Embeddings PDF	cs.CL	90	Knowledge erasure for safety/compliance with adversarial recovery explicitly considered.	unlearning, model-editing, safety, compliance, robustness
`2606.09371`	Capability-Aligned Hierarchical Learning for Tool-Augmented LLMs PDF	cs.AI	90	Joint planner-executor RL for tool LLMs; strong agentic relevance and concrete benchmark gains.	agents, tool-use, hierarchical-RL, alignment, evaluation
`2606.03312`	RobotValues: Evaluating Household Robots When Human Values Conflict PDF	cs.RO, cs.AI	90	10K benchmark for robot value conflicts directly targets embodied AI alignment and evaluation.	robotics, alignment, benchmark, human-values, evaluation, safety
`2606.09475`	Emergent alignment and the projectability of ethical personas PDF	cs.AI, cs.LG	90	Directly studies emergent alignment via finetuning and ethical personas; strong alignment relevance.	alignment, finetuning, personas, constitutional-ai, safety
`2606.09118`	ComplexConstraints and Beyond: Expert Rubrics for RLVR PDF	cs.AI	89	Rubric-based evaluation for complex instruction following and enterprise agents is broadly reusable.	evaluation, agents, instruction-following, rubrics, llm-judge
`2606.02866`	When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning PDF	cs.AI, cs.CL, cs.MA	89	Large study of multi-agent debate finds when it helps or harms; actionable reliability insight.	multi-agent, debate, reliability, evaluation, data-cleaning
`2606.11145`	OpenPCC: Open and Confidential LLM Serving on Commodity TEEs PDF	cs.CR	89	Confidential LLM serving on commodity TEEs; strong privacy/security relevance for deployed agents.	llm-security, privacy, TEE, deployment, confidential-compute
`2606.05748`	UNIVID: Unified Vision-Language Model for Video Moderation PDF	cs.MM, cs.AI, cs.CL	89	Unified VLM for video moderation with interpretable policy-aware captions; strong safety deployment relevance.	multimodal, moderation, safety, policy-alignment, evaluation
`2606.09500`	Deterministic Integrity Gates for LLM-Assisted Clinical Manuscript Preparation: An Auditable Biomedical Informatics Architecture PDF	cs.AI, cs.DL	89	Auditable integrity gates for LLM writing; concrete verification architecture for high-stakes use.	safety, verification, auditing, clinical, hallucination
`2606.12212`	Mind your key: An Empirical Study of LLM API Credential Leakage in iOS Apps PDF	cs.SE, cs.CR	89	First empirical study of LLM API key leakage in iOS apps with dynamic analysis framework.	security, LLM-apps, credential-leakage, mobile, evaluation
`2606.03005`	MUSE: A Unified Agentic Harness for MLLMs PDF	cs.CV, cs.AI	89	Agentic harness for frozen MLLMs with verification/repair could strongly improve reliability.	agents, multimodal, tool-use, verification, reasoning
`2606.10322`	Game-Theoretic Multi-Agent Control for Robust Contextual Reasoning in LLMs PDF	cs.CR, cs.MA	88	Targets prompt injection and context poisoning across turns with controller-based MCP defense.	prompt-injection, context-poisoning, multi-agent, MCP, security, LLM-agents
`2601.08173`	The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios PDF	cs.AI	88	Dynamic workplace benchmark for agent learning, exploration, and scheduling beyond static tasks.	agents, benchmark, evaluation, exploration, scheduling
`2606.05792`	Can LLMs Write Correct TLA+ Specifications? Evaluating Natural-Language-to-TLA+ Generation PDF	cs.AI, cs.LG, cs.LO, cs.SE	88	Systematic evaluation of LLMs generating formal specs; strong reliability signal.	evaluation, reliability, formal-methods, code, LLMs
`2606.02800`	Cosmos 3: Omnimodal World Models for Physical AI PDF	cs.CV, cs.AI, cs.LG, cs.MM, cs.RO	88	Potentially major frontier omnimodal world model with broad agent impact and strong claimed results.	frontier-models, multimodal, world-models, agents, physical-AI

AI 论文洞察简报

2026-06-14

0) 执行要点（请先阅读）

评估正从静态能力测试转向贴近部署形态的基准：今天最强的一批论文强调动态调度、长文本评审、用户体验、价值冲突、代码执行框架，以及企业级部署前保障，而不再只看原始任务准确率。
一个反复出现的模式是，脚手架往往与基础模型同样重要：执行框架、批评器、验证器、适配器和控制器，在多模态任务、GUI 控制、代码智能体以及安全对齐的端侧部署中都带来了显著提升。
RAG 和携带上下文的系统仍然是主要攻击面，但失效模式正在多样化：除了经典提示注入，论文还展示了通过受污染检索实现成本耗尽、因安全过度反应导致品牌压制，以及长时程上下文投毒。
多篇论文揭示了当前监督工具中的“虚假信心”：LLM 评审器对长文本输出只有中等可靠性，直接翻译式安全评测会低估多语言风险，而较低的不安全率可能反映的是理解失败，而非真实对齐。
多智能体方法并非总是有益：辩论可能损害生成，却有助于检测；而监控/控制层若缺乏明确的落地依据、预算和恢复逻辑，则可能导致涌现式失配或上下文漂移。
安全/隐私研究正变得更具操作性：可审计的仅聚合训练、基于 TEE 的机密服务、iOS API 密钥泄露测量，以及确定性完整性闸门，都强调可执行的系统契约，而非理想化的政策宣示。

2) 关键主题（聚类）

主题：贴近部署现实的评估正在取代静态基准

为什么重要：许多论文认为，当前基准高估了系统就绪度，因为它们忽略了部分可观测性、长文档、用户行为、监管约束或执行框架效应。因此，研究正更强烈地转向能够映射真实运行条件、并更早暴露失效模式的评估。
代表论文：
常见方法：
- 围绕真实工件构建基准：流式任务、9k token 输出、真实用户日志，或仓库级代码工作流。
- 拆分以往基准混淆的潜变量，例如模型 vs 执行框架 vs 适配器。
- 使用比总体准确率更丰富的指标：检查点分数、BAD recall、apply-failure rate、成本、延迟和恢复质量。
- 强调中间失效模式，而不仅仅是最终成功。
开放问题 / 失效模式：
- 基准的真实性仍依赖手工规则、合成标签或单一产品数据集。
- 基于 LLM 的评审器在多条流程中仍是薄弱环节。
- 单次运行或狭窄领域评估可能夸大排序稳定性。
- 更高的真实性通常也会增加评估成本和复杂度。

主题：执行框架、批评器与验证器正成为一等能力放大器

为什么重要：多篇论文表明，即使是冻结模型或仅做轻量调优的模型，只要包裹上更好的执行逻辑、验证或批评机制，性能也能显著提升。这意味着短期收益可能更多来自系统设计，而不是重新训练更大的基础模型。
代表论文：
常见方法：
- 在冻结或轻量适配的模型外围加入确定性验证器、修复循环或具备落地依据的批评器。
- 利用任务特定结构：模拟器支持的检查、GUI 坐标标记、模式验证器或内容哈希清单。
- 将失败转化为可执行反馈，而不是标量式拒绝。
- 优先优化执行前预防，而不只是事后检测。
开放问题 / 失效模式：
- 这些系统通常依赖可靠的任务特定验证器，限制了通用性。
- 额外调用与编排会增加延迟和工程复杂度。
- 手工设计执行框架仍是瓶颈。
- 批评器在细微感知或开放式生成上仍可能失效。

主题：RAG 与持久上下文系统面临新的攻击类别

为什么重要：攻击面正从直接提示攻击转向对检索文档、持久记忆和安全训练行为的间接操控。这在运营上很重要，因为这些攻击可以通过共享语料和标准智能体流水线进行规模化传播。
代表论文：
常见方法：
- 将攻击建模为对外部上下文的控制，而不是对用户提示的控制。
- 评估隐蔽目标：保持答案正确、规避检测，或满足一致性谓词。
- 引入控制器或审计层，对上下文更新、路由或执行进行闸控。
- 衡量系统级结果，如 token 成本膨胀、品牌压制、漂移或被路由的不安全动作。
开放问题 / 失效模式：
- 大多数防御仍停留在提示层或控制器层，可能无法解决检索层根本脆弱性。
- 若干研究使用了范围受限的设定：静态语料、白盒访问或有限时域。
- 安全过度反应与上下文漂移背后的机制仍未被充分确定。
- 端到端检索、切块和下游动作循环通常没有被完整建模。

主题：监督工具若缺乏落地依据、校准与文化感知，就会很脆弱

为什么重要：在评审、红队测试和多语言安全中，一个共同结论是：表面上的安全性或评估质量可能具有误导性。系统看起来像是对齐了，可能只是因为它没理解输入、评审器有偏差，或翻译后的提示遗漏了真实本地威胁语境。
代表论文：
常见方法：
- 用专家评分细则、文化适配提示或场景特定参考，替代浅层标签。
- 审计评审器的顺序偏差、上下文溢出、自偏好和拒答伪影。
- 区分真实拒答/对齐与理解失败。
- 使用更密集的奖励/评估信号来暴露可训练的失效模式。
开放问题 / 失效模式：
- LLM 评审器仍表现出不稳定性、家族偏差和场景依赖。
- 文化适配成本高，且往往依赖人工。
- 评分细则构建质量高，但劳动密集。
- 更好的评估若没有评审器校准，并不会自动转化为稳健的训练信号。

主题：对齐正走向系统契约、可审计边界与定向适配

为什么重要：多篇论文不再停留于泛泛的“更安全模型”表述，而是转向明确契约：哪些信息可以跨边界传递、应遵循哪些价值、哪些内容应被擦除，或哪些安全行为可以蒸馏到受限硬件上。
代表论文：
常见方法：
- 定义明确不变量或目标：不导出每设备状态、按价值条件选择动作、擦除概念，或蒸馏拒答行为。
- 使用轻量适配层或局部编辑，而不是完整重训练。
- 在迁移、再学习或冲突指令下评估鲁棒性。
- 将经验结果与可审计工件或形式化框架配对。
开放问题 / 失效模式：
- 许多结果仍局限于小/中型模型、LoRA 设定或合成环境。
- 当显式价值与模型默认倾向冲突时，对齐仍然较弱。
- 蒸馏或编辑后的系统可能继承基础模型脆弱性。
- 可审计性并不意味着完整隐私、差分隐私（DP）或对抗鲁棒性。

3) 技术综合

可验证性正在成为一种设计原语：论文反复使用确定性检查、执行轨迹、检查点评分、模式验证或形式解析器/模型检查器，而不是依赖自由形式的自我评估。
若干强结果来自将任务分解为可控子问题：CAHL 中的 planner/executor，Cosmos 3 中的 reasoner/generator，Echelon 中的 boundary/global planes，以及 Claw-SWE-Bench 中的 adapter/orchestrator。
奖励塑形正变得更密集、更结构化：带专家评分细则的 RLVR、用于对抗文档生成的 MA-GRPO，以及用于工具使用的高/低层可验证奖励，都在替代稀疏的终任务奖励。
跨智能体分歧越来越常被当作信号使用，但论文表明它必须有落地依据：辩论有助于检测，却可能损害生成；GT-MCP 增加的是因果一致性与漂移控制，而不只是达成一致。
长上下文评估是跨领域薄弱点：长文本评审器会遭遇溢出与顺序偏差，持久上下文系统会随时间漂移，工作场景智能体会因任务并发而退化。
安全失效往往源于系统交互，而非基础模型意图：RAG 投毒、执行框架缺陷、不安全代理以及世界模型投毒，都在利用周边基础设施。
多篇论文表明，“调用更多次”并不能解释性能提升：MUSE 优于计算量匹配的 self-consistency，而具备落地依据的批评器也优于通用语言式或标量式批评器。
多语言安全评估需要拆分能力与对齐：较低的不安全率可能反映理解差，而直接翻译会系统性低估风险。
鲁棒性研究正从直接提示攻击转向供应链与间接攻击：受污染语料、训练数据后门、世界模型投毒以及泄露的 API 凭证。
成本如今已成为基准契约的一部分：Claw-SWE-Bench、OpenPCC、Echelon 和 UNIVID 都会同时报告延迟、吞吐或美元成本与质量指标。

4) 前 5 篇论文（附“为什么是现在”）

1. Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

提出了 LongJudgeBench，用于五类场景、六个数据集上的文档级评审，输出平均长度约为 9,249.7 token。
表明当前长文本评审器的可靠性仅属中等：平均准确率 0.5627，最佳配置 Qwen3-Max + Reference 为 0.6721。
识别出对研究智能体产品具有直接现实意义的失效模式：顺序偏差、上下文窗口溢出和安全策略拒答。
为什么是现在：团队越来越多地将 LLM 评审器用于长报告、研究智能体和审阅工作流，但这篇论文表明，这些流水线远没有短文本评审结果所暗示的那样可信。
存疑点 / 局限性：基准覆盖面虽广但并不穷尽，也未测试更先进的评审器架构，如检索增强或多智能体评审。

2. Inference Cost Attacks for Retrieval-Augmented Large Language Models

形式化定义了针对检索增强大语言模型的推理成本攻击：受污染的外部文档在保持答案正确的同时抬高 token 使用量。
CREEP + MA-GRPO 实现了显著的成本放大，据报告，对 GPT-5 的最大加权 token 消耗比可达 13.12×。
展示了跨数据集和受害模型的迁移性，说明攻击模式并非狭义过拟合。
为什么是现在：RAG 正成为默认基础设施，而这篇论文将投毒重新定义为一种可用性/成本攻击，而不只是事实性攻击。
存疑点 / 局限性：评估范围仅限于三个 QA 数据集，以及一个能够注入可检索文档的黑盒攻击者。

3. MUSE: A Unified Agentic Harness for MLLMs

展示了一个黑盒执行框架，结合验证器、感知工具和修复循环，能够在多种视觉任务上实质性提升冻结的 MLLM。
提升幅度大且具体：例如 GPT-4o 在 CoMT 上从 101 个正确提升到 175 个；Word Search 从 3 提升到 21。
消融实验表明，提升并不只是来自额外采样；计算量匹配的 self-consistency 无法解释这些收益。
为什么是现在：前沿多模态模型变化很快，而执行框架层面的改进是产品团队少数具有持久性、且与模型无关的杠杆之一。
存疑点 / 局限性：适用性依赖于可靠的任务特定验证器和确定性工具。

4. When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning

给出了一个少见的负面结果：辩论会降低生成式工作流质量，但会显著提升错误检测。
识别出其机制是“批评诱发混淆”，并给出一个预测条件来判断辩论何时有帮助：按可修复性加权后的批评器验证胜算，必须超过生成器准确率胜算。
展示了一个实用修复方案：代码执行落地 + 证据门控生成，带来了首个相对单智能体生成的显著辩论收益（+5.3pp）。
为什么是现在：多智能体辩论正在被广泛采用，且常常缺乏任务特定论证；这篇论文给出的是决策规则，而不是一概乐观。
存疑点 / 局限性：测试拓扑主要是双智能体 Generator–Critic 结构，且数据表规模相对较小。

5. OpenPCC: Open and Confidential LLM Serving on Commodity TEEs

提出了一个开放的机密推理栈，使用 Intel TDX + NVIDIA H100 机密计算，并通过组合证明将会话密钥绑定到经证明的代码。
在 Llama-3 8B 上报告了较低的服务开销：首 token 时间（TTFT）中位数开销为 6.73%，解码吞吐开销约为 3.78%。
将 OpenPCC 的软件开销与底层 TEE 硬件基线开销分离，使部署权衡更加清晰。
为什么是现在：机密推理正从厂商特定宣称走向可审计的基础设施要求，尤其是在企业和受监管部署中。
存疑点 / 局限性：当前原型为单 GPU，未完全解决网络匿名性问题，且旁路信道不在研究范围内。

5) 实际下一步

将贴近部署形态的评估加入你的技术栈：至少测试长文本评审、持久上下文漂移、任务并发和恢复行为，而不只看最终答案准确率。
将执行框架设计视为可调的产品表面：在默认认为模型升级是主要杠杆之前，先基准化验证器引导修复、具备落地依据的批评器和适配器质量。
对 RAG 系统，分别测量三类风险：事实污染、token 成本放大，以及由注入上下文引发的安全过度反应/压制效应。
用文化适配提示而非仅靠直接翻译来审计多语言安全；并分别跟踪拒答率与理解能力，以避免“因失败而安全”的虚假安慰。
如果使用 LLM 评审器，加入参考答案/评分细则变体、顺序偏差检查和溢出诊断；不要把单一评审分数当作长输出的真实标签。
对工具或 GUI 智能体，记录无效调用、冗余调用、静默失败和执行前批评器干预；这些指标往往比任务成功率本身更可操作。
在受监管或企业环境中，定义明确的系统契约：哪些状态可以跨边界传递、批准需要哪些证据、以及事后哪些工件可被审计。
对受限设备上的安全适配，测试轻量蒸馏或 soft-prompt 方法，并与双模型守卫基线对比，同时纳入过度拒答和对抗鲁棒性检查。

基于逐篇论文分析生成；未进行外部浏览。

评估正在走向操作化。

核心要点

先读这篇：Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

主题

值得优先阅读的论文

Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

Inference Cost Attacks for Retrieval-Augmented Large Language Models

MUSE: A Unified Agentic Harness for MLLMs

AI 论文洞察简报

2026-06-14

0) 执行要点（请先阅读）

2) 关键主题（聚类）

主题：贴近部署现实的评估正在取代静态基准

主题：执行框架、批评器与验证器正成为一等能力放大器

主题：RAG 与持久上下文系统面临新的攻击类别

主题：监督工具若缺乏落地依据、校准与文化感知，就会很脆弱

主题：对齐正走向系统契约、可审计边界与定向适配

3) 技术综合

4) 前 5 篇论文（附“为什么是现在”）

1. Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

2. Inference Cost Attacks for Retrieval-Augmented Large Language Models

3. MUSE: A Unified Agentic Harness for MLLMs

4. When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning

5. OpenPCC: Open and Confidential LLM Serving on Commodity TEEs

5) 实际下一步