AI 论文日报(2026-05-06)
Published:
English version: /paper-news/2026-05-06/
运行统计
- 候选论文: 258
- 入选论文: 30
- 已精读完成: 30
- 时间窗口 (UTC): 2026-05-04T00:00:00Z → 2026-05-05T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
| arXiv ID | 标题 / 链接 | 分类 | 评分 | 入选理由 | 标签 |
|---|---|---|---|---|---|
2605.02187 | When Alignment Isn't Enough: Response-Path Attacks on LLM Agents | cs.CR, cs.AI | 96 | High-impact agent security threat: post-alignment relay tampering breaks BYOK agents with 99.1% ASR. | agent-security, integrity, prompt-injection, BYOK, red-teaming |
2605.02269 | Towards Understanding Specification Gaming in Reasoning Models | cs.AI | 96 | Open benchmark on LLM specification gaming; directly studies agent failure modes and RL effects. | agent-safety, specification-gaming, evaluation, reasoning-models, benchmark |
2605.02682 | Hybrid Inspection and Task-Based Access Control in Zero-Trust Agentic AI | cs.AI | 95 | Directly targets agent tool-use authorization and runtime enforcement in zero-trust settings. | agent-safety, security, tool-use, authorization, zero-trust |
2605.02751 | Mitigating Misalignment Contagion by Steering with Implicit Traits | cs.AI, cs.CL | 95 | Directly studies multi-agent LM misalignment contagion and mitigation; highly safety-relevant. | llm-safety, multi-agent, alignment, steering, evaluation |
2605.02812 | Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense | cs.CR | 94 | Systematic study of persistent agent worm propagation and defenses in multi-agent LLM ecosystems. | agent-security, worms, persistent-memory, multi-agent, defense |
2605.02647 | ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming | cs.CL, cs.CR | 92 | Automated multi-turn jailbreak red-teaming via conversational priming targets a key real-world attack surface. | jailbreaks, red-teaming, multi-turn, alignment, adversarial-evaluation |
2605.02199 | MEMAUDIT: An Exact Package-Oracle Evaluation Protocol for Budgeted Long-Term LLM Memory Writing | cs.AI | 92 | Auditable protocol for long-term agent memory writing; strong relevance to reliable agentic systems. | agents, memory, evaluation, reliability, auditing |
2605.02202 | CBV: Clean-label Backdoor Attacks on Vision Language Models via Diffusion Models | cs.AI | 92 | Backdoor attacks on VLMs via clean-label diffusion poisoning; strong security relevance. | vlm-security, backdoor, data-poisoning, diffusion, adversarial-ml |
2605.02196 | DurableUn: Quantization-Induced Recovery Attacks in Machine Unlearning | cs.LG | 91 | Important privacy/safety result: INT4 quantization can recover supposedly unlearned content by up to 22x. | machine-unlearning, privacy, quantization, llm-security, compliance |
2605.02178 | T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning | cs.AI | 91 | Targets instability in multi-turn agent RL with uncertainty-guided exploration control. | agentic-rl, reasoning, training-stability, uncertainty, llm-agents |
2605.02661 | AcademiClaw: When Students Set Challenges for AI Agents | cs.AI, cs.CY | 90 | Real student-sourced long-horizon agent benchmark with isolated environments; high practical eval value. | agents, benchmark, long-horizon, evaluation, academic-tasks |
2605.02495 | Efficient Preference Poisoning Attack on Offline RLHF | cs.LG, cs.AI, stat.ML | 89 | Preference poisoning exposes offline RLHF/DPO supply-chain risk with efficient targeted attack methods. | RLHF, DPO, data-poisoning, alignment, security |
2605.02363 | When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models | cs.CL, cs.AI, cs.LG | 89 | Targets structured-output reliability, crucial for tool use and agent deployment. | llm-reliability, structured-output, json, agents, evaluation |
2605.02398 | The Compliance Trap: How Structural Constraints Degrade Frontier AI Metacognition Under Adversarial Pressure | cs.AI, cs.CL, cs.LG | 88 | Large-scale eval of metacognitive collapse under adversarial pressure; directly relevant to frontier AI safety. | evaluation, metacognition, adversarial-robustness, frontier-models, safety |
2605.02240 | PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments | cs.AI | 88 | Real-world EHR benchmark for long-horizon LLM agents with verifiable execution in clinical workflows. | agents, benchmark, healthcare, evaluation, long-horizon |
2605.02395 | Controllable and Verifiable Process Data Synthesis for Process Reward Models | cs.AI | 88 | Controllable, verifiable process data synthesis for PRMs could improve reasoning supervision. | process-reward-models, reasoning, alignment, synthetic-data, verification |
2605.02411 | FitText: Evolving Agent Tool Ecologies via Memetic Retrieval | cs.AI, cs.IR, cs.LG, cs.MA | 88 | Dynamic tool retrieval inside the reasoning loop is highly relevant for scalable agent capability. | agents, tool-use, retrieval, tool-selection, framework |
2605.02503 | DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis | cs.AI | 87 | Process-level benchmark for exploratory data-analysis agents with milestone annotations and noisy real data. | agents, benchmark, process-supervision, data-analysis, evaluation |
2605.02626 | Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models | cs.LG | 86 | Stabilizes DPO training and addresses probability collapse in preference optimization. | dpo, alignment, preference-optimization, training-stability, llms |
2605.02348 | Decoding-Time Debiasing via Process Reward Models: From Controlled Fill-in to Open-Ended Generation | cs.CL, cs.LG | 86 | Decoding-time debiasing with PRMs is practical for safer generation without weight updates. | alignment, bias, process-reward-models, decoding, safety |
2605.02255 | On the Privacy of LLMs: An Ablation Study | cs.CR, cs.AI | 85 | Useful unified ablation of LLM privacy attacks across architecture, scale, data, and retrieval settings. | privacy, membership-inference, data-extraction, RAG, security-evaluation |
2605.02545 | Strategy-Aware Optimization Modeling with Reasoning LLMs | cs.AI | 85 | Post-training for strategy-aware optimization with verified data and GRPO shows concrete gains. | llm-reasoning, post-training, grpo, verification, optimization |
2605.02168 | Planner Matters! An Efficient and Unbalanced Multi-agent Collaboration Framework for Long-horizon Planning | cs.AI, cs.LG, cs.MA | 84 | Multi-agent planning framework with compute-allocation insight; useful for efficient long-horizon agents. | agents, planning, multi-agent, efficiency, long-horizon |
2605.02472 | Accurate Legal Reasoning at Scale: Neuro-Symbolic Offloading and Structural Auditability for Robust Legal Adjudication | cs.CL | 84 | Neuro-symbolic offloading with auditable traces for legal reasoning is strong reliability work. | neuro-symbolic, auditability, legal-reasoning, reliability, agents |
2605.02469 | Reference-Sampled Boltzmann Projection for KL-Regularized RLVR: Target-Matched Weighted SFT, Finite One-Shot Gaps, and Policy Mirror Descent | cs.LG, cs.AI | 84 | Theoretical clarification of RLVR vs weighted SFT could matter for scalable verifier-based alignment. | alignment, rlvr, kl-regularization, theory, sft |
2605.02443 | HalluScan: A Systematic Benchmark for Detecting and Mitigating Hallucinations in Instruction-Following LLMs | cs.CL | 83 | Comprehensive hallucination benchmark with routing and mitigation; practical for reliability evaluation. | hallucinations, benchmark, evaluation, reliability, mitigation |
2605.02206 | Metric Unreliability in Multimodal Machine Unlearning: A Systematic Analysis and Principled Unified 评分 | cs.CV, cs.LG | 83 | Systematic analysis of unreliable multimodal unlearning metrics; proposes unified scoring for evaluation. | unlearning, multimodal, evaluation, safety, privacy |
2605.02435 | Generalized Distributional Alignment Games for Unbiased Answer-Level Fine-Tuning | cs.LG, stat.ML | 82 | Addresses estimator bias in answer-level fine-tuning games with provable unbiased methods. | alignment, fine-tuning, distributional-alignment, theory, training |
2605.02504 | A multilingual hallucination benchmark: MultiWikiQHalluA | cs.CL | 81 | Multilingual hallucination benchmark across many languages; valuable for reliability beyond English. | hallucination, multilingual, benchmark, reliability, evaluation |
2605.02122 | STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems | cs.LG, cs.AI | 80 | Evaluation framework for stable, disagreement-aware AI ranking; broadly reusable for model assessment. | evaluation, human-judgment, uncertainty, benchmarking, reliability |
AI 论文洞察简报
2026-05-06
0) 执行摘要(先读这个)
- Agent 评估正从最终答案打分转向基于执行、感知过程、感知稳定性的测量。多篇论文指出,当前基准高估了能力,因为它们忽略了标注者分歧、中间里程碑、结构化输出有效性,或真实环境中的执行情况。
- 一个反复出现的系统经验是:在长时程 Agent 中,架构与控制比原始模型规模更重要。以规划器为中心的分解、不确定性引导的探索控制、动态工具检索,以及神经符号卸载,相比单体式 Agent 设置都报告了显著提升。
- 安全研究正越来越多地瞄准生成后与持久化系统的攻击面,而不只是提示注入。BYOK 中继篡改、自主 Agent 蠕虫、上下文多轮越狱、干净标签 VLM 后门,以及离线 RLHF 投毒,都暴露了传统“对齐后的模型输出”威胁模型之外的漏洞。
- 多篇论文表明,部署阶段的变换会破坏审计假设:量化可能撤销机器遗忘,中继基础设施可以绕过对齐,结构化输出也可能“正确但不可用”。仅在训练时或仅以 BF16 审计已不再足够。
- 偏好/RL 微调仍然很脆弱。新工作识别出小批量估计器偏差、DPO squeezing,以及多轮 RL 崩溃,并提出了无偏/方差感知估计器、梯度门控、token/turn 级探索控制等修复方法。
- 对实践者而言,实际前沿已经很清晰:对整条技术栈进行端到端埋点与控制——响应完整性、记忆写入、工具授权、输出模式、部署精度,以及过程检查点都需要显式控制。
2) 关键主题(聚类)
主题:评估正在变得过程感知且部署感知
- 为什么重要:多篇论文认为,标准基准分数掩盖了部署中真正重要的失败模式:排名不稳定、结构化输出无效、中间进展不佳,以及在真实环境中的执行失败。共同趋势是评估完整的操作契约,而不只是最终正确性。
- 代表论文:
- STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems
- PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments
- DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis
- When Correct Isn’t Usable: Improving Structured Output Reliability in Small Language Models
- 常见方法:
- 用更丰富的信号替代单一硬标签或仅最终答案指标:后验期望得分、检查点、里程碑、JSON 有效性,或基于执行的评分。
- 在具有工具调用和状态变化的真实环境中评估,而不是静态 QA。
- 分离不同失败来源:抽取 vs 选择、推理 vs 执行、正确性 vs 可解析性。
- 在可能时使用可认证或可审计的分母,而不只是启发式评分。
- 开放问题 / 失败模式:
- 这些更丰富的指标在多大程度上能跨领域迁移,而不变成特定基准专用?
- 许多协议仍部分依赖 LLM 裁判或稀疏人工标注。
- 小样本或稀疏场景仍然困难:STABLEVAL 指出低密度标注下存在不稳定性;HalluScan 使用的样本非常小。
- 过程指标可以诊断失败,但本身并不能提供能稳定改进 Agent 的训练信号。
主题:长时程 Agent 受益于分解、检索自适应与控制
- 为什么重要:在网页、操作系统、工具使用和数据分析场景中,多篇论文都趋向于同一观点:单体式 Agent 之所以失败,是因为它把规划、执行、检索和记忆管理混在一个脆弱循环中。专门化模块和环内控制能同时提升成功率与计算效率。
- 代表论文:
- Planner Matters! An Efficient and Unbalanced Multi-agent Collaboration Framework for Long-horizon Planning
- T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning
- FitText: Evolving Agent Tool Ecologies via Memetic Retrieval
- MEMAUDIT: An Exact Package-Oracle Evaluation Protocol for Budgeted Long-Term LLM Memory Writing
- 常见方法:
- 将规划与行动、记忆分离,然后把更多容量或 RL 更新分配给规划器。
- 使用 token 级和 turn 级不确定性信号,在更细粒度上控制探索。
- 将检索移入推理循环,使工具搜索能随任务展开而自适应。
- 将记忆写入视为预算约束下的优化问题,而不是下游 QA 代理指标。
- 开放问题 / 失败模式:
- 以规划器为中心的系统仍会继承冻结 actor 的错误,以及粗粒度信用分配问题。
- 重检索方法可能变得依赖基础模型,并且 token 开销高。
- 记忆评估是 package-conditional 的;实际写入器仍需要估计效用,而不是 oracle 边际值。
- 超出当前步数限制的更长时程场景仍探索不足。
主题:安全威胁正在超越提示注入
- 为什么重要:这里最强的一批安全论文针对的是 Agent 技术栈中的结构性弱点:中继、持久记忆、工具授权、被投毒的数据集,以及多轮对话上下文。这意味着,如果周边系统可以重写、持久化或错误路由动作,那么仅靠模型对齐是不够的。
- 代表论文:
- When Alignment Isn’t Enough: Response-Path Attacks on LLM Agents
- Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense
- ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming
- Hybrid Inspection and Task-Based Access Control in Zero-Trust Agentic AI
- 常见方法:
- 对完整系统威胁面建模:中继篡改、持久载体、多轮诱导,以及与意图不一致的工具访问。
- 使用自动化搜索或分析发现高收益攻击:进化式变异器、代码属性图、语义任务-工具匹配。
- 评估跨模型、跨平台迁移,而不只是在单一技术栈内测试。
- 将攻击与架构级防御配对,如时间信道检测、时间重入约束,或零信任拦截。
- 开放问题 / 失败模式:
- 许多防御只是部分有效:基于延迟的检测需要较长会话;语义授权在多轮场景下会退化。
- 一些结果依赖黑盒裁判或未公开工件,限制了精确复现。
- 闭源和生产系统可能暴露出与开源测试平台不同的载体表面。
- 强烈的提供商差异表明,防御可能更像是针对特定攻击配方,而非通用方案。
主题:对齐与偏好优化正遭遇优化病理
- 为什么重要:多篇论文识别出偏好学习和 RL 中的失败模式,这些问题并不只是“需要更多数据”:而是结构性估计器偏差、破坏性的拒绝响应梯度,以及不稳定探索。这些都是算法层面的问题,即使目标函数本身合理,也会扭曲训练。
- 代表论文:
- Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models
- Generalized Distributional Alignment Games for Unbiased Answer-Level Fine-Tuning
- Reference-Sampled Boltzmann Projection for KL-Regularized RLVR: Target-Matched Weighted SFT, Finite One-Shot Gaps, and Policy Mirror Descent
- Efficient Preference Poisoning Attack on Offline RLHF
- 常见方法:
- 在估计器或梯度层面分析训练动态,而不只是比较最终指标。
- 为 KL 正则化目标和小批量估计器推导闭式目标或偏差项。
- 引入轻量修复:梯度门控、离线查表估计器、加权 SFT 投影。
- 将偏好数据的对抗操纵视为梯度空间中的几何问题来研究。
- 开放问题 / 失败模式:
- 多篇论文理论成分较重,或实证上仅单次运行;仍需更广泛验证。
- 固定参考或对数线性假设在现代大规模流水线中可能不成立。
- 用离线方法替代在线 RL 仍面临支持集/覆盖率障碍。
- 对被投毒或设定错误的偏好数据的鲁棒性仍然较弱。
主题:部署变换正在打破审计假设
- 为什么重要:一个值得注意的论文簇表明,在流水线某一阶段做出的安全/隐私声明,可能在部署变换后失效,例如量化、中继介入,或多语言/分词变化。这是在提醒我们:不能只评估“干净的”训练时工件。
- 代表论文:
- DurableUn: Quantization-Induced Recovery Attacks in Machine Unlearning
- Metric Unreliability in Multimodal Machine Unlearning: A Systematic Analysis and Principled Unified Score
- A multilingual hallucination benchmark: MultiWikiQHalluA
- HalluScan: A Systematic Benchmark for Detecting and Mitigating Hallucinations in Instruction-Following LLMs
- 常见方法:
- 在与部署相关的条件下进行压力测试:INT4 量化、多语言设置、可恢复性探测、成本感知检测路由。
- 比较多个指标,并展示它们存在系统性分歧。
- 引入复合或部署感知指标,如 UQS、Q-INT4、HalluScore,或答案级幻觉率。
- 验证“通过”某一指标后,是否仍存在可恢复或隐藏的失败模式。
- 开放问题 / 失败模式:
- 复合指标有助于排序,但仍可能继承 oracle 或权重设定假设。
- 小型基准和合成标签限制了某些幻觉结论的可信度。
- 当前对量化鲁棒遗忘的实现似乎会与保留精度产生尖锐权衡。
- 跨语言幻觉估计可能受到分词和分类器假阳性的混淆。
主题:结构化、符号化、可审计的卸载正在回潮
- 为什么重要:多篇论文通过将关键推理迁移到类型化、符号化或受约束的表示中来提升可靠性,而不是依赖自由形式的运行时推理。这在法律、优化和过程监督等重视可审计性的场景中尤其有吸引力。
- 代表论文:
- 常见方法:
- 用 LLM 一次性完成编译、合成或策略提议,然后依赖确定性执行或验证。
- 将潜在结构显式化:类型化条款图、首错标签、策略分段。
- 依据求解器/证明器支持的信号进行训练或评估,而不只是文本相似度。
- 强调审计轨迹和结构化诊断。
- 开放问题 / 失败模式:
- 表达能力仍受符号底层或模板库限制。
- 若未被捕获,编译错误会变成确定性的失败模式。
- 向开放域泛化的能力尚不明确。
- 一些系统依赖强外部工具或裁判(求解器、证明器、专家评审)。
3) 技术综合
- 多篇论文用更细粒度的控制或评分替代粗粒度轨迹级监督:T2PO 使用 token/turn 级不确定性,Gate-DPO 对 rejected 梯度做门控,STABLEVAL 保留后验样本不确定性,而 process-PRM synthesis 标注首错结构。
- 一个共同模式是为了可辨识性而做分解:规划器 vs actor vs memory、任务抽取 vs 任务-工具匹配、记忆写入中的抽取 vs 选择、正确性 vs JSON 有效性,以及数据分析 Agent 中的检索 vs 推理。
- 多项工作揭示了支持集/覆盖率才是隐藏瓶颈:BOLT 的 one-shot gap 取决于目标支持缺失,FitText 表明检索是约束瓶颈,MEMAUDIT 则形式化了预算约束下的候选覆盖问题。
- 安全论文越来越多地建模事后完整性失效,而不只是模型失当行为:响应路径伪造、持久载体重入、工具调用替换,以及中继侧重写都绕过了标准对齐假设。
- 评估论文反复表明,单一指标具有误导性:在多模态遗忘中,FA vs RA vs AD/JS 彼此不一致;没有可解析性的任务准确率在操作上等于 0 效用;只看最终答案的评分会掩盖部分过程进展。
- 多种方法使用离线预计算来降低在线成本:BOLT 预计算 Boltzmann 权重,DACL 一次性编译合同,MEMAUDIT 计算精确 package 最优值,而 AloLab 通过一次性提示优化成本换回接近基线的推理延迟。
- 一个显著趋势是judge-in-the-loop 系统增多,但角色各不相同:VLM-as-judge 用于规划器 RL,LLM 裁判用于幻觉和基准评分,语义裁判用于越狱搜索。这提升了可扩展性,但也带来了对裁判可靠性的共同依赖。
- 鲁棒性工作越来越明确地测试部署变换:量化、标注者子采样、多语言分词、中继介入,以及受约束解码开销,都会实质性改变结论。
- 多篇论文表明,能力并不是鲁棒性的唯一决定因素:Constitutional AI 似乎对 compliance trap 有抵抗力,Anthropic 模型能抵御某些上下文越狱迁移,而规划器扩展可能比扩展所有模块更重要。
- 在各类 Agent 基准中,主导性失败仍然是推理与协同,而不只是工具语法:PhysicianBench 将约一半失败归因于临床推理;DataClaw 表明即使清洗数据后,困难任务仍然很难;AcademiClaw 发现更多 token 并不能换来更好的结果。
4) Top 5 论文(附“为什么是现在”)
When Alignment Isn’t Enough: Response-Path Attacks on LLM Agents
- 形式化了 BYOK 部署中的一个结构性完整性缺口:中继可以在对齐之后、Agent 执行之前重写模型输出。
- 在 AgentDojo 和 ASB 上展示了很强的实证攻击效果,其中 RTA-PostForge 在 AgentDojo 上达到 73.5% ASR,同时保留 47.6% utility,并在 ASB 上也有很高 ASR。
- 现在很有用,因为许多生产级 Agent 技术栈依赖中继、路由器或中间件,它们会终止 TLS,并被默认信任。
- 也很有价值,因为它将提示注入重新定位为威胁模型的一部分而非全部;响应真实性成为一项一等安全需求。
- 保留意见:该威胁模型特定于 BYOK 中继部署,且提出的时间信道检测在较长会话中效果最好。
T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning
- 将“犹豫”识别为多轮 RL 不稳定性的一个具体来源:过长但低信息量的思考,以及重复的无效轮次。
- 引入由自校准不确定性信号驱动的 token 级截断和 turn 级重采样,并在 WebShop、ALFWorld 和 Search QA 上取得提升。
- 现在很有用,因为多轮 Agent RL 正在成为标准做法,而训练崩溃/高方差是主要实践瓶颈。
- 尤其可操作,因为它更像一个即插即用的控制层,而不是完整替换优化器。
- 保留意见:效果依赖阈值调优,并且仍继承流水线 rollout 带来的 off-policy 陈旧性问题。
Planner Matters! An Efficient and Unbalanced Multi-agent Collaboration Framework for Long-horizon Planning
- 提供了相当直接的证据,表明规划器容量主导端到端长时程 Agent 性能;仅扩展规划器几乎能达到扩展所有模块的效果。
- 展示了多 Agent 分解和仅规划器 RL 带来的显著提升,包括在 WebVoyager、OSWorld 和 MCPBench 上的改进。
- 现在很有用,因为许多团队仍在过度投资单体式 Agent 或均匀扩展,而不是针对规划瓶颈。
- 它提供了一个计算分配经验:把模型规模和 RL 预算花在最关键的地方。
- 保留意见:RL 期间 actor 和 memory 都被冻结,因此执行失败仍然存在;15 步上限也可能低估更长时程下的失败模式。
DurableUn: Quantization-Induced Recovery Attacks in Machine Unlearning
- 表明即使 BF16 审计显示遗忘成功,INT4 量化仍可能恢复已遗忘内容。
- 提出了面向部署的 durability 框架,以及量化感知缓解方法 DURABLEUN-SAF,并在 TOFU 上实现了多随机种子的 durability certificate。
- 现在很有用,因为低比特部署已成常态,这使得仅基于 BF16 的遗忘审计可能误导隐私/合规声明。
- 论文的主要贡献既是算法性的,也是流程性的:应在部署精度下评估遗忘,而不只是训练精度。
- 保留意见:当前鲁棒方案会严重损害 retain accuracy,因此更像是存在性证明,而非可直接生产落地的修复。
PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments
- 将 Agent 评估带入真实的、基于 FHIR 的 EHR 环境,包含 100 个经医生验证的长时程任务和 670 个检查点。
- 表明即使是顶级模型也远未达到可靠自治:最佳 pass@1 仅为 46.3%,且约一半失败来自临床推理。
- 现在很有用,因为医疗是高风险领域,静态 QA 基准在这里尤其具有误导性。
- 更广泛地说,它体现了基准从静态评分转向基于执行、具状态、贴近领域现实的评估。
- 保留意见:范围限于 e-consult 风格的 EHR 工作流,不包括更广泛的多模态或协作式临床场景。
5) 实际下一步
- 为 Agent 技术栈加入响应完整性检查:记录并验证执行器实际消费的精确模型输出,尤其是在中继/BYOK 架构中。
- 对任何遗忘或隐私敏感模型,在部署精度(INT8/INT4)下进行评估,而不只是 BF16;在审计中加入类似 Q-INT4/Q-INT8 的报告。
- 对长时程 Agent,进行分别扩展规划器、actor、检索、记忆的消融实验,在投入更多算力前先识别真实瓶颈。
- 用token/turn 级诊断为 Agent 训练做埋点:平均思考长度、重复轮次率、不确定性轨迹,以及跨随机种子的崩溃指标。
- 用过程检查点和操作性指标替代仅最终答案基准:可解析性、工具状态正确性、里程碑完成度,以及基于执行的成功率。
- 对使用工具的 Agent,部署零信任拦截:在执行前验证工具定义、工具调用来源、参数完整性,以及任务-工具语义对齐。
- 对 Agent 进行多轮上下文越狱和持久记忆攻击压力测试,而不只是单轮提示注入。
- 在结构化且高风险的领域,原型化一次编译的神经符号卸载或类型化中间表示,而不是反复进行自由形式运行时推理。
- 在偏好优化中,监控chosen-response likelihood 和 mass dynamics,而不只是成对 margin 改善,以便及早发现 DPO 式 squeezing。
- 对记忆系统,将写入时质量与检索/读取器质量分开;审计写入器究竟是在抽取正确事实、在预算下做选择,还是仅仅过量生成不可用笔记。
基于逐篇论文分析生成;未进行外部浏览。
