AI 论文日报(2026-05-08)

Published:

English version: /paper-news/2026-05-08/

运行统计

  • 候选论文: 278
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-05-06T00:00:00Z → 2026-05-07T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2605.04785AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use
PDF
cs.AI, cs.CR95Runtime interception for agent tool use is highly deployment-relevant safety work with concrete controls.agent-safety, tool-use, runtime-monitoring, guardrails, security
2605.05116On the Hardness of Junking LLMs
PDF
cs.LG95Studies jailbreaks via promptless token triggers/natural backdoors; highly relevant to LLM safety.llm-safety, jailbreaks, backdoors, adversarial-prompts, robustness
2605.04431Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning
PDF
cs.SE, cs.AI94Targets fragile RL post-training with a new failure benchmark and automatic failure management.LLM post-training, RFT, reliability, benchmark, automation
2605.04808DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents
PDF
cs.AI93Controllable red-teaming platform for AI agents targets realistic, reproducible agent security evaluation.agent-safety, red-teaming, evaluation, agents, security-benchmarks
2605.04992You Snooze, You Lose: Automatic Safety Alignment Restoration through Neural Weight Translation
PDF
cs.CR93Restores safety after unsafe LoRA merges while preserving skills; practical open-model guardrail work.alignment, lora, safety-restoration, open-source-llms, guardrails
2605.05058SoK: Robustness in Large Language Models against Jailbreak Attacks
PDF
cs.CR, cs.AI92Systematizes jailbreak robustness and proposes a multidimensional evaluation framework for LLM security.jailbreaks, llm-safety, survey, evaluation, security
2605.04572From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning
PDF
cs.AI, cs.LG91Analyzes fine-tuning safety degradation dynamics and scores risky samples; strong alignment relevance.alignment, fine-tuning, safety-degradation, risk-scoring, llm-reliability
2605.05112Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime
PDF
cs.LG91Targets agentic RL efficiency for SWE-bench-style systems with a clear control principle and gains.agentic-rl, evaluation, reasoning, training-efficiency, SWE-bench
2605.04454Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone
PDF
cs.AI, cs.HC, cs.LG, cs.SE90Important alignment argument: model-level benchmarks alone miss deployment-level alignment evidence.alignment, evaluation, deployment, reliability, ai-safety
2605.04543UniVer: A Unified Perspective for Multi-step and Multi-draft Speculative Decoding
PDF
cs.CL, cs.LG90Unified speculative decoding for multi-step/multi-draft trees; strong LLM inference efficiency relevance.LLM inference, speculative decoding, efficiency, decoding, transformers
2605.04446Misrouter: Exploiting Routing Mechanisms for Input-Only Attacks on Mixture-of-Experts LLMs
PDF
cs.CR89Input-only attack on MoE routing exposes a practical new safety/security failure mode for hosted LLMs.moe, adversarial-attacks, jailbreaks, llm-security, frontier-models
2605.05090Automatically Finding and Validating Unexpected Side-Effects of Interventions on Language Models
PDF
cs.CL, cs.AI89Automated auditing pipeline finds intended and unintended behavior changes after LM interventions.auditing, evaluation, model-interventions, unlearning, knowledge-editing
2605.05040Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization
PDF
cs.LG, cs.AI88Preference-based self-distillation for LLMs; directly relevant to post-training stability and reasoning.LLM, alignment, self-distillation, preference-learning, reasoning
2605.04615Beyond Retrieval: A Multitask Benchmark and Model for Code Search
PDF
cs.SE, cs.AI88Contamination-limited multitask code search benchmark and reranker for realistic retrieval pipelines.code search, benchmark, retrieval, reranking, evaluation
2605.05003Misaligned by Reward: Socially Undesirable Preferences in LLMs
PDF
cs.CL, cs.AI, cs.CY87Probes reward models for socially undesirable preferences across safety, bias, morality, and ethics.reward-models, alignment, social-preferences, safety-evaluation, rlhf
2605.05025Detecting Hallucinations in Large Language Models via Internal Attention Divergence Signals
PDF
cs.CL87Lightweight single-pass hallucination detection using internal attention signals; practical reliability angle.LLM, hallucination, uncertainty, interpretability, reliability
2605.05166The First Token Knows: Single-Decode Confidence for Hallucination Detection
PDF
cs.CL, cs.AI86Single-decode first-token confidence for hallucination detection is efficient and deployment-friendly.hallucination, uncertainty, factuality, evaluation, confidence
2605.04458DoGMaTiQ: Automated Generation of Question-and-Answer Nuggets for Report Evaluation
PDF
cs.CL, cs.IR86Automates QA nugget generation for evaluating long-form citation-backed RAG reports.RAG, evaluation, long-form generation, QA nuggets, report assessment
2605.04700Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization
PDF
cs.CR, cs.AI, cs.CL, cs.LG, cs.SD85Shows sparse token-aware jailbreaks on audio language models, extending multimodal attack understanding.audio-language-models, jailbreaks, multimodal-safety, adversarial-attacks, security
2605.04530SADE: Symptom-Aware Diagnostic Escalation for LLM-Based Network Troubleshooting
PDF
cs.NI, cs.AI84Agentic troubleshooting with explicit phase-gated policy; useful for reliable tool-using agents.agents, tool-use, reliability, workflow, evaluation
2605.05134Low-Cost Black-Box Detection of LLM Hallucinations via Dynamical System Prediction
PDF
cs.LG, math.DS84Black-box hallucination detection without sampling or retrieval; useful if results hold across domains.LLM, hallucination, black-box, uncertainty, factuality
2605.05103Text Corpora as Concept Fields: Black-Box Hallucination and Novelty Measurement
PDF
cs.CL, cs.AI, cs.CY84Black-box, corpus-attributable hallucination and novelty metric with uncertainty for groundedness checks.hallucination, groundedness, evaluation, uncertainty, black-box
2605.05007Uno-Orchestra: Parsimonious Agent Routing via Selective Delegation
PDF
cs.AI83Unified routing/decomposition policy for multi-agent systems with strong efficiency and benchmark gains.agents, orchestration, routing, efficiency, multi-agent
2605.04960EP-GRPO: Entropy-Progress Aligned Group Relative Policy Optimization with Implicit Process Guidance
PDF
cs.LG, cs.AI83Improves GRPO credit assignment for LLM reasoning with dense self-supervised guidance.llm-reasoning, rlvr, grpo, post-training, credit-assignment
2605.04956KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels
PDF
cs.LG, cs.PF83Benchmark for LLM-generated GPU kernels with failure analysis; reusable eval for code-generation limits.benchmark, LLM, code-generation, evaluation, efficiency
2605.04893Self-Attention as Transport: Limits of Symmetric Spectral Diagnostics
PDF
cs.LG, cs.CL, stat.ML82Theoretical attention diagnostic work tied to hallucination failure modes and information-flow asymmetry.interpretability, attention, hallucination, theory, diagnostics
2605.05191LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents
PDF
cs.AI81Adaptive context orchestration for long-horizon search agents could improve scalable agent reliability.agents, long-context, search, context-management, reasoning
2605.04719Every Step Counts: Step-Level Credit Assignment for Tool-Integrated Text-to-SQL
PDF
cs.CL81Step-level credit assignment for tool-integrated Text-to-SQL improves process supervision.tool-use, agents, process-supervision, text-to-sql, reinforcement-learning
2605.04453StableI2I: Spotting Unintended Changes in Image-to-Image Transition
PDF
cs.CV, cs.AI81Evaluates unintended changes in image-to-image systems; strong benchmark value for model reliability.evaluation, multimodal, image-to-image, robustness, benchmark
2605.05000Agentic Vulnerability Reasoning on Windows COM Binaries
PDF
cs.CR, cs.LG80Agentic vulnerability reasoning with debugger-verified PoCs is impactful for cyber-agent capability and risk.cybersecurity, agents, vulnerability-discovery, tool-use, offensive-ai

AI 论文洞察简报

2026-05-08

0) 执行要点(请先阅读)

  • 评估正在从仅看模型分数,转向系统级与过程级测量。 多篇论文指出,部署中的行为取决于脚手架、上下文、工具和交互设计,而不只是模型权重;并通过新的基准对此进行支撑,涵盖智能体安全、后训练失效、代码搜索、图像编辑保真度以及干预副作用等。
  • 智能体/工具安全如今已成为一类一线运营问题。 最强的安全论文聚焦于运行时拦截、真实红队环境以及端到端漏洞利用验证,而不只是基于提示词的攻击。这表明安全工作正越来越接近部署控制与对抗性运营。
  • 信用分配正在成为 RL 式后训练的瓶颈。 多篇论文从不同角度攻击同一种失效模式:用于工具使用的步骤级奖励、用于推理 RL 的 token 级优势、用于二元奖励 rollout 的通过率控制,以及用于 RFT 流水线的自动化失效诊断。
  • 廉价的内部或单次前向不确定性信号正在改善。 关于幻觉检测的论文表明,基于注意力或首 token 置信度的信号可以媲美更昂贵的基于采样的方法,但它们要么需要白盒访问,要么目前仅适用于较窄的 QA 场景。
  • 路由与编排正在同时成为能力杠杆和安全攻击面。 MoE 路由可被仅输入攻击利用,而选择性委派与弹性上下文编排则提升了多智能体和长时程系统的成本/准确率表现。
  • 许多“修复”仍然只是部分有效。 后训练失效的自动修复并不稳定,MoE 的路由防御较弱,而且多篇基准论文表明,正确性往往无法转化为部署效用、效率或鲁棒性。

2) 关键主题(聚类)

主题:系统级评估正在取代仅模型级评估

主题:运行时智能体安全正从红队测试走向拦截

主题:RL/后训练可靠性如今关乎过程控制,而不只是奖励设计

主题:幻觉检测正在变得更便宜,也更具机制性

主题:基准正在变得更真实——也更“严苛”

主题:路由与上下文管理正在成为核心基础设施

3) 技术综合

  • 遥测正在成为一种训练原语。 RFT-FM 将 reward/KL/entropy/returns 作为不变量;EP-GRPO 使用 token 熵和策略散度;Rollout Pass-Rate Control 将组通过率作为控制目标。纵观这些论文,优化越来越多地由过程可观测量引导,而不只是终局奖励。
  • 逐步结构是修复长时程学习的主导方案。 FineStep、EP-GRPO、SADE、UNO-ORCHESTRA 和 LongSeeker 都施加了中间结构——技能、步骤奖励、turn 级信用、元操作或任务分解——以减少试错式行为。
  • 可验证裁判正在取代自由形式评估。 DTAP、DoGMaTiQ、SLYP 和 AgentTrust 都依赖与环境状态、基准结果或可执行工件绑定的确定性或结构化验证信号。
  • 多篇论文将“正确性”与“有用性”区分开来。 KernelBench-X 表明正确的 kernel 往往仍比 PyTorch 更慢;COREB 表明仅检索评估会漏掉重排失败;StableI2I 表明感知上良好的编辑仍可能违反源图像保真度。
  • 迁移如今是核心压力测试。 Misrouter 研究从代理到服务的迁移;SQSD 研究跨架构/尺度迁移;DTAP 表明同一骨干模型在不同 harness 下可能差异很大;部署对齐工作则表明脚手架效应具有模型依赖性。
  • 稀疏信号往往优于稠密启发式。 TAGO 只更新高梯度音频 token 区域;首 token 熵可媲美语义自一致性;注意力散度探针使用稀疏但信息量高的头;RFT-FM 依赖少量不变量。
  • 基准正越来越多地被设计为暴露隐藏混杂因素。 COREB 针对污染和琐碎 qrels;StableI2I 针对源条件漂移;Deployment-Relevant Alignment 审计缺失的交互维度;Security Cube 在 ASR 之外加入稳定性、可迁移性和扰动深度。
  • 闭环自动化前景可观,但尚不成熟。 RFT-FM 能较好地检测和诊断故障,但修复不稳定;AgentTrust 能快速拦截动作,但受静态分析限制;SLYP 表明端到端漏洞利用验证是可行的,但代价高且高度依赖上下文。
  • 该领域正在收敛到“系统行为 = 模型 + 脚手架 + 环境”。 这一点在对齐评估、智能体红队测试、编排和运行时安全论文中都能看到。
  • 推理优化正在变得更有原则。 UniVer 为 speculative decoding 给出基于 OT 的保证,而 UNO-ORCHESTRA 和 LongSeeker 则通过路由与上下文控制来优化成本,而不只是依赖模型压缩。

4) 前 5 篇论文(附“为什么是现在”)

1. DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

  • 提供了一个全栈智能体安全平台:覆盖 14 个领域的 50+ 环境、一个自主红队智能体,以及一个包含 6,682 个任务、以策略为基础的基准。
  • 暴露了跨框架与骨干模型的部署相关漏洞,包括在间接和直接威胁模型下都很高的 ASR。
  • 现在很有用,因为智能体安全评估正受制于不真实的环境和薄弱的自动化;DTAP 为基准测试和防御测试都提供了可复用底座。
  • 质疑 / 局限:许多攻击是针对代理受害者优化的,因此部分结果更应被视为匹配生成条件下的上界,而非纯粹的迁移性能。

2. Agentic Vulnerability Reasoning on Windows COM Binaries

  • 展示了端到端的智能体式漏洞发现,以及在闭源二进制上经调试器验证的 PoC 生成。
  • 具有很强的实际影响:28 个此前未知漏洞已被 MSRC 确认,16 个 CVE,以及 14 万美元赏金。
  • 现在很有用,因为它表明智能体安全系统可以超越分诊,进入经验证的漏洞利用证据阶段,这更接近真实安全工作流。
  • 质疑 / 局限:该方法成本高,依赖反编译器质量,并且目前仍专门针对 COM 竞态条件漏洞。

3. Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

  • 引入了首个面向 RFT 异常的结构化基准,以及一个端到端的检测/诊断/修复流水线。
  • 在基准故障上的检测表现很强(F1 87.96% easy,73.88% hard),诊断也足够有用,能够支持自动化干预实验。
  • 现在很有用,因为后训练可靠性正在成为主要成本中心,而大多数实验室仍在手动调试 RLHF/RFT 失效。
  • 质疑 / 局限:修复尚不可靠;总体中位严重度变化为负,且细微故障仍然难以处理。

4. Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone

  • 提出了一个尖锐的方法论主张:部署对齐存在于交互/系统层,而不是仅模型层。
  • 通过对 16 个基准的双重编码审计,以及一个盲测压力测试来支撑这一主张,显示脚手架效应具有很强的模型依赖性。
  • 现在很有用,因为许多对齐结论仍然从响应级基准过度泛化到已部署系统。
  • 质疑 / 局限:该压力测试刻意保持小规模,属于原理验证;跨领域和跨维度的更广泛泛化仍是开放问题。

5. AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use

  • 提供了一个可部署的运行时拦截器,具备反混淆、策略规则、链路感知风险跟踪、安全修复建议以及可选的 LLM 裁判。
  • 在其基准上以毫秒级低时延实现了较高裁决准确率,使其成为本批论文中更具运营可行性的安全层之一。
  • 现在很有用,因为使用工具的智能体需要执行前控制,而不只是事后评估。
  • 质疑 / 局限:仅规则路径在运行时语义和深度混淆面前存在根本限制;覆盖范围需要持续扩展。

5) 实践上的下一步

  • 像对待生产系统一样为后训练运行加仪表。 记录 reward、KL、entropy、returns、生成质量以及环境/工具反馈,并以适合异常检测和根因归因的形式保存。
  • 在更广泛部署前,为智能体加入运行时动作拦截。 类型化动作 schema、shell 规范化、策略规则和故障安全审查模式,如今已是工具使用的基本配置。
  • 在脚手架层面评估对齐主张,而不只是模型层面。 对任何部署关键工作流,都应在同一模型上测试多种系统提示词、验证脚手架以及 UI/工具配置。
  • 采用比 ASR 更丰富的鲁棒性指标。 纳入可迁移性、跨运行稳定性、效用损失、时延/成本开销,以及在可能时加入表征级或轨迹级扰动信号。
  • 对于二元奖励 RL,监控 rollout 通过率分布。 如果各组大多是全通过或全失败,你很可能在浪费 rollout 预算;可测试 replay 或 curriculum 机制,将训练推向信息量更高的区间。
  • 在有工具轨迹可用时使用步骤级奖励。 SQL、代码和带执行器反馈的智能体任务,都是过程奖励和逐步优势估计的良好候选。
  • 对完整流水线做基准,而不是只测孤立组件。 对检索,要包含重排;对图像编辑,要包含源图像保真度;对 kernel,要区分编译/正确性/效率;对智能体,要包含环境结果。
  • 将路由同时视为优化目标和威胁面。 如果你部署了 MoE 或多 worker 系统,应测试路由感知攻击,并监控编排策略是否创造了可预测的利用路径。

基于逐篇论文分析生成;未进行外部浏览。