AI 论文日报(2026-05-16)
Published:
English version: /paper-news/2026-05-16/
运行统计
- 候选论文: 371
- 入选论文: 30
- 已精读完成: 30
- 时间窗口 (UTC): 2026-05-14T00:00:00Z → 2026-05-15T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
| arXiv ID | 标题 / 链接 | 分类 | 评分 | 入选理由 | 标签 |
|---|---|---|---|---|---|
2605.15030 | WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections | cs.CR, cs.AI | 95 | Robust prompt-injection defense for web agents with large-scale dataset and deployment focus. | agent-safety, prompt-injection, web-agents, defense, benchmark, security |
2605.14421 | MemLineage: Lineage-Guided Enforcement for LLM Agent Memory | cs.CR, cs.AI | 95 | Cryptographic provenance for agent memory directly targets persistent prompt-injection risks. | agent-safety, memory-security, provenance, prompt-injection, guardrails |
2605.14746 | Selective Safety Steering via Value-Filtered Decoding | cs.LG | 94 | Decoding-time safety steering that reduces unnecessary interventions while improving safety. | safety, alignment, decoding, steering, reliability |
2605.14271 | Auditing Agent Harness Safety | cs.CL, cs.CY | 93 | Audits full agent trajectories for permission and info-flow violations beyond final outputs. | agent-safety, auditing, execution-traces, permissions, information-flow, evaluation |
2605.14786 | Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces | cs.CR, cs.AI, cs.HC, cs.LG | 93 | Shows passive fingerprinting of browser agents, enabling targeted attacks on known model weaknesses. | agent-security, browser-agents, fingerprinting, privacy, adversarial |
2605.14865 | Holistic Evaluation and Failure Diagnosis of AI Agents | cs.AI, cs.CL | 93 | Strong agent evaluation/diagnosis framework with span-level localization and reported SOTA gains. | agents, evaluation, diagnosis, benchmarks, reliability |
2605.15188 | FutureSim: Replaying World Events to Evaluate Adaptive Agents | cs.LG, cs.AI, cs.CL | 93 | Grounded benchmark for adaptive agents in evolving real-world settings; strong eval value. | agents, evaluation, benchmark, forecasting, real-world |
2605.14859 | Do Coding Agents Understand Least-Privilege Authorization? | cs.CR, cs.AI | 92 | Least-privilege benchmark for coding agents targets a core real-world deployment safety gap. | agent-safety, coding-agents, authorization, least-privilege, benchmark, security |
2605.14605 | One Step to the Side: 入选理由 Defenses Against Malicious Finetuning Fail Under Adaptive Adversaries | cs.CR, cs.AI, cs.LG | 91 | Strong adaptive-attack critique showing current anti-malicious-finetuning defenses broadly fail. | alignment, robustness, finetuning, adaptive-attacks, safety-evaluation, open-weights |
2605.14750 | EVA: Editing for Versatile Alignment against Jailbreaks | cs.CR, cs.AI | 91 | Model-editing defense against jailbreaks for LLMs/VLMs with safety-utility focus. | jailbreak-defense, alignment, model-editing, VLM, robustness |
2605.15040 | Orchard: An Open-Source Agentic Modeling Framework | cs.AI, cs.CL | 91 | Open-source agentic modeling stack with sandbox primitives and scalable training recipes. | agents, frameworks, open-source, sandboxing, training |
2605.15109 | 入选理由 Neighborhoods Matter: Traversal Context and Provenance in Agentic GraphRAG | cs.AI, cs.IR | 91 | Important Agentic GraphRAG citation-faithfulness study with trajectory-level provenance framing. | RAG, agents, evaluation, citations, provenance, factuality |
2605.15134 | Training ML Models with Predictable Failures | cs.LG | 91 | Targets deployment-scale failure prediction for safety assessment with concrete training objective. | safety, evaluation, reliability, failure-prediction, deployment |
2605.15118 | Talk is (Not) Cheap: A Taxonomy and Benchmark Coverage Audit for LLM Attacks | cs.CR, cs.CL | 90 | Threat-surface taxonomy and coverage audit for LLM attack benchmarks; highly reusable evaluation lens. | llm-security, taxonomy, benchmarking, attacks, evaluation, agents |
2605.15138 | Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution | cs.LG, cs.CL, cs.ET | 90 | Important unlearning result: quantization can undo forgetting; proposes mechanistic fix. | unlearning, quantization, model-safety, mechanistic-interpretability, deployment |
2605.15000 | Quantifying and Mitigating Premature Closure in Frontier LLMs | cs.CL, cs.AI | 90 | Directly studies unsafe premature commitment in frontier LLMs with mitigation on medical tasks. | llm-safety, reliability, uncertainty, abstention, evaluation |
2605.15152 | Widening the Gap: Exploiting LLM Quantization via Outlier Injection | cs.LG, cs.AI | 89 | Practical attack on advanced quantization schemes exposes deployment-time LLM security risk. | quantization, model-security, backdoor-risk, deployment, adversarial |
2605.14498 | GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations | cs.CL | 89 | Useful benchmark for multi-user agent memory, belief tracking, and audience-aware responses. | benchmark, agents, memory, multi-party, evaluation |
2605.14404 | Knowledge Beyond Language: Bridging the Gap in Multilingual Machine Unlearning Evaluation | cs.CL | 89 | Multilingual unlearning metrics for cross-lingual privacy leakage; highly relevant to LLM safety. | unlearning, privacy, multilingual, evaluation, llm-safety |
2605.14454 | LiSA: Lifelong Safety Adaptation via Conservative Policy Induction | cs.LG, cs.CL, cs.CR | 88 | Practical framework for adapting guardrails from sparse deployment feedback in agent settings. | guardrails, agent-safety, online-adaptation, policy-learning, deployment, reliability |
2605.15128 | MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory | cs.CV, cs.CL, cs.IR | 88 | Targets multimodal agent memory with visual-grounded benchmark for evidence preservation. | multimodal, agents, memory, evaluation, benchmark |
2605.15155 | Self-Distilled Agentic Reinforcement Learning | cs.LG, cs.AI, cs.CL | 88 | Post-training method for LLM agents combining RL with self-distillation for long-horizon tasks. | llm-agents, reinforcement-learning, post-training, self-distillation, reasoning |
2605.14290 | Web Agents Should Adopt the Plan-Then-Execute Paradigm | cs.CR, cs.AI, cs.CL, cs.SE | 87 | Argues plan-then-execute reduces web prompt-injection control-flow risk by design. | web-agents, prompt-injection, agent-architecture, security, plan-then-execute |
2605.14968 | GraphFlow: An Architecture for Formally Verifiable Visual Workflows Enabling Reliable Agentic AI Automation | cs.AI | 87 | Formally verifiable workflows for reliable agentic automation in mission-critical settings. | agents, formal-methods, reliability, workflows, verification |
2605.15077 | Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs | cs.CL, cs.AI, cs.LG | 87 | Practical agent efficiency advance: async tool calling without model changes or retraining. | agents, tool-use, systems, efficiency, function-calling |
2605.14483 | LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning | cs.AI | 87 | Learns executable multi-agent orchestration with counterfactual credit assignment; useful for agents. | multi-agent, orchestration, reinforcement-learning, agents, automation |
2605.14604 | Sycophancy is an Educational Safety Risk: 入选理由 LLM Tutors Need Sycophancy Benchmarks | cs.AI, cs.HC | 86 | Sycophancy benchmark for LLM tutors highlights a concrete, underexplored safety failure mode. | sycophancy, benchmark, education, alignment, evaluation |
2605.14747 | Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining | cs.CL, cs.AI, cs.CV, cs.LG | 86 | Large-scale GUI-agent pretraining data from unlabeled videos could materially boost agent capability. | agents, gui, pretraining, datasets, multimodal |
2605.14570 | Uncertainty Quantification for Large Language Diffusion Models | cs.CL | 86 | First systematic uncertainty quantification study for language diffusion models; safety-relevant. | uncertainty, reliability, diffusion-lm, hallucination, evaluation |
2605.14932 | Toward Securing AI Agents Like Operating Systems | cs.CR | 85 | OS-inspired security framing for AI agents offers useful systems perspective on isolation and privilege. | agent-security, systems, sandboxing, privilege-separation, architecture, survey |
AI 论文洞察简报
2026-05-16
0) 执行要点(请先阅读)
- Agent 安全评估正从最终答案评分转向轨迹级、harness 级与来源级审计。多篇论文表明,高任务完成率可以与严重的边界违规、不安全的记忆复用或误导性引用同时存在。
- 当前最强的安全模式是将控制与不可信内容进行架构性分离:面向 Web Agent 的先规划后执行、类操作系统的运行时隔离、具备谱系感知的记忆门控,以及类型化/可验证工作流,都旨在移除攻击路径,而不只是检测不良输出。
- 多篇论文揭示了部署阶段的安全反转:遗忘在量化后可能失效,恶意行为可能只在量化后被激活,而微调防御在自适应攻击者面前会失效。忽略下游部署变换的安全结论正变得越来越不可靠。
- 记忆正成为一类一等失败面。基准与防御研究显示,当前系统会丢失说话者锚定、时间有效性、视觉证据与来源信息;在某些场景中,简单的检索基线仍然优于复杂的记忆摄取流水线。
- 实用缓解措施正变得更加选择性且可校准:value-filtered decoding 对不必要干预进行约束,LiSA 从稀疏反馈中保守地适配护栏,SDAR 则通过门控特权蒸馏来稳定 Agent 强化学习。
- 基础设施与模型质量同样重要:开放环境层、异步工具执行、大规模 GUI 预训练数据,以及更好的编排学习都能提升 Agent 能力——但它们也扩大了对更强运行时控制与审计的需求。
2) 关键主题(聚类)
主题:Agent 安全正从输出转向执行轨迹
- 为什么重要:多篇论文认为,最终输出过于粗粒度,无法评估真实的 Agent 安全性。不安全的工具使用、未授权访问和失败原因常发生在中间轨迹中;如果评估只检查最后答案,这些问题就会被隐藏。
- 代表论文:
- 共同方法:
- 审计完整轨迹,而不是终态响应
- 将失败分解为边界、执行、检索或规划等子类型
- 使用隐藏工件、span 级评审器或基于消融的来源测试
- 联合衡量效用与安全/暴露
- 开放问题 / 失败模式:
- 如何聚合大量局部失败,同时不过度惩罚轻微问题
- 基准分类法是否与真实生产故障模式一致
- 当未引用上下文仍影响答案时,如何实现完整来源追踪
- 如何在执行前而非造成损害后推断最小权限边界
主题:结构性防御正在取代仅靠提示词的 Web 与 Agent 安全防御
- 为什么重要:这一批论文中最可信的防御通过构造方式缩小攻击面:将规划与执行分离、强制运行时隔离,或将记忆/工具使用绑定到显式权限。这比要求模型“要小心”是更强的模式。
- 代表论文:
- 共同方法:
- 将控制流与不可信观察分离
- 在模型之外强制执行权限、来源或契约
- 将工具、记忆与运行时视为安全关键系统组件
- 偏好类型化接口、只追加日志与可重放执行
- 开放问题 / 失败模式:
- 对可信 API、SDK 或运行时基础设施依赖较重
- 动态任务可能仍需要重规划或人工恢复路径
- 来源系统依赖归因质量与可信推断
- 形式化验证往往止步于工作流结构,而非外部边界行为
主题:提示注入仍是核心问题,但防御手段正在多样化
- 为什么重要:Web 与多模态 Agent 仍然高度暴露于间接提示注入和越狱攻击。显著变化在于,防御如今横跨架构、紧凑型 guard 模型和直接模型编辑,而不再只是单一过滤层。
- 代表论文:
- 共同方法:
- 在多模态和面向 guard 的攻击数据上训练防护器
- 通过局部编辑修补有害内部表征
- 限制运行时控制流,使不可信内容无法添加动作
- 研究诸如 UI 轨迹指纹识别等被动侦察通道
- 开放问题 / 失败模式:
- 像素级或高度伪装的攻击仍然难以处理
- 自适应攻击者仍可恢复部分攻击成功率
- guard 的鲁棒性可能依赖于训练中见过的攻击者分布
- 即使没有直接探测,指纹识别也能支持针对特定模型的利用
主题:记忆已成为核心能力,也成为核心攻击面
- 为什么重要:持久记忆不再只是便利功能。它是投毒、陈旧状态错误、说话者混淆、来源缺失和视觉证据丢失的来源——并且常常主导下游失败。
- 代表论文:
- 共同方法:
- 在多方、时间性或多模态约束下对记忆进行基准测试
- 区分检索失败与推理失败
- 在记忆条目旁保留来源或置信度元数据
- 使用结构化记忆策略,而不是原始的只追加召回
- 开放问题 / 失败模式:
- 摄取过程常常破坏线程结构、说话者锚定或视觉细节
- 检索可能返回陈旧但语义相关的证据
- 记忆投毒可通过 Agent 撰写的摘要被“洗白”
- 稳健适配可能需要强大的离线管理器或评审器
主题:部署变换正在打破许多安全假设
- 为什么重要:多篇论文表明,在某一设定下测得的安全属性,无法在量化或下游微调等真实部署步骤后保持。这对只认证部署前检查点的发布流程是一个重大警告。
- 代表论文:
- Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution
- Widening the Gap: Exploiting LLM Quantization via Outlier Injection
- One Step to the Side: Why Defenses Against Malicious Finetuning Fail Under Adaptive Adversaries
- Knowledge Beyond Language: Bridging the Gap in Multilingual Machine Unlearning Evaluation
- 共同方法:
- 在量化、多语言迁移或自适应攻击后评估安全性
- 用结构性或跨上下文诊断替代仅基于行为的指标
- 用攻击者感知目标而非朴素基线来压力测试防御
- 关注跨部署条件的持续性,而不是一次性抑制
- 开放问题 / 失败模式:
- 量化既可能抹除预期编辑,也可能激活隐藏恶意行为
- 即使训练语言看起来已清理,遗忘在保留语言上仍可能失败
- 许多防御只阻断朴素优化路径,而非自适应路径
- 结构性保证仍局限于某些模型规模或任务类型
主题:更好的 Agent 基础设施正在提升能力——也在澄清瓶颈
- 为什么重要:另一组论文聚焦于让 Agent 更快、更可扩展、更易训练:编排学习、异步函数调用、开放环境服务、GUI 预训练和长时程适应基准。这些工作更清晰地揭示了当前真正的瓶颈所在。
- 代表论文:
- 共同方法:
- 将改进下沉到执行层或环境层
- 学习结构化编排规范,而不是临时提示
- 使用更丰富的基准来暴露适应、延迟和记忆瓶颈
- 结合 SFT、RL 与有针对性的系统工程
- 开放问题 / 失败模式:
- 收益可能高度依赖 harness 或分布内场景
- 更强的基础设施会增加对更强安全边界的需求
- 即使对前沿 Agent,长时程适应仍然薄弱
- 编排与自适应基准的训练/评估成本仍然很高
3) 技术综合
- 多篇论文汇聚到一个控制/数据分离原则:PTE 将控制流与网页内容隔离;MemLineage 将来源与内容分离;GraphFlow 将可验证结构与运行时非确定性分离;类 OS 的 Agent 安全将运行时强制执行与模型意图分离。
- 评估正变得原生面向轨迹:HarnessAudit 将轨迹规范化为统一模式,TRAIL 风格诊断对叶子 span 打分,而 GraphRAG 来源研究则通过图消融测试答案依赖,而不只是检查引用。
- 多项工作用因子化评分替代单体判断:安全遵循 vs 任务完成、检索失败 vs 推理失败、充分性 vs 紧致性,或广域 vs 局部策略记忆。
- 一个反复出现的失败模式是效用与安全错位:高任务完成率可以与边界违规、权限过宽、陈旧记忆检索或不安全中间动作并存。
- 记忆相关论文一致表明,摄取是瓶颈:GroupMemBench 发现检索失败占主导;MemEye 显示陈旧证据选择和描述丢失;MemLineage 表明来源丢失会启用“洗白”攻击。
- 部署鲁棒性越来越需要变换后评估:量化会改变遗忘结果、激活隐藏攻击,因此应被视为威胁模型的一部分,而不是下游实现细节。
- 多种方法采用选择性干预而非一刀切式引导:value-filtered decoding 只在超过阈值时干预,LiSA 用 Beta 后验置信度门控广域策略,SDAR 用 detached sigmoid 门控 token 级蒸馏。
- 正在明显转向类型化接口与结构化工件:YAML 编排规范、类型化站点 API、future-valued 函数模式、CBOR 来源条目,以及显式权限白名单,都让 Agent 行为更可审计。
- 自适应评估正成为基线预期:WARD 使用攻击者–guard 共同进化,SIDESTEPPER 用混合目标攻击 MFT 防御,而浏览器 Agent 指纹识别研究则考察了感知重训练的对手。
- 系统类论文表明,执行层改动无需改模型也能带来显著收益:AsyncFC 加速工具使用,Orchard 降低 rollout 成本/延迟,而 PTE 将 Web Agent 安全重构为一种架构选择,而非鲁棒性补丁。
4) Top 5 论文(附“为什么是现在”)
- Auditing Agent Harness Safety
- 将 Agent 安全重新定义为一个轨迹级 harness 问题,而不是输出级问题。
- 引入 HarnessAudit-Bench,包含 8 个领域的 210 个任务和 525 个扰动案例。
- 发现任务完成与安全执行之间对齐很差;多 Agent 设置会放大违规。
- 现在很有用,因为许多团队正在发布多 Agent/工具使用系统,但对中间轨迹失败几乎没有可见性。
- 质疑 / 局限:论文很擅长暴露失败,但缓解策略并非其主要重点。
- Web Agents Should Adopt the Plan-Then-Execute Paradigm
- 提出一个强有力的架构主张:在 Web 上,ReAct 天生脆弱,因为不可信内容恰好出现在动作决策发生的位置。
- 表明在可信 API 假设下,全部 860 个 WebArena 任务都与 PTE 兼容,其中 81.28% 无需运行时 LLM 子程序即可求解。
- 现在很有用,因为 Web 上的提示注入正日益成为部署阻碍,而这提供的是结构性替代方案,而不是另一个检测器。
- 质疑 / 局限:可部署性高度依赖完整、可信、类型化的 API 或维护良好的 SDK。
- WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections
- 将大规模多模态数据集、面向 guard 的攻击训练和自适应对抗训练结合到一个紧凑型 guard 模型中。
- 报告了强 OOD 检测、在 PIG 训练后对面向 guard 的注入达到 100% 召回、低误报率,以及高效并行部署。
- 现在很有用,因为它是这一批中更偏部署导向的 Web Agent 防御之一。
- 质疑 / 局限:明确不覆盖像素级不可感知攻击,而伪装成任务对齐的 UI 仍是失败模式。
- Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution
- 表明标准遗忘可能被 4-bit 量化撤销,因为更新太小,无法在分箱后保留下来。
- 提出 MANSU,结合电路定位、受限零空间投影和幅度下限,使遗忘在 NF4 量化后仍能保留。
- 现在很有用,因为许多发布流水线会在安全工作之后再量化模型,使得量化前的遗忘结论并不完整。
- 质疑 / 局限:证据主要集中在 8B 级模型和事实召回基准上,且计算成本不低。
- Widening the Gap: Exploiting LLM Quantization via Outlier Injection
- 揭示了一种供应链式攻击:一个看似良性的全精度模型,只有在用户量化后才会变得恶意。
- 展示了在包括 GPTQ 和 AWQ 在内的实用量化器上,量化后具有高 ASR,同时保留全精度效用。
- 现在很有用,因为量化模型分发已非常普遍,却常被视为良性的压缩步骤,而不是攻击面。
- 质疑 / 局限:需要在发布前对白盒访问并修改权重,因此威胁相关性取决于模型来源与分发渠道。
5) 实际下一步
- 在 Agent 评估中加入轨迹日志与隐藏策略审计;不要把最终答案成功当作安全代理指标。
- 对 Web Agent,在一组高价值站点上原型化先规划后执行,配合类型化 API/SDK,并与 ReAct 比较安全性/延迟。
- 将记忆视为安全边界:在允许基于记忆的动作之前,加入来源元数据、信任标签和敏感动作门控。
- 对所有遗忘与安全编辑,在部署变换之后进行评估:至少测试量化后、蒸馏后和多语言恢复路径。
- 用自适应混合目标攻击者而不只是仅优化有害损失的微调,来红队测试 MFT 防御。
- 在说话者锚定、时间有效性和视觉证据保留上对记忆系统做基准测试;在引入复杂摄取前,先与简单 BM25 或原始检索基线比较。
- 尽可能使用选择性、可校准的引导:不仅测拒答/安全收益,也测不必要干预率。
- 如果在构建 Agent 基础设施,应显式分离关注点:环境服务、harness、规划器、执行器和策略执行应当可以独立测试与替换。
基于逐篇论文分析生成;未进行外部浏览。
