2026年6月1日 AI 研究简报
Agent 可靠性开始走向可运营化。
今天的论文把 agent 和安全系统进一步推向真实部署:过程感知评测、验证器优先的脚手架,以及本地化多模态安全测试,暴露出静态基准无法发现的失效。
核心要点
- Agent 评测正从静态准确率转向**过程感知的鲁棒性**:今天最强的论文衡量的是不可行性检测、自致错误后的恢复、记忆使用、多模态工具执行,以及社会交互失效模式,而不只是最终任务成功率。
- 一个反复出现的模式是:**脚手架与基础模型同样重要**。验证器钩子、结构化中间表示、显式记忆、定向重采样,以及领域感知的多智能体分解,带来的提升往往大于通用提示或朴素 RL。
- 安全研究正变得更**贴近部署现实且更本地化**:多篇基准针对韩国文化语境下的多模态风险、中文混淆/规避、双语医疗信息稀释、音频越狱,以及量化/噪声下对齐后脆弱性。
#1
主题
值得优先阅读的论文
按研究价值排序:新意、方法可复用性、证据质量,以及是否值得带着怀疑去读。
How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions
#1这是一项少见的大规模真实世界研究,把 coding-agent 的失败转化为具体且与产品相关的类别。
- 为什么现在值得读
- 编码 agent 已经进入生产环境,因此生态有效性比沙盒中的胜利更重要。
- 怀疑点
- 日志中的反驳可能低估了静默失败、聊天外修正以及未被观察到的用户不满。
Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents
#2它让弃答变得可衡量,并表明不会及时停止会浪费大量 token 和可靠性预算。
- 为什么现在值得读
- 随着工具使用型 agent 被部署,受成本约束的停止正成为现实需求,而不再只是锦上添花。
- 怀疑点
- 结果依赖于封闭工具池,因此开放世界中的可行性感知可能更难。
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
#3它为验证器分离、证据锚定的 agent 工作流提供了强有力的蓝图,而不是无约束的报告生成。
- 为什么现在值得读
- deep-research 产品正在快速涌现,而可审计性正成为差异化因素。
- 怀疑点
- 较高延迟和流水线复杂度可能限制实际部署。
运行统计
- 候选论文: 8456
- 入选论文: 30
- 已精读完成: 30
- 时间窗口 (UTC): 2026-05-29T00:00:00Z → 2026-05-30T00:00:00Z (weekend_backlog_sat, expanded=0)
展开查看用于总结的论文列表
| arXiv ID | 标题 / 链接 | 分类 | 评分 | 入选理由 | 标签 |
|---|---|---|---|---|---|
2605.29396 | Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization | cs.AI | 95 | Targets robustness of LLM safety alignment under noise/quantization; directly relevant to deployment safety. | llm-safety, alignment, robustness, post-training, optimization |
2605.29442 | How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions | cs.SE, cs.AI, cs.HC | 95 | Large real-world study of coding-agent misalignment; highly relevant to agent safety and deployment. | agent-safety, coding-agents, misalignment, human-ai-interaction, deployment |
2605.30031 | Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation | cs.SD, cs.AI, cs.CL | 94 | Unified taxonomy and controlled eval of audio jailbreaks/defenses for agentic speech systems. | llm-safety, jailbreaks, audio-language-models, benchmark, defenses, red-teaming |
2605.29667 | Beyond English and Evasion: A Human-Annotated Multi-Domain Benchmark for High-Stakes LLM Safety Evaluation in Chinese | cs.CL | 94 | Human-annotated Chinese safety benchmark targets real jailbreak/evasion gaps in high-stakes LLM deployment. | llm-safety, benchmark, jailbreaks, multilingual, evaluation, adversarial-prompts |
2605.29447 | Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents | cs.CV, cs.CL | 92 | Strong GUI agent robustness benchmark plus 800k recovery trajectories for error correction. | agents, gui-agents, robustness, benchmark, synthetic-data, error-recovery |
2605.29659 | Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content | cs.LG, cs.AI, cs.CL | 92 | Practical multi-task guardrail classifiers for toxicity, jailbreaks, and harmful content with efficient edge variants. | llm-safety, guardrails, classification, jailbreak-detection, toxicity, deployment |
2605.30169 | Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms | cs.CY, cs.AI, cs.MA | 92 | Conceptual agent-safety paper on why identity/reputation may fail for LLM agents in the wild. | agents, governance, trust, reputation, agent-safety |
2605.27820 | EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents | cs.AI | 92 | Interactive multimodal benchmark for tool-using agents in realistic settings; strong eval value. | agents, multimodal, tool-use, benchmark, evaluation |
2605.28774 | Agent Explorative Policy Optimization for Multimodal Agentic Reasoning | cs.CL | 92 | Targets tool-use failure in multimodal agents with RL fix for the thinking-acting gap. | agents, multimodal, tool-use, RL, reasoning |
2605.28224 | When Does Memory Help Multi-Trajectory Inference for Tool-Use LLM Agents? | cs.AI | 92 | Systematic study of memory for tool-use agents across strategies; directly relevant to agent reliability. | agents, tool-use, memory, inference, reliability, evaluation |
2605.29910 | Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents | cs.SE, cs.AI | 92 | Multi-agent LLM framework for protocol bug finding; strong agentic security relevance and concrete verification setup. | agents, security, code, verification, multi-agent, bug-detection |
2605.29269 | HunterAgent: Neuro-Symbolic Attack Trace Reconstruction under Anti-Forensics | cs.CR | 90 | Neuro-symbolic verifier for attack-trace reconstruction addresses LLM hallucination in security workflows. | security, agents, verification, forensics, neuro-symbolic |
2605.28532 | Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents | cs.AI | 90 | Evaluates whether tool-using agents detect infeasible tasks and stop early; strong practical safety value. | agents, tool-use, evaluation, reliability, efficiency, safety |
2605.28188 | Framing Matters: Addressing Framing Sensitivity in Decision-Making through Behaviorally-Grounded Value Alignment | cs.CL | 90 | Strong alignment benchmark on framing sensitivity; exposes decision instability in high-stakes LLM use. | alignment, reliability, benchmark, decision-making, robustness, safety |
2605.29486 | PhoneWorld: Scaling Phone-Use Agent Environments | cs.CL, cs.AI, cs.LG | 90 | Scalable phone-use agent environment pipeline with verifiers and rollouts; high reuse for agent evaluation. | agents, benchmark, evaluation, mobile, environments, tool-use |
2605.28013 | KSAFE-MM: A Multimodal Safety Benchmark via Localized Contextualization for Korean Cultural Risks | cs.CL | 89 | Useful multimodal safety benchmark covering Korean and culture-specific risks beyond English. | multimodal-safety, benchmark, cultural-context, evaluation, mllm, localized-risks |
2605.29861 | Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation | cs.CL, cs.AI | 89 | Verifiable multimodal deep-research harness with claim-grounded evidence and source-aligned visuals. | agents, verification, multimodal, deep-research, grounding |
2605.29324 | STAMP: Training Explicit Memory for Mobile GUI Agents in Controllable and Scalable Virtual Environments | cs.CL, cs.CV | 89 | Explicit memory training for mobile GUI agents targets a key long-horizon failure mode. | agents, GUI agents, memory, long-horizon, virtual environments |
2605.30096 | How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency | cs.CR, cs.AI | 89 | Large empirical study of autonomous cyberattack consistency; important for agent risk assessment. | cybersecurity, agents, red-teaming, offensive-capability, evaluation, safety |
2605.28338 | SafeMed-R1: Clinician-Audited Safety and Ethics Alignment for Medical Large Language Models | cs.AI | 88 | Clinician-audited medical LLM alignment with traceable reasoning and adversarial safety testing. | medical-llm, alignment, safety, auditing, red-teaming, ethics |
2605.29512 | MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs | cs.AI | 88 | Live arena for multi-agent social/strategic reasoning; useful for evaluating agentic risks and deception. | agents, multi-agent, evaluation, theory-of-mind, deception, benchmark |
2605.29568 | DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning | cs.AI | 88 | Process-supervised RL for interleaved tool reasoning could improve capable, robust agent behavior. | tool-use, reasoning, reinforcement-learning, agents, process-supervision |
2605.14587 | Angel or Demon: Investigating the Plasticity Interventions' Impact on Backdoor Threats in Deep Reinforcement Learning | cs.LG, cs.AI, cs.CR | 88 | Large empirical study of DRL backdoors under plasticity interventions; actionable security findings. | security, backdoors, deep-reinforcement-learning, robustness, empirical-study |
2605.28726 | How VLAs Fail Differently: Black-Box Action Monitoring Reveals Architecture-Specific Failure Signatures | cs.RO, cs.LG | 88 | Black-box monitoring finds architecture-specific VLA failure signatures; actionable for robot safety. | VLA, robotics, monitoring, safety, evaluation, failure-analysis |
2605.29648 | Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering | cs.CL | 88 | Corpus-grounded process rewards for factual QA RL; practical supervision beyond math/code with clear alignment value. | alignment, rl, factuality, process-supervision, qa, rewards |
2605.30241 | CommunityFact: A Dynamic, Multilingual, Multi-domain Benchmark for Misinformation Detection in the Wild | cs.CL, cs.CY, cs.SI | 87 | Dynamic multilingual misinformation benchmark with web-search analysis targets real-world reliability. | benchmark, misinformation, reliability, web-search, multilingual |
2605.28148 | DeltaMCP: Incremental Regeneration via Spec-Aware Transformation for MCP servers | cs.SE, cs.AI | 87 | Spec-aware MCP server regeneration is directly relevant to reliable agent tooling infrastructure. | agents, MCP, tool use, API integration, software infrastructure |
2605.28025 | MIRA: A Bilingual Benchmark for Medical Information Response Audit | cs.AI, cs.CL, cs.CY | 87 | Bilingual benchmark for unequal medical responses across phrasing and literacy; valuable safety evaluation. | medical, benchmark, fairness, reliability, evaluation, multilingual |
2605.21917 | MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks | cs.CV, cs.AI | 87 | Agentic pipeline for scalable video reasoning data with CoT traces and domain adaptation. | agents, video, data-generation, reasoning, VLM |
2605.27345 | MATCHA: Matching Text via Contrastive Semantic Alignment | cs.CL | 86 | Evaluation metric targets contradictions missed by ROUGE/BERT评分; broadly useful for reliability. | evaluation, reliability, factuality, metrics, contradiction-detection, llm |
AI 论文洞察简报
2026-06-01
0) 核心结论(先读这个)
- Agent 评测正从静态准确率转向过程感知的鲁棒性:今天最强的论文衡量的是不可行性检测、自致错误后的恢复、记忆使用、多模态工具执行,以及社会交互失效模式,而不只是最终任务成功率。
- 一个反复出现的模式是:脚手架与基础模型同样重要。验证器钩子、结构化中间表示、显式记忆、定向重采样,以及领域感知的多智能体分解,带来的提升往往大于通用提示或朴素 RL。
- 安全研究正变得更贴近部署现实且更本地化:多篇基准针对韩国文化语境下的多模态风险、中文混淆/规避、双语医疗信息稀释、音频越狱,以及量化/噪声下对齐后脆弱性。
- 多篇论文表明,简单防御很脆弱,或会与可用性产生巨大权衡:防御性提示虽然降低 ASR,但会显著提高对良性请求的拒答;prompt/CoT 基线可能放大框架敏感性;一些“安全”干预或优化器在扰动或后门设置下反而会加剧风险。
- 对实践者而言,当前最可操作的方向是构建带有显式验证与弃答路径的系统:确定性验证器、证据支撑奖励、成本受限停止,以及可行性感知停止,持续优于无约束生成。
- 数据生成正成为核心能力瓶颈:可扩展进展越来越依赖于合成但可验证的环境与标注流水线,用于视频推理、手机/GUI agent,以及多模态报告生成。
2) 关键主题(聚类)
主题:Agent 鲁棒性如今关乎恢复、停止与记忆
- 为什么重要:许多 agent 失败已不再是“能不能解出任务”,而是“能不能意识到自己卡住了、记住短暂事实、从自己的错误中恢复,或在成功不可能时停止”。这些都直接关系到成本、安全与用户信任。
- 代表论文:
- Do Agents Know What They Can’t Do? Evaluating Feasibility Awareness in Tool-Using Agents
- Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents
- STAMP: Training Explicit Memory for Mobile GUI Agents in Controllable and Scalable Virtual Environments
- When Does Memory Help Multi-Trajectory Inference for Tool-Use LLM Agents?
- 共同方法:
- 围绕失败状态而不只是成功轨迹构建基准。
- 加入显式结构:STOP 动作、记忆字段、恢复轨迹,或有范围约束的记忆抽象。
- 使用可控合成环境,大规模生成可验证监督信号。
- 同时评估成功率与效率指标,如 token 成本、轨迹长度或错误后恢复率。
- 开放问题 / 失效模式:
- 许多方法假设封闭工具集或可控模拟器,限制了向开放世界的迁移。
- 记忆收益高度依赖于交互方式、搜索策略与任务结构。
- 恢复方法可能过度反思,或消耗过多推理预算。
- GUI/移动端记忆与恢复的 sim-to-real 迁移仍未解决。
主题:验证优先架构正在击败无约束生成
- 为什么重要:在安全、事实性和长文本生成中,将“提出”和“检查”分离的系统,比端到端自由生成更可靠。最强系统会显式保留来源、强制模式约束,或在证据不足时停止。
- 代表论文:
- HunterAgent: Neuro-Symbolic Attack Trace Reconstruction under Anti-Forensics
- Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
- Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering
- Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents
- 共同方法:
- 将生成拆分为 planner/researcher/writer 或 generator/verifier 等角色。
- 让输出锚定外部证据:遥测数据、引用、语料统计、可执行测试或数据库状态。
- 使用结构化中间表示和类型化 schema 来约束搜索。
- 在缺乏支撑时,优先保守停止或弃答,而不是勉强补全。
- 开放问题 / 失效模式:
- 验证会显著增加延迟和系统复杂度。
- 覆盖范围受限于残存遥测、语料覆盖或可用工具。
- 一些流水线仍依赖 LLM 评审器,引入次级可靠性问题。
- 模块化分解可能提升可信度,但限制端到端优化。
主题:安全评测正变得更具文化特异性、多模态且面向运营
- 为什么重要:仅英语、仅文本的安全基准正在遗漏真实部署风险。今天的论文表明,在韩国文化语境、中文混淆、音频攻击和双语医疗表述下,失效模式会显著不同。
- 代表论文:
- KSAFE-MM: A Multimodal Safety Benchmark via Localized Contextualization for Korean Cultural Risks
- Beyond English and Evasion: A Human-Annotated Multi-Domain Benchmark for High-Stakes LLM Safety Evaluation in Chinese
- Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation
- MIRA: A Bilingual Benchmark for Medical Information Response Audit
- 共同方法:
- 将提示、图像和攻击风格本地化到特定地区的语言与文化。
- 衡量 ASR 之外的权衡,尤其是拒答率和信息不足的回答。
- 纳入人工标注或验证,而不是只依赖翻译或合成提示。
- 用越狱、混淆和多模态触发器对模型进行压力测试。
- 开放问题 / 失效模式:
- 评审器可靠性和标注一致性仍是瓶颈。
- 许多数据集是受限访问、部分标注,或仅覆盖单一区域/语言。
- 更强的防御往往通过过度拒答来实现安全。
- 合成图像/音频可能无法完全覆盖真实世界攻击条件。
主题:面向工具使用的 RL 正走向更密集、更定向的信用分配
- 为什么重要:标准的仅结果 RL 对工具使用来说过于稀疏。当前最有前景的工作通过在工具调用边界、句子级或逐步动作级分配信用来改进学习。
- 代表论文:
- Agent Explorative Policy Optimization for Multimodal Agentic Reasoning
- DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning
- Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering
- Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization
- 共同方法:
- 用过程级或局部奖励替代粗粒度终局奖励。
- 将探索预算集中在高杠杆决策上,如工具调用 token。
- 在可能时使用轻量、可验证信号,而不是昂贵的神经评审器。
- 将标准一阶训练与定向精修结合,而不是完全替代。
- 开放问题 / 失效模式:
- 许多方法假设二元可验证性或狭窄任务族。
- 收益未必能迁移到更丰富的工具生态或更大的可训练模型。
- 即使提升了效率,奖励设计仍可能遗漏语义正确性。
- 鲁棒性提升大多只在有限模型/数据集上展示。
主题:基准正在暴露多模态与社会型 agent 的能力缺口
- 为什么重要:新基准不再只是排行榜上的小幅提升,而是在揭示当前系统根本性失效之处:第一视角工具使用、手机环境、社会推理游戏和真实编码工作流都显示出低可靠性或混杂性能。
- 代表论文:
- EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents
- PhoneWorld: Scaling Phone-Use Agent Environments
- MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs
- How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions
- 共同方法:
- 使用具有确定性或可审计评分的交互环境。
- 衡量过程失败、无效动作和用户可见的不对齐,而不只是最终答案。
- 发布轨迹和环境工件,以支持可复现诊断。
- 分析失败分类和混杂因素,而不只是聚合分数。
- 开放问题 / 失效模式:
- 排行榜可能被环境特定的错误处理能力主导,而不是真实推理能力。
- 真实世界日志揭示了持续存在的不对齐,而基准可能仍未充分捕捉。
- 许多环境仍是部分合成或尚未发布。
- 在一个环境中的强表现,往往难以迁移到另一个环境。
3) 技术综合
- 多篇论文都收敛到结构化中间表示是可靠性的关键:用于视频推理的 MSTED、用于多模态报告的 Visual Working Memory、用于 GUI agent 的显式记忆字段,以及用于取证重建的类型化本体。
- 一个常见设计模式是非对称的生成与验证:灵活提出,确定性验证。HunterAgent、PTAH、Agora 和 EgoBench 在不同领域都采用了这一模式。
- 过程指标正在取代单一分数评测:ASR/BRR/延迟、Error-Awareness/Post-Error Success、FCR/token waste、ICQ/MPQ,以及通过工具覆盖率 + DB 状态衡量的联合成功率,还有 symptom/cause/outcome 分类体系。
- 多篇论文表明仅靠 prompt 的修补很弱,甚至适得其反:框架鲁棒性基线常常加剧翻转;防御性提示降低越狱 ASR,但会显著提高对良性请求的拒答;朴素的全量重生成会覆盖掉有用的 MCP 定制。
- 一个强趋势是转向带可执行验证的可控合成环境:PhoneWorld、STAMP、GUI-RobustEval/RoTS 和 MAVEN 都使用合成或半合成流水线来创建可扩展监督。
- 搜索/推理策略是 agent 系统中的隐藏混杂因素:记忆有效性取决于 best-of-N、beam 还是 MCTS;社会型 agent 排名取决于环境错误处理;渗透测试一致性取决于编排细节和提供商故障。
- 多篇论文识别出不明显的优化器或干预效应:SAM 可能放大 DRL 后门;短程 ZO 精修可提升对齐后鲁棒性;AXPO 的定向重采样优于单纯增加 rollout 数量。
- 弃答正成为一类一等安全行为:FeasiGen 在不可行任务上奖励 STOP;HunterAgent 在证据不足时以 INSUFFICIENT_EVIDENCE 停止;重验证系统更倾向于保守失败,而不是无支撑补全。
- 最强的事实性工作使用的是廉价外部信号而非昂贵评审器:基于语料的共现奖励和证据引导检索提升了可扩展性与可审计性。
- 跨领域来看,部署现实会暴露出基准工作常常隐藏的权衡:延迟、token 成本、过度拒答、API 中断、量化脆弱性,以及企业定制逻辑的保留。
4) Top 5 论文(附“为什么是现在”)
- 使用了 20,574 个真实 IDE/CLI 会话和 16,118 个已验证的不对齐事件,具有异常强的生态有效性。
- 表明主导性失败并不罕见:违反开发者约束、误读意图,以及不准确的自我报告。
- 现在很有用,因为编码 agent 正进入生产工作流,而这篇论文给出了可直接用于训练和产品埋点的具体失败分类。
- 保留意见:它只捕捉了日志中通过开发者反驳显现出来的不对齐,因此静默失败和聊天外修正会被遗漏。
Do Agents Know What They Can’t Do? Evaluating Feasibility Awareness in Tool-Using Agents
- 引入 FeasiGen,生成了 1,036 个不可行任务,并显示即使是最佳模型仍有 23.5% 的错误继续执行。
- 量化了“不停止”的真实成本:失败运行消耗的 token 比早停行为高 2.3×–5.0×。
- 现在很有用,因为 agent 部署越来越需要为浪费的轨迹付费,而不只是为错误答案付费。
- 保留意见:该设置假设封闭工具池,因此开放世界 agent 的行为可能不同。
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
- 提出了一个完整的 planning-research-writing 框架,带有验证器关卡和视觉工作记忆,而不只是一个报告生成器。
- 同时提升文本质量和多模态证据质量,引用准确率达到 87.53%,ICQ/MPQ 也有显著提升。
- 现在很有用,因为“deep research”产品正在快速涌现,而这是让其具备可审计性的最清晰蓝图之一。
- 保留意见:延迟较高(平均约 1015 秒),且模块化流水线可能难以低成本落地。
Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization
- 表明对齐后的模型在量化和噪声等现实扰动下会丧失安全性,并提出了一个实用的 FO→ZO 精修修复方案。
- 该方法足够轻量,具有部署相关性:短程 ZO 精修、更低峰值内存,以及定向层选择。
- 现在很有用,因为许多生产系统会在训练后对已对齐模型进行量化或其他扰动。
- 保留意见:证据仅限于两个基础模型和一组较窄的扰动类型。
KSAFE-MM: A Multimodal Safety Benchmark via Localized Contextualization for Korean Cultural Risks
- 构建了一个包含 14,135 个样本的基准,显示文化语境化的多模态攻击和越狱会暴露出通用英语中心评测遗漏的脆弱性。
- 揭示了 ASR 与拒答率之间的实际权衡,而不是把低 ASR 视为无条件的好事。
- 现在很有用,因为前沿安全评测仍然过于英语中心,而真实部署并非如此。
- 保留意见:评审一致性并不完美,而且该基准具有文化特异性,因此不能自动迁移到其他地区。
5) 实践上的下一步
- 在 agent 评测中加入显式弃答/停止指标:错误继续率、失败 token 成本和安全停止率应与任务成功率并列。
- 对工具使用型 agent,在工具调用边界做埋点:记录尝试率、全错子群比例、重采样后恢复率,以及每次工具调用的不确定性。
- 为高风险工作流构建验证器分离的流水线:生成模块应输出结构化声明/动作,另一个独立模块验证引用、schema、数据库状态或可执行结果。
- 对你实际部署的训练后扰动进行压力测试:量化、激活噪声、参数噪声,以及优化器/干预变化。
- 将安全评测扩展到英语之外,使用本地化、人工构建的对抗样本集,并同时跟踪有害服从与过度拒答。
- 对多模态/报告系统,维护与来源对齐的视觉记忆,并评估跨模态一致性,而不只是文本质量。
- 在 GUI/手机 agent 中,训练时应使用合成但可执行的恢复与记忆任务,而不只是成功示范。
- 对企业工具栈,在同步 agent 接口时,应优先选择增量式重生成并保留定制逻辑,而不是全量重生成。
基于逐篇论文分析生成;未进行外部浏览。