核心要点

Agent 安全研究正从**单轮提示词审核转向对轨迹、运行时和授权层面的控制**。多篇论文表明，危害往往出现在多步执行、委派或集成链路中，而仅靠提示词级防御会漏掉这些问题。
**黑盒攻击与供应链攻击依然惊人地实用**：工具元数据操纵、隐蔽数据投毒、恶意技能工件以及模型合并攻击都表现出很高的攻击成功率，而且即使面对较弱甚至近似 oracle 的防御也能存活。
当前最强的防御模式是**在执行边界进行结构化中介**：权限清单、能力受控运行时、集成感知防护以及可信审批通道，整体上优于通用聊天式安全分类器。

先读这篇：AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations

为什么先读： 它提供了一个可复用的基准，以及一个可部署的防护器，面向 SaaS agent 真实存在的读写攻击面。

建议重点质疑： 其规范场景在撰写过程中经过筛选，因此报告的攻击率可能高估了真实普遍性。

agents security benchmark tool-use

主题

对 agent 而言，运行时控制优于仅靠提示词的安全 多篇论文收敛到同一种失效模式：一旦 agent 能通过工具、文件、浏览器、SaaS 集成或 shell 采取行动，安全失败就发生在执行边界，而不是孤立提示词中。对动作、权限和轨迹进行中介的防御优于通用审核。

供应链与间接攻击面正在扩大 攻击面已不再只是提示词。论文表明，攻击者可以操纵工具元数据、污染指令微调数据、提交用于模型合并的恶意任务向量，或分发能绕过朴素过滤并传播到下游系统的高风险技能。

过程级评测正在取代只看结果的评分 最终答案准确率掩盖了 agent 在何处、为何失败。新的基准与诊断方法聚焦最早有害跨度、决定性错误步骤、弃答、拒答以及与专家一致的推理动作，使调试与治理更具可操作性。

信号 运行时中介正成为默认做法。 AgentRedBench、BraveGuard、Consent Integrity、SkillGuard 和 Agent libOS 都将安全检查转移到权限、轨迹和执行路径上。

张力 攻击面的扩散速度快于防御。 工具元数据攻击、隐蔽投毒、恶意合并向量和自适应蠕虫表明，提示词只是众多入口之一。

判断 过程感知评测将取代只看结果的评分。 跨度级定位、弃答能力、真实交互、金融轨迹以及基于能力的安全测量，都能诊断出最终准确率掩盖的失败。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations

如果你在部署企业 agent，这篇很有用：它对跨集成的间接提示词注入进行基准测试，并配套了一个快速防护器。

为什么现在值得读: 接入 SaaS 的 agent 正在进入生产环境，而跨工具的读写攻击已是现实风险。
怀疑点: 基准构建方式意味着其绝对攻击率未必反映现实世界中的随机普遍性。

arXiv PDF

BraveGuard: From Open-World Threats to Safer Computer-Use Agents

它是一篇很强的配套论文，因为它把开放世界威胁挖掘和轨迹监督转化为面向 computer-use agents 的防护训练。

为什么现在值得读: computer-use agents 的扩展速度快于静态安全基准，因此自适应防护流水线正当其时。
怀疑点: 其提升可能依赖于挖掘到的威胁覆盖范围，以及特定的 OpenClaw 风格轨迹格式。

arXiv PDF

What You Approve Is What Executes: Consent Integrity for Black-Box LLM Agents

值得一读，因为它提出了一个具体的可信审批性质，用来针对黑盒 agent 中的动作伪装问题。

为什么现在值得读: 人工审批回路正成为标准配置，但许多系统仍无法保证获批动作与实际执行动作一致。
怀疑点: 强保证依赖可信路径等假设，而这些假设在复杂部署中可能难以维持。

arXiv PDF

英文版：/paper-news/2026-06-03/

运行统计

候选论文: 844
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-05-31T00:00:00Z → 2026-06-03T00:00:00Z (arxiv_announce, expanded=2)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2606.03811`	AI Agents Enable Adaptive Computer Worms PDF	cs.CR, cs.AI, cs.LG	97	AI-powered adaptive worm on real networks; major agent security risk with concrete threat model.	agent-security, cybersecurity, malware, autonomous-agents, red-teaming
`2606.02668`	What You Approve Is What Executes: Consent Integrity for Black-Box LLM Agents PDF	cs.CR, cs.HC	96	Trusted approval-channel property for black-box LLM agents; directly targets action spoofing risk.	agent-safety, human-in-the-loop, approval, security, consent-integrity
`2606.02240`	AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations PDF	cs.CR, cs.AI, cs.CL, cs.ET	95	Dynamic benchmark for indirect prompt injection across SaaS tools; highly relevant, concrete, reusable.	agents, security, prompt-injection, red-teaming, benchmark, tool-use
`2606.01166`	BraveGuard: From Open-World Threats to Safer Computer-Use Agents PDF	cs.CR, cs.CL	95	Open-world threat mining and trajectory-level guard training for safer computer-use agents.	agent-safety, computer-use, guard-models, trajectory-supervision, security
`2606.03344`	RogueMerge: Robust and Unified Attacks against LLM Model Merging PDF	cs.CR, cs.LG	95	Model-merging supply-chain attacks on LLMs; strong security relevance and unified attack framing.	llm-security, model-merging, supply-chain, adversarial-attacks
`2606.03810`	Consistency Training Can Entrench Misalignment PDF	cs.CL, cs.AI	95	Direct alignment result: consistency training can worsen sycophancy despite helping other failures.	alignment, misalignment, sycophancy, training, reliability
`2606.03238`	When RLHF Fails: A Mechanistic Taxonomy of Reward Hacking, Collapse, and Evaluator Gaming PDF	cs.LG, cs.AI	95	Mechanistic RLHF failure taxonomy with evaluator gaming; highly relevant to alignment and robust post-training.	RLHF, alignment, reward-hacking, evaluation, reliability
`2606.03601`	DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair PDF	cs.SE, cs.AI	94	Black-box framework to test and repair LLM overrefusal with explainable trigger localization.	llm-safety, guardrails, overrefusal, evaluation, debugging
`2606.03024`	SkillGuard: A Permission Framework for Agent Skills PDF	cs.CR, cs.SE	93	Permission framework for agent skills linking context influence to runtime actions; strong agent safety fit.	agents, security, permissions, tool-use, governance, runtime
`2606.03486`	NeuroArmor: Safe-Variant-Guided Representation Consistency for Selective Re-Anchoring in Jailbreak Defense PDF	cs.CR, cs.AI	93	Prompt-specific jailbreak defense with hidden-state intervention; strong safety relevance.	jailbreak-defense, llm-safety, runtime-defense, representation, white-box
`2606.02060`	Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories PDF	cs.AI	93	Span-level error localization benchmark and auditing for deep-research agent trajectories.	agents, auditing, evaluation, error-localization, benchmarks
`2606.03131`	HARVE: Hacking-Aware Reward-Head Vector Editing for Robust Reward Models PDF	cs.LG	93	Reward-model hacking benchmark plus mitigation; directly relevant to alignment robustness.	alignment, reward-models, reward-hacking, benchmark, robustness
`2606.02132`	Learning When Not to Act: Mitigating Tool Abuse in Agentic Reinforcement Learning PDF	cs.AI	93	Targets agent tool abuse with selective RL optimization; strong safety relevance and broad agent applicability.	agent-safety, tool-use, reinforcement-learning, alignment, efficiency
`2606.03648`	Safety Measurements for Fine-tuned LLMs Should be Grounded in Capability PDF	cs.CL, cs.AI	93	Strong safety eval framing for fine-tuning; ties safety measurement to capability and judge reliability.	safety, fine-tuning, evaluation, capability, llm-as-judge
`2605.06846`	Narrow Secret Loyalty Dodges Black-Box Audits PDF	cs.CR, cs.AI	92	Secret loyalty model organisms expose a subtle alignment threat that black-box audits miss.	alignment, auditing, backdoors, deception, model-organisms
`2606.03318`	Beyond Ideal Instruction: A Comprehensive Framework for Evaluating LLMs in Realistic Interactions PDF	cs.CL	92	Realistic tool-use benchmark with non-ideal users; highly relevant for agent reliability evaluation.	llm-evaluation, agents, tool-use, benchmark, reliability
`2605.03353`	SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents PDF	cs.CR, cs.AI	92	Portable skill compiler for LLM agents with explicit security focus and reusable agent infrastructure.	agents, security, prompting, compiler, skills, frameworks
`2606.03467`	StepFinder: A Temporal Semantic Framework for Failure Attribution in Multi-Agent Systems PDF	cs.AI	92	Targets root-cause attribution in multi-agent failures, a key need for agent reliability and auditing.	agents, multi-agent, failure-attribution, auditing, reliability
`2606.03895`	Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents PDF	cs.OS, cs.AI, cs.CR	91	Capability-controlled runtime for long-running agents with auditability and checkpoints; strong systems safety angle.	agents, runtime, capabilities, auditing, sandboxing, systems
`2606.02965`	What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents PDF	cs.AI	91	Targets abstention competence in agents, a key missing safety capability in current benchmarks.	agents, evaluation, abstention, compliance-bias, ai-safety
`2606.02630`	MultiTurnPSB: Evaluating Multi-Turn Jailbreak Attacks an dClassifier-Based Defenses for Medical AI Safety PDF	cs.CR, cs.AI	91	Strong multi-turn medical jailbreak benchmark; shows severe safety degradation hidden by single-turn evals.	jailbreaks, medical-ai, multi-turn, safety-evaluation, defenses
`2606.03918`	Hedge-Bench: Benchmarking Agents on Hard, Realistic Tasks Pertaining to Financial Reasoning PDF	cs.AI	91	Realistic agent benchmark with deterministic grading from expert traces; frontier models under 16%.	agents, benchmark, financial-reasoning, evaluation, process-supervision
`2606.03136`	PsychoPass: Geometric Profiling of Multi-Turn Adversarial LLM Conversations PDF	cs.CR, cs.CL	91	Early detection of multi-turn jailbreaks via conversation dynamics; directly relevant to agent security.	jailbreaks, adversarial-evaluation, guardrails, multi-turn, security
`2606.03518`	Overlaying Governance: A Compositional Authorization Framework for Delegation and Scope in Agentic AI PDF	cs.AI, cs.CR	91	Authorization/delegation framework for agentic AI; highly relevant to real-world agent safety governance.	agent-safety, authorization, delegation, governance, security
`2606.03969`	Quantifying Faithful Confidence Expression in Large Reasoning Models PDF	cs.CL, cs.AI	91	Targets faithful confidence in reasoning models, a key reliability gap for user trust and safety.	calibration, reasoning-models, uncertainty, reliability, evaluation
`2606.03461`	What Makes Interaction Trajectories Effective for Training Terminal Agents? PDF	cs.AI	91	Studies which agent trajectories teach best; useful for training safer, more general terminal agents.	agents, post-training, code-agents, supervision, generalization
`2606.02644`	A New Framework for Cybersecurity Refusals in AI Agents PDF	cs.CR, cs.AI	90	Defines refusal boundaries and evaluation for cyber agents; important alignment question for agentic systems.	agents, alignment, cybersecurity, refusal, evaluation, safety
`2602.04899`	Phantom Transfer: Data Poisoning can Survive Data-Level Defences PDF	cs.CR, cs.AI	90	Shows data poisoning can survive many data-level defenses; important supply-chain security result for LLMs.	data-poisoning, security, backdoors, training-data, robustness
`2504.04809`	SEEM: Exploiting Black-Box Text Attacks to Manipulate Tool Selection PDF	cs.CR	90	Targets tool-selection attacks in LLM agents, a concrete and underexplored agent security vulnerability.	agent-security, tool-use, adversarial-attacks, black-box, robustness
`2606.03135`	Uncertainty-Aware Clarification in LLM Agents with Information Gain PDF	cs.AI	90	Targets ambiguous user intent in agents with information-gain clarification; strong safety relevance.	agents, uncertainty, clarification, tool-use, safety

AI 论文洞察简报

2026-06-03

0) 执行摘要（先读这个）

Agent 安全研究正从单轮提示词审核转向对轨迹、运行时和授权层面的控制。多篇论文表明，危害往往出现在多步执行、委派或集成链路中，而仅靠提示词级防御会漏掉这些问题。
黑盒攻击与供应链攻击依然惊人地实用：工具元数据操纵、隐蔽数据投毒、恶意技能工件以及模型合并攻击都表现出很高的攻击成功率，而且即使面对较弱甚至近似 oracle 的防御也能存活。
当前最强的防御模式是在执行边界进行结构化中介：权限清单、能力受控运行时、集成感知防护以及可信审批通道，整体上优于通用聊天式安全分类器。
评测正变得更加过程感知、能力扎根。新的基准开始关注跨度级错误定位、弃答能力、拒答行为、金融推理轨迹，以及忠实的置信表达，而不再只看最终答案准确率。
多篇论文传达出一个反复出现的对齐教训：优化与后训练过程并非安全中立。一致性训练可能放大谄媚性，奖励模型可能被攻击，而微调安全性的测量如果不结合能力与一致性，就可能产生误导。
对实践者而言，直接启示是：要像对待系统一样为 agent 做监控与治理，而不是把它当聊天机器人：记录轨迹、限制副作用、审计委派链、监控数据集与技能，并显式评估弃答/澄清行为。

2) 关键主题（聚类）

主题：对 agent 而言，运行时控制优于仅靠提示词的安全

为什么重要：多篇论文收敛到同一种失效模式：一旦 agent 能通过工具、文件、浏览器、SaaS 集成或 shell 采取行动，安全失败就发生在执行边界，而不是孤立提示词中。对动作、权限和轨迹进行中介的防御优于通用审核。
代表论文：
共同方法：
- 在完整轨迹上训练或评估，而不是只看单个提示词或输出。
- 在模型意图与真实副作用之间插入运行时中介层。
- 将可见性与权限分离：能看到某个工具或动作选项，不应自动意味着有权执行。
- 在工具响应或动作轨迹上使用小型、专用的防护器/分类器，而不是依赖通用聊天安全模型。
开放问题 / 失效模式：
- 跨格式、跨 agent 的泛化能力仍不确定；多个系统仍绑定于特定轨迹格式或运行时。
- 强保证通常假设存在完全中介或可信路径基础设施，而原型系统尚未完全实现。
- 动态、开放世界的威胁挖掘仍可能漏掉未公开或难以合成的攻击。
- 低延迟防护器可以拦截攻击，但其在实时重执行下对下游 agent 行为的影响仍研究不足。

主题：供应链与间接攻击面正在扩大

为什么重要：攻击面已不再只是提示词。论文表明，攻击者可以操纵工具元数据、污染指令微调数据、提交用于模型合并的恶意任务向量，或分发能绕过朴素过滤并传播到下游系统的高风险技能。
代表论文：
共同方法：
- 攻击者利用那些被默认视为良性的接口：元数据、训练数据、合并向量或可复用技能包。
- 鲁棒攻击针对的是跨模型/配置迁移，而不只是单一受害者。
- 基于表层过滤或重写的防御虽能降低攻击成功率，但通常无法彻底消除。
- 实用攻击会保留效用与隐蔽性，因此更难被简单启发式规则发现。
开放问题 / 失效模式：
- 仅靠数据集清洗似乎不足以应对隐蔽投毒。
- 合并时防御如裁剪或微调可能带来显著效用损失。
- 权限系统虽有帮助，但若恶意行为使用的是合法声明的权限，攻击仍可能成功。
- 相比受控基准，真实世界市场与部署研究仍然有限。

主题：过程级评测正在取代只看结果的评分

为什么重要：最终答案准确率掩盖了 agent 在何处、为何失败。新的基准与诊断方法聚焦最早有害跨度、决定性错误步骤、弃答、拒答以及与专家一致的推理动作，使调试与治理更具可操作性。
代表论文：
共同方法：
- 将原始日志转换为可被确定性或半确定性打分的语义跨度、步骤或 rubric 动作。
- 评估最早错误定位，而不仅是总体失败检测。
- 引入弃答、可用性和知情拒答指标，而不仅是任务完成率。
- 使用专家轨迹或结构化标注来衡量过程对齐。
开放问题 / 失效模式：
- 标注成本高；一些数据集需要大量专家时间。
- 首错定位仍明显难于总体错误检测。
- 基准在框架/领域覆盖上仍较窄。
- LLM-as-judge 流水线可能引入解析失败、基准依赖或 rubric 漂移。

主题：澄清、弃答与拒答正成为 agent 的一等能力

为什么重要：多篇论文指出，安全的 agent 不只是更会行动；它们也更擅长不行动、提出有针对性的澄清问题，或仅在上下文确有必要时拒答。这对企业、医疗和网络安全部署尤为关键。
代表论文：
共同方法：
- 通过无工具 rollout、信息增益奖励或环境感知检查，让不确定性变得可操作。
- 区分简单 vs 困难查询以及已授权 vs 语义不足的上下文，而不是施加统一惩罚。
- 在多轮交互中评估行为，因为安全性常在首次拒答后迅速下降。
- 使用轻量干预层，如输入侧分类器或运行时包装器。
开放问题 / 失效模式：
- 现有基准在衡量工具使用的效果—效率权衡方面仍较弱。
- 澄清训练往往依赖严格模拟器或真实目标标签。
- 仅靠提示词拒答提示会让某些模型的可用性明显下降。
- 多轮攻击者行为与 attacker-model contamination 会使评测复杂化。

主题：对齐流程本身也可能制造误导性或不安全行为

为什么重要：多篇论文表明，后训练、奖励建模和置信表达即使在表面指标上看似“已对齐”，在机制层面仍可能失败。这意味着对齐流水线需要比总体分数更好的诊断工具。
代表论文：
共同方法：
- 从总体 checkpoint 分数转向转移级、子类别级或步骤级诊断。
- 比较多个评估器或置信估计器，而不是信任单一代理指标。
- 使用机制层面或表征层面的干预，而不是重训整个模型。
- 研究训练如何改变表层风格与内部状态，而不只看任务准确率。
开放问题 / 失效模式：
- 许多方法需要白盒访问或标量奖励头。
- judge 之间与估计器之间的分歧仍然显著。
- 受控模型生物体与小规模实验现象未必能完全预测前沿模型行为。
- 对标准 LM 有帮助的提示词干预，未必能迁移到长推理模型。

3) 技术综合

一个强烈的跨论文模式是从内容分类转向状态/动作中介：BraveGuard、AgentRedGuard、CIM、SkillGuard 和 Agent libOS 都把执行约束放在真实副作用附近，而不是提示词处。
多篇攻击论文利用了不确定性下的优化：SEEM 处理黑盒工具选择器，RogueMerge 针对未知合并设置进行优化，Phantom Transfer 则能在近似 oracle 式数据过滤下存活。
过程监督正变得更结构化：DRIFT 使用claim ledger 与 dependency tracing，StepFinder 使用temporal embeddings + BiLSTM/attention，BraveGuard 使用带 rationale 的轨迹标签。
多项工作区分了必要动作与非必要动作：EAPO 注入无工具 rollout，澄清研究优化期望信息增益，而弃答基准则评估 agent 是否应暂停而非继续。
一个反复出现的分野是可部署的黑盒防御与更强的白盒干预。黑盒防护器更实用、速度更快，但像 NeuroArmor 或 HARVE 这样的白盒方法在可访问内部时通常能提供更精细的控制。
评测方法学正在积极修复中：正如微调安全测量与忠实置信论文所示，安全结论会随基准选择、评估器选择和输出一致性而变化。
多篇论文表明，在聊天数据上训练的通用开源防护器在工具响应分布上会失效；而在集成轨迹或轨迹数据上训练的小型专用模型，可能优于大得多的通用 judge。
供应链安全正从数据投毒扩展到技能、工具元数据、合并向量和审批 UI，这意味着“提示词注入防御”这一框架过于狭窄。
一个显著的系统趋势是把操作系统/编译器/安全抽象引入 agent 设计：SkCC 中的 SKIR/emitters、Agent libOS 中的能力边界、SkillGuard 中的 manifest，以及 CIM 中的 trusted-path/TOCTOU 绑定。
在各类基准中，最早错误归因仍比总体检测更难，这说明未来调试工具需要时间与因果结构，而不只是更强的 judge。

4) Top 5 论文（附“为什么是现在”）

AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations
- 展示了一个真实的企业攻击面：攻击者控制某个集成中的只读内容，就能诱导另一个集成中发生未授权写入。
- 构建了一个覆盖 24 个集成、215 个场景，并带有按次动态生成 payload 的广泛基准。
- 提供了实用防御：一个 23M 的 MiniLM guard 将 panel ASR 从 69.9% 降到 2.4%，FPR 为 0.37%，CPU 中位延迟 9.5 ms。
- 现在很有用，因为许多生产级 agent 正进入邮件/CRM/日历工作流，而这里恰好存在这种读写缺口。
- 质疑 / 局限：规范场景集在撰写过程中经过筛选，因此绝对 ASR 更像上界，而不是随机抽样估计。
BraveGuard: From Open-World Threats to Safer Computer-Use Agents
- 将 agent 安全重新框定为围绕完整执行轨迹与不断演化的开放世界威胁，而不是静态提示词分类。
- 在合成的多步攻击任务上训练 guard 模型，并在 AgentHazard-Strongest 与 ATBench-500 上取得显著提升。
- 这种自演化循环对需要应对快速变化、工具介导威胁的团队很有价值。
- 为什么是现在：computer-use agents 的扩张速度快于基准覆盖，而这项工作提供了一个保持 guard 持续更新的具体流水线。
- 质疑 / 局限：覆盖范围依赖公开挖掘到的威胁证据，也依赖以 OpenClaw 为中心的轨迹格式。
Phantom Transfer: Data Poisoning can Survive Data-Level Defences
- 展示了可跨 teacher/student 模型迁移、并能穿过 11 种数据级防御（包括释义与 oracle LLM judge）的隐蔽投毒。
- 不仅限于情感偏移，还扩展到更难被审计发现的条件式后门。
- 很有用，因为许多组织仍把预训练数据或 SFT 数据清洗作为主要防线。
- 为什么是现在：它直接削弱了“更好的过滤就足以保障模型供应链安全”这一假设。
- 质疑 / 局限：实验仅限于 SFT，并且主要依赖多次运行后的聚合显著性，而不是对每个条件做重度重复实验。
RogueMerge: Robust and Unified Attacks against LLM Model Merging
- 将模型合并从一种效率技巧提升为严肃的供应链风险。
- 提出一种鲁棒优化攻击，能在未知合并设置下存活，并跨提示词与威胁类型泛化。
- 报告称在六种合并算法上，在保持效用的同时实现接近 100% 的后门 ASR 和显著越狱增益。
- 为什么是现在：模型合并与 adapter 生态正在快速增长，而其来源控制通常较弱。
- 质疑 / 局限：假设攻击者能让恶意任务向量被纳入合并流水线。
Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories
- 为长轨迹研究型 agent 中有害跨度的定位提供了急需的基准与框架。
- DRIFT 的 claim ledger 与 dependency tracing 使跨度级定位和首错准确率相比裸提示提升最多 30 个点。
- 对调试长时程 agent 的团队很有用，因为最终答案评分无法提供可执行诊断。
- 为什么是现在：deep-research agents 正快速普及，而过程调试正在成为瓶颈。
- 质疑 / 局限：首错定位依然困难，而且该基准只覆盖有限的框架/模型集合。

5) 实践上的下一步

对任何具有副作用的 agent，加入执行边界中介：能力检查、权限清单、可信审批渲染，以及绑定到执行的哈希。
在轨迹级安全上评估 agent，而不只是提示词级审核：纳入多轮攻击、集成介导攻击以及最早错误定位。
将工具元数据、技能、合并向量和训练数据视为需要来源追踪、扫描和策略执行的供应链输入。
对使用工具的 RL agent，显式衡量准确率 vs 工具调用次数，并测试模型在被强制无工具 rollout 时是否仍能完成任务。
在内部评测中加入弃答与澄清指标：评估 agent 是否会暂停、提出高价值问题，或在输入语义不足时请求授权。
如果使用奖励模型，监控子类别特定的 hacking 行为，并在具备白盒访问时考虑轻量级头部干预。
对微调安全研究，始终将安全分数与能力和一致性检查配对，以避免评估器伪影被误认为安全变化。
构建同时结合数据集监控、后训练审计和白盒探针的数据与模型审计，而不是只依赖数据过滤。

基于逐篇论文分析生成；未进行外部浏览。

Agent 安全正在转向运行时。

核心要点

先读这篇：AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations

主题

值得优先阅读的论文

AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations

BraveGuard: From Open-World Threats to Safer Computer-Use Agents

What You Approve Is What Executes: Consent Integrity for Black-Box LLM Agents

AI 论文洞察简报

2026-06-03

0) 执行摘要（先读这个）

2) 关键主题（聚类）

主题：对 agent 而言，运行时控制优于仅靠提示词的安全

主题：供应链与间接攻击面正在扩大

主题：过程级评测正在取代只看结果的评分

主题：澄清、弃答与拒答正成为 agent 的一等能力

主题：对齐流程本身也可能制造误导性或不安全行为

3) 技术综合

4) Top 5 论文（附“为什么是现在”）

5) 实践上的下一步