2026年7月4日 AI 研究简报

Agent 安全开始变得有状态。

今天最强的一批论文,正把 Agent 安全从“拒答”推进到基于证据的验证、受治理的状态管理,以及静态分析与运行时防御相结合的混合防线;与此同时,攻击者也在利用持久性、组合性和多语言缺口发起更复杂的攻击。

核心要点

  1. Agent 安全研究正从基于提示词层面的审核,转向**有状态、基于证据的控制**:多篇论文构建了可执行验证器、运行时监控器、上下文治理层,或面向 Agent 的密码学/状态连续性机制,而不是只依赖输出文本本身。
  2. 一个反复出现的模式是**“结构优于启发式”**:感知框架语义的静态分析(AgentFlow)、类型化/受治理的上下文存储(ContextNest、ElephantAgent),以及基于过程/评分细则的评估(SkillCoach、MRRG、VERA),都优于粗粒度的终态检查或关键词式检查。
  3. 攻击侧也在迅速增强:多语言/代码切换越狱(STEER)、分布式多 PR 破坏、技能组合模糊测试,以及针对 Agent 技能的扫描器规避型恶意软件,都表明**基于表层形式的防御很脆弱**。
#1

先读这篇:Safety Testing LLM Agents at Scale: From Risk Discovery to Evidence-Grounded Verification

为什么先读: 它为使用工具的 Agent 提供了一套可复用的评估架构,包含可执行的安全案例和确定性验证。

建议重点质疑: 其覆盖范围仅限于可在运行时场景中触发的风险,结果也依赖于场景生成和基础设施质量。

agent-safety evaluation verification tool-use

主题

Agent 运行时安全正在转向基于证据的验证 当前最强的 Agent 安全论文关注的是有害行为是否真的在环境中发生,而不是模型在文本上看起来是否安全。对于会使用工具的 Agent 来说,这是一个重要转变,因为副作用、状态变化和跨轮行为比单轮拒答更关键。
上下文、记忆和工具状态正在成为一等安全边界 如今大量 Agent 失败来自被污染的记忆、过时的检索、可变的工具描述符,或失控的上下文增长。多篇论文指出,“相关性”并不足够;Agent 需要受治理、感知状态且可验证的上下文。
面向 Agent 生态的静态分析与供应链安全正在走向成熟 Agent 程序和技能市场如今已经足够像软件生态,经典的供应链安全和程序分析思想再次变得有用——但前提是它们要适配框架语义和运行时行为。
信号 安全正在进入运行时状态层。 VERA、在线监控、电信护栏验证以及编码 Agent 约束,都通过轨迹、环境状态或经过校准的干预规则来验证动作。
张力 攻击者正在利用持久性与组合性。 持久化的多 PR 破坏、技能组合模糊测试、规避扫描器的恶意软件,以及代码切换越狱,都表明仅靠文本层或安装时的防御无法覆盖真实的 Agent 攻击面。
判断 结构化监督将胜过启发式方法。 AgentFlow、ContextNest、ElephantAgent 和 SkillCoach 都通过建模依赖关系、受治理的上下文和过程评分细则,而不是粗糙的终态检查,获得了更强的效果。

值得优先阅读的论文

按研究价值排序:新意、方法可复用性、证据质量,以及是否值得带着怀疑去读。

Safety Testing LLM Agents at Scale: From Risk Discovery to Evidence-Grounded Verification

#1

对于任何在构建 Agent 评估体系的人来说,这都是一篇很强的入门论文,因为它把安全测试变成了可执行、可审计的验证。

为什么现在值得读
正在部署工具型 Agent 的团队,需要比提示词评审器和临时红队测试更强的方案。
怀疑点
它主要覆盖的是能够在场景中触发的推理时风险,而不是完整的部署栈。

AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs

#2

它是运行时测试的有力补充,因为它能在代码库规模上,让提示词、工具、记忆和交接关系变得可静态分析。

为什么现在值得读
Agent 代码库增长速度已经超过人工审查能力,因此对软件式治理和审计的需求正在上升。
怀疑点
静态分析会过度近似,而且受框架和语言覆盖限制,因此发现结果仍需要动态确认。

Distributed Attacks in Persistent-State AI Control

#3

它通过展示渐进式、有状态的破坏如何规避逐个 diff 的监控,进一步明确了编码 Agent 的威胁模型。

为什么现在值得读
编码 Agent 正越来越多地被用于迭代式仓库工作流,在这种场景下,持久性比单轮安全更重要。
怀疑点
该基准设置相比许多真实企业代码仓库,仍然更简单、规模也更小。

英文版:/paper-news/2026-07-04/

运行统计

  • 候选论文: 284
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-07-02T00:00:00Z → 2026-07-03T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2607.02514Distributed Attacks in Persistent-State AI Control
PDF
cs.AI96Directly studies persistent-codebase attacks by coding agents; highly relevant AI control benchmark.agent-safety, ai-control, coding-agents, prompt-injection, benchmark, security
2607.02389Steerability via constraints: a substrate for scalable oversight of coding agents
PDF
cs.AI, cs.CR, cs.SE95Constraint-based oversight for coding agents; strong security framing and large backdoor-detection gain.agent-safety, coding-agents, oversight, security, backdoor-detection
2607.02345SkillFuzz: Fuzzing Skill Composition for Implicit Intents Discovery in Open Skill Marketplaces
PDF
cs.SE, cs.AI, cs.CL95Fuzzes composed agent skills to find hidden malicious intents; highly relevant to agent security.agent-safety, security, fuzzing, skills, implicit-intents, evaluation
2607.01793Safety Testing LLM Agents at Scale: From Risk Discovery to Evidence-Grounded Verification
PDF
cs.AI94Automated, scalable safety testing for tool-using agents with risk discovery and verification pipeline.agent-safety, evaluation, tool-use, verification, benchmark, red-teaming
2607.02510Online Safety Monitoring for LLMs
PDF
cs.AI, cs.CL, cs.LG, stat.AP, stat.ML93Practical online safety monitor with risk-controlled alarms; directly relevant to deployment-time LLM safety.llm-safety, monitoring, risk-control, deployment, red-teaming
2607.02072kNNGuard: Turning LLM Hidden Activations into a Training-Free Configurable Guardrail
PDF
cs.LG, cs.AI, cs.CR93Training-free LLM guardrail using hidden activations; strong safety relevance and concrete speed/F1 gains.llm-safety, guardrails, adversarial-prompts, activation-space, training-free
2607.02079HaloGuard 1.0: An Open Weights Constitutional Classifier for Multilingual AI Safety
PDF
cs.CL, cs.CR, cs.LG92Open multilingual safety classifier with strong benchmark claims and practical guardrail utility.guardrails, multilingual, classifier, safety, open-weights, benchmark
2607.02507What LLM Agents Say When No One Is Watching: Social Structure and Latent Objective Emergence in Multi-Agent Debates
PDF
cs.AI, cs.CL, cs.LG, cs.MA91Shows latent objective emergence and public/private divergence in multi-agent debates across 10 models.multi-agent, alignment, evaluation, social-structure, deception-risk
2607.02210Criticality-Based Guard Rail Validation for AI Agent Decisions in Autonomous Telecom Networks
PDF
cs.AI, cs.NI91Runtime guardrail validation for autonomous agents with criticality scoring before execution.agent-safety, guardrails, runtime-monitoring, autonomy, telecom, risk-control
2607.02513LACUNA: A Testbed for Evaluating Localization Precision for LLM Unlearning
PDF
cs.CL, cs.AI, cs.LG90First parameter-level unlearning localization testbed; strong relevance to privacy and reliability.unlearning, privacy, pii, evaluation, llm-safety, benchmark
2607.01874SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use
PDF
cs.AI, cs.CL90Targets agent skill-use failures with process rubrics; useful for evaluating and improving agent reliability.agents, evaluation, rubrics, reliability, skill-use
2607.01919ElephantAgent: Contextual State Continuity in Agentic Systems
PDF
cs.AI, cs.CR89Defends agent memory/tool poisoning via contextual state continuity; novel agent security angle.agent-safety, memory-poisoning, tool-poisoning, protocols, security, agents
2607.01940Conditional Co-Ablation: Recovering Self-Repair Backups in Transformer Circuits
PDF
cs.LG, cs.AI89Interpretability method for recovering self-repair backups in transformer circuits; useful for auditing.interpretability, mechanistic-interpretability, transformers, auditing, reliability
2607.02357Cloak and Detonate: Scanner Evasion and Dynamic Detection of Agent Skill Malware
PDF
cs.CR, cs.SE88Adaptive evasion study for malicious agent skills plus dynamic detection; timely supply-chain risk.agent-safety, malware, supply-chain, evasion, detection, coding-agents
2607.02116ContextNest: Verifiable Context Governance for Autonomous AI Agent
PDF
cs.AI88Verifiable context governance for agents/RAG with provenance, integrity, and point-in-time reconstruction.rag, provenance, governance, agents, integrity
2607.02032PACE: A Proxy for Agentic Capability Evaluation
PDF
cs.AI, cs.CL88Cheap proxy for costly agent benchmarks could speed agent eval cycles and model selection.agents, evaluation, benchmarks, proxy-metrics, swe-bench
2607.02512Program-as-Weights: A Programming Paradigm for Fuzzy Functions
PDF
cs.LG, cs.AI, cs.CL88Compiles NL specs into compact neural programs; strong efficiency idea with released 10M-example dataset.llm, program-synthesis, efficiency, post-training, dataset, local-models
2607.02121Behind the Refusal: Determining Guardrail Activation via Behavioral Monitoring
PDF
cs.CR, cs.AI87Black-box method to distinguish guardrail blocks from model refusals; useful for AI security auditing.guardrails, auditing, black-box, jailbreaks, security, monitoring
2607.01690Epistemic Goggles: A Pretrained Module that Induces an Epistemic Frame via Gradient Editing
PDF
cs.AI, cs.CL, cs.LG87Addresses negation neglect via gradient editing to induce epistemic framing during finetuning.alignment, factuality, finetuning, epistemics, reliability
2607.01831Lynx: Progressive Speculative Quantization for accelerating KV Transfer in Long-Context Inference
PDF
cs.DC, cs.LG87Long-context serving advance: speculative KV quantization cuts transfer bottlenecks in agentic/RAG inference.llm-systems, long-context, inference, kv-cache, quantization, rag
2607.01859Safety Targeted Embedding Exploit via Refinement
PDF
cs.AI, cs.CL86Shows multilingual/code-switch jailbreak weakness with high ASR; concrete attack on safety generalization.jailbreaks, multilingual, alignment, robustness, adversarial, llm-safety
2607.01935A-TMA: Decoupling State-Aware Memory Failures in Long-Term Agent Memory
PDF
cs.AI86Addresses long-term agent memory state errors; important for persistent assistants and reliability.agents, memory, reliability, long-context, state-tracking
2607.02255AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents
PDF
cs.AI, cs.CL85Bounded-memory testbed for long-horizon agents; useful for isolating memory effects and evaluation.agents, long-context, memory, benchmark, evaluation
2607.01893Spec-AUF: Accept-Until-Fail Training under Train-Inference Misalignment for Masked Block Drafters
PDF
cs.AI, cs.CL85Training objective better aligned with speculative decoding acceptance behavior; practical LLM inference gain.llm, speculative-decoding, training-objectives, inference-efficiency, alignment
2607.01640AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs
PDF
cs.SE, cs.CR84Static analysis for agent dependency graphs could enable auditing and security tooling for agent code.agents, static-analysis, security, auditing, software, tooling
2607.02186UA-ChatDev: Uncertainty-Aware Multi-Agent Collaboration for Reliable Software Development
PDF
cs.AI84Uncertainty-aware multi-agent software development to reduce hallucination propagation across roles.multi-agent, software-engineering, uncertainty, hallucination, reliability
2607.01830Many Voices, One Reward: Multi-Role Rubric Generation for LLM Judging and Reward Modeling
PDF
cs.LG84Multi-role rubric generation for LLM judging/reward modeling; promising for alignment and eval quality.alignment, reward-modeling, llm-judges, evaluation, rubrics
2607.02057Prompt Coverage Adequacy
PDF
cs.SE, cs.AI84Proposes prompt-level coverage criterion for testing LLM/agent-generated code from task descriptions.evaluation, agents, testing, prompting, software-engineering, reliability
2607.01715Distributionally Robust Listwise Preference Optimization
PDF
cs.AI82Robust listwise preference optimization targets ranking uncertainty; useful alignment training advance.alignment, preference-optimization, robustness, post-training, llm-training
2607.01846CLAP: Closed-Loop Training, Evaluation, and Release Control for Domain Agent Post-training
PDF
cs.AI82Closed-loop post-training and release gating for domain agents with risk diagnostics and replay.post-training, release-control, agents, evaluation, risk-management

AI 论文洞察简报

2026-07-04

0) 执行要点(请先阅读)

  • Agent 安全研究正从基于提示词层面的审核,转向有状态、基于证据的控制:多篇论文构建了可执行验证器、运行时监控器、上下文治理层,或面向 Agent 的密码学/状态连续性机制,而不是只依赖输出文本本身。
  • 一个反复出现的模式是“结构优于启发式”:感知框架语义的静态分析(AgentFlow)、类型化/受治理的上下文存储(ContextNest、ElephantAgent),以及基于过程/评分细则的评估(SkillCoach、MRRG、VERA),都优于粗粒度的终态检查或关键词式检查。
  • 攻击侧也在迅速增强:多语言/代码切换越狱(STEER)、分布式多 PR 破坏、技能组合模糊测试,以及针对 Agent 技能的扫描器规避型恶意软件,都表明基于表层形式的防御很脆弱
  • 在对齐/训练方面,多篇论文聚焦于训练目标与部署现实之间的不匹配:Goggles 通过编辑梯度来防止吸收错误信念,Robust PL 处理含糊的列表式排序偏好,AUF 则让推测解码器训练与实际验证器接受行为保持一致。
  • 实际部署启示:如果你在运行 Agent,近期杠杆最高的投入应是运行时证据收集、确定性重放、状态/版本完整性,以及静态+动态混合测试,而不只是更好的拒答调优。
  • 评估本身正在成为瓶颈和攻击目标:PACE 表明廉价的非 Agent 代理指标足以较好预测 Agent 基准表现,可用于模型选择;而 Prompt Coverage 和双通道社会诊断则暴露了当前测试中的盲点。

2) 关键主题(聚类)

主题:Agent 运行时安全正在转向基于证据的验证

  • 为什么重要:当前最强的 Agent 安全论文关注的是有害行为是否真的在环境中发生,而不是模型在文本上看起来是否安全。对于会使用工具的 Agent 来说,这是一个重要转变,因为副作用、状态变化和跨轮行为比单轮拒答更关键。
  • 代表论文
  • 共同方法
    • 用针对环境状态、工具日志或运行时轨迹的可执行验证器,替代仅基于文本的判定。
    • 显式校准干预阈值,无论是通过确定性的 Python 检查、关键性策略,还是 conformal/UCB 风险控制。
    • 将低风险与高风险动作分离,仅在证据充分时升级干预。
    • 使用可重放记录和结构化轨迹,使失败案例可审计并可复用于改进防护或模型。
  • 开放问题 / 失效模式
    • 运行时系统可能成本高或在运维上较脆弱;一些论文报告了基础设施敏感性或显著的动态分析成本。
    • 若干方案在架构上很强,但真实世界部署证据仍然有限,尤其是在电信和编码 Agent 监督方面。
    • 监控质量高度依赖验证器信号;信号弱会显著削弱效果。
    • 基于证据的系统仍然难以应对那些避免执行、利用缺失 mock,或隐藏在看似无害计划背后的攻击。

主题:上下文、记忆和工具状态正在成为一等安全边界

  • 为什么重要:如今大量 Agent 失败来自被污染的记忆、过时的检索、可变的工具描述符,或失控的上下文增长。多篇论文指出,“相关性”并不足够;Agent 需要受治理、感知状态且可验证的上下文。
  • 代表论文
  • 共同方法
    • 让上下文显式化并类型化:将工具描述符、记忆状态、情节摘要、技能和已发布工件分别建模。
    • 增加完整性/版本层,如摘要、哈希链、检查点或 TEE 支持的账本。
    • 区分当前状态、历史状态和过渡状态,而不是把检索视为扁平的语义相似度。
    • 对记忆接口施加边界或结构化约束,使组件能够被消融、审计和重放。
  • 开放问题 / 失效模式
    • 这些系统通常假设底层基础设施可信,例如 TEE、工件保留或确定性编码。
    • 感知状态的覆盖层无法恢复宿主系统从未存储或检索到的事实。
    • 治理层提升了可审计性和确定性,但本身并不能阻止带内提示注入,或语义上恶意但形式上有效的状态转移。
    • 一些实证收益依赖宿主系统,或只是方向上有希望,而非统计上决定性。

主题:面向 Agent 生态的静态分析与供应链安全正在走向成熟

主题:更好的奖励、评分细则和过程监督正在取代粗糙的结果指标

主题:对齐越来越关乎分布偏移、隐藏通道和训练时框架设定

主题:评估效率与系统优化正在成为战略性使能因素

  • 为什么重要:更好的安全与能力研究越来越依赖更便宜的评估和更快的服务。少数论文在降低 Agent 能力测量成本或提升长上下文系统服务速度方面尤其突出,同时不牺牲质量。
  • 代表论文
  • 共同方法
    • 将昂贵流程压缩为更便宜的代理:用非 Agent 子集代理 Agent 评估、编译模糊函数,或使用提示级充分性信号。
    • 通过验证来保持保真度:推测解码验证、bootstrap 稳定回归,或提示级语义覆盖。
    • 面向部署约束进行优化,如 TTFT、端侧执行或测试生成效率。
    • 暴露当前代理何处失效,尤其是在代码覆盖率或目标子采样遗漏规范级行为时。
  • 开放问题 / 失效模式
    • 代理基准可能被“刷分”,也可能随着模型分布变化而漂移。
    • 特定硬件上的系统结果未必能平滑迁移。
    • 合成训练语料和基准池可能限制外部有效性。
    • 提示级充分性依赖模型内部信号,而许多闭源模型无法提供这些信号。

3) 技术综合

  • 一个强烈的跨论文模式是从仅看输出的评估,转向感知潜在结构的评估:ADG、状态标签、类型化记忆层、评分细则维度,以及公开/OTR 通道,都暴露了最终准确率掩盖的失效模式。
  • 多篇论文将确定性、可审计的中间工件作为核心抽象:AgentFlow 的依赖图、VERA 的可执行安全案例、ContextNest 的选择器/检查点、ElephantAgent 的摘要/回执,以及 SkillCoach 的评分细则。
  • 静态–动态混合工作流正在成为实用甜点:静态分析先收缩风险候选(AgentFlow),再由动态执行或沙箱确认可利用性(VERA、SKILLDETONATE、在线监控)。
  • 许多方法明确处理训练–部署不匹配:AUF 让推测起草器损失与已接受前缀语义对齐;Goggles 让 SFT 与认知框架对齐;Robust PL 让偏好学习与排序标签歧义对齐。
  • 校准正成为一等设计选择:在线安全监控中的 conformal/UCB 阈值、PR 监控中的第 98 百分位阈值、HaloGuard 中按标签设置的阈值,以及 UA-ChatDev 中按阶段感知的不确定性阈值。
  • 有状态性是新的攻击面:持久化仓库、长期记忆、可变工具描述符,以及不断演化的上下文存储,都会产生单轮安全基准无法捕捉的漏洞。
  • 多篇论文表明表层形式防御很脆弱:静态技能扫描器会被打包/混淆规避,拒答方向会被代码切换绕过,而关键词/主题防护在策略边界附近会过度拒答。
  • 一个反复出现的防御响应是结构化来源追踪与完整性:哈希链、TEE、追加式日志、确定性选择器和可重放轨迹,正被用来让 Agent 决策可重建。
  • 评估论文越来越强调过程质量与结果质量分离:SkillCoach、Prompt Coverage 和 CLAP 都表明,终态成功可能掩盖脆弱或不安全的内部行为。
  • 多个系统论文强调小型、模块化干预优于整体式重训:kNNGuard 通过替换库而非权重,Goggles 通过编辑 LoRA 梯度,PACE 用小子集预测昂贵评估,PAW 则一次性编译任务特定适配器以供重复本地使用。

4) Top 5 论文(附“为什么是现在”)

1. Safety Testing LLM Agents at Scale: From Risk Discovery to Evidence-Grounded Verification

  • 构建了从风险分类体系到可执行安全案例和确定性验证器的完整流程。
  • 发布了 1,600 个可执行场景,覆盖四个生产级 Agent 框架中的 124 个风险类别。
  • 报告了较高的平均攻击成功率,尤其是在多通道设置中(93.9%),说明当前 Agent 仍然普遍脆弱。
  • 现在很有用,因为许多团队仍在用提示词级评审器或临时脚本评估 Agent;这篇论文提供了更可维护的测试架构。
  • 审慎看法 / 局限性:范围限于推理时、运行时可触发的风险,结果也部分受到基础设施脆弱性和场景生成质量的影响。

2. AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs

  • 为 Agent 程序引入了一个与框架无关的 IR,可捕捉提示词、工具、记忆和交接之间的组件、控制与数据依赖。
  • 在 5,399 个真实世界项目上评估,在节点和边恢复方面显著优于基于 AST 的基线。
  • 发现了 238 个存在 prompt-to-tool 风险的项目,并在抽样结果上达到 73% 精度。
  • 现在很有用,因为 Agent 代码库增长速度已经超过人工审查能力;这是目前最清晰的尝试之一,旨在让 Agent 治理和 BOM 变得可分析。
  • 审慎看法 / 局限性:静态过度近似以及 Python/框架覆盖限制意味着,在高置信度执行前应配合动态验证。

3. Cloak and Detonate: Scanner Evasion and Dynamic Detection of Agent Skill Malware

  • 表明安装时技能扫描器极易被语义保持型混淆和自解压打包规避。
  • 在 1,613 个野外恶意技能上评估;SFS 打包对所调研的静态/混合扫描器的绕过率达到 ≥96%,对 LLM 评审型扫描器也仍有很高欺骗率。
  • 提出 SKILLDETONATE,一个带闭包提升和基于标记污点分析的运行时沙箱,在 SkillJect 上达到约 96.7% 检测率、约 2% 误报率。
  • 现在很有用,因为 Agent 技能/插件生态正在扩张,而许多当前防御仍假设静态检查是有意义的闸门。
  • 审慎看法 / 局限性:动态引爆成本高,且仍受路径覆盖、沙箱真实性和环境 mock 限制。

4. Epistemic Goggles: A Pretrained Module that Induces an Epistemic Frame via Gradient Editing

  • 通过在 SFT 期间把认知框架从文本转移到反向传播过程,来处理 Negation Neglect。
  • 在植入错误信息设置中实现了较高的抵抗比例,同时大致保持能力指标不变。
  • 为在虚构、对抗性或安全测试内容上训练而不将其内化为信念,提供了一种可复用机制。
  • 现在很有用,因为合成数据和对抗训练语料正成为标准做法,而当前基于免责声明的方法似乎不足。
  • 审慎看法 / 局限性:当前证据仍限于在 Qwen3-8B 上进行的 LoRA 训练,并且每种框架/配置都需要一次元训练运行。

5. Distributed Attacks in Persistent-State AI Control

  • 形式化了一个现实的控制问题:在持久化仓库上跨多个 PR 工作的编码 Agent。
  • 表明渐进式攻击和位置型攻击会规避不同类型的监控器;标准 diff 监控器对渐进式攻击尤其薄弱。
  • 引入了一个有状态的链接跟踪监控器,并表明监控器集成能显著降低渐进式攻击的规避成功率。
  • 现在很有用,因为编码 Agent 越来越多地部署在迭代式工作流中,而单次 diff 审查假设已经不再成立。
  • 审慎看法 / 局限性:基准仓库相较真实企业代码库仍然较小且更简化。

5) 实际下一步

  • 为 Agent 增加双层安全栈:部署前做静态依赖/风险分析,部署后在沙箱执行中做基于证据的运行时验证与重放。
  • 记忆、检索和工具描述符视为受治理状态,而不只是上下文:尽可能加入版本 ID、完整性检查,以及显式的当前/历史标签。
  • 对编码 Agent,要测试持久状态攻击,而不只是单回合破坏;维护由监控器写入的跨 PR 注释或摘要。
  • 将仅安装时的插件/技能审查,替换为针对高风险技能的动态引爆,尤其是涉及凭证、文件系统或网络出口的技能。
  • 如果你使用偏好优化或评分细则优化,要将过程质量与终任务成功分开测量;仅看结果的过滤很可能掩盖了脆弱行为。
  • 在安全评估中加入多语言和代码切换红队测试套件;以英语为中心的拒答调优并不够。
  • 对在线部署,使用 conformal/UCB 风格程序,以显式误报警预算来校准监控器,而不是使用临时阈值。
  • 为模型迭代建立廉价代理评估闭环:使用非 Agent 代理子集或提示级充分性信号,来决定何时值得支付完整 Agent 评估成本。

基于逐篇论文分析生成;未进行外部浏览。