2026年7月6日 AI 研究简报
安全正在转向运营层面。
今天最强的一批论文把安全重点从平均情形下的输出,转向运行条件:可审计的延迟决策、评审器可靠性、多轮控制,以及生态系统层面的攻击面,如今正主导研究信号。
核心要点
- 今天最强的主线,是研究重点正从平均情形下的基准分数,转向**运行保证与失败定位**:论文聚焦于错误行动预算、指令层级保持、持久状态治理,以及长上下文中的评分细则验证。
- **推理时控制正变得更实用、更有针对性**:IHDec 在多轮解码中强制执行角色层级,ADAPT 在 grounding 退化时引导多模态交叉注意力,而 NPM/CPE 则利用内部激活或低秩扰动,在无需完整重训练的情况下恢复潜在技能或行为。
- 安全研究越来越关注**系统表面,而不只是模型输出**:模型中心、Web 智能体、技能注册表、提示注入、ASCII 艺术绕过内容审核,以及模型合并防御,都表明部署基础设施与组合层是主要攻击面。
#1
主题
值得优先阅读的论文
按研究价值排序:新意、方法可复用性、证据质量,以及是否值得带着怀疑去读。
Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds
#1如果你需要可部署的自主性阈值,并且要求明确的人类升级处理与可度量的错误行动预算,这篇论文很有用。
- 为什么现在值得读
- 智能体部署越来越需要可审计的弃权策略,而不只是更高的平均准确率。
- 怀疑点
- 这些可靠性边界以若干假设为前提,而这些假设在复杂的真实环境中可能很难验证。
Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios?
#2它是一篇很强的配套论文,因为它检验了那些用于给智能体轨迹打分的评审器,是否足够可信到可以用于部署。
- 为什么现在值得读
- LLM 评审器如今已嵌入长时程智能体的奖励、过滤和安全审计之中。
- 怀疑点
- 它只覆盖了两个领域和二元评分细则标签,因此其普适性仍然有限。
IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies
#3如果你在寻找一种实用的推理时防御方法,用于应对多轮角色冲突和提示注入失效,这篇值得一读。
- 为什么现在值得读
- 随着智能体在更长、对抗性更强的对话中运行,指令层级失效正变得越来越核心。
- 怀疑点
- 它需要多次反事实前向传播和 logit 访问,这限制了低成本或仅 API 方式的部署。
运行统计
- 候选论文: 1416
- 入选论文: 30
- 已精读完成: 30
- 时间窗口 (UTC): 2026-07-03T00:00:00Z → 2026-07-04T00:00:00Z (weekend_backlog_sat, expanded=0)
展开查看用于总结的论文列表
| arXiv ID | 标题 / 链接 | 分类 | 评分 | 入选理由 | 标签 |
|---|---|---|---|---|---|
2606.29685 | CAREBench: A Child-Safety Risk Benchmark for Language Models | cs.LG | 95 | Child-safety benchmark for upstream LM risks; highly relevant safety eval with concrete categories. | safety, benchmark, evaluation, child-safety, risk-assessment |
2606.30449 | Internal-State Probes Read the Situation, Not the Action: Three Negative Results for Pre-Action Misalignment Monitoring | cs.LG | 94 | Important negative result on internal-monitoring for agent misalignment; directly safety-relevant. | ai-safety, monitoring, interpretability, agents, negative-results |
2606.29920 | Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios? | cs.CL | 94 | Benchmarking LLM-judge reliability for agentic rubric verification is highly relevant to safe evals. | evaluation, llm-as-judge, agents, benchmark, reliability |
2606.30899 | Curvature-Guided Module Localization for Low-Rank Detoxification of Backdoored Large Language Models | cs.CR, cs.AI | 93 | Targets LLM backdoors with mechanistic localization and low-rank repair; strong security relevance. | llm-security, backdoor, detoxification, mechanistic-interpretability, model-repair |
2607.02329 | Grounded autonomous research: a fault-tolerant LLM pipeline from corpus to manuscript in frontier computational physics | cs.AI, cond-mat.mtrl-sci, physics.comp-ph | 93 | Grounded autonomous research pipeline tackles hallucination/calibration in agentic science workflows. | agents, llm, grounding, hallucination, scientific-ai, evaluation |
2606.29602 | An Empirical Evaluation of Prompt Injection Vulnerabilities in Large Language Models Across Multilingual and Obfuscated Attack Scenarios | cs.CR | 92 | Broad empirical study of prompt injection across models, languages, and obfuscation scenarios. | LLM-security, prompt-injection, multilingual, adversarial-evaluation, benchmarking |
2606.29654 | Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds | cs.AI, cs.MA | 92 | Act-or-defer reliability bounds for multi-agent LLM deliberation with human escalation. | agents, reliability, calibration, human-in-the-loop, multi-agent |
2606.30306 | Always-OnAgents:A Survey of Persistent Memory, State, and Governance in LLMAgents | cs.MA, cs.AI | 92 | Comprehensive survey of persistent-state LLM agents with governance, audit, rollback, and authority axes. | agents, memory, governance, survey, safety |
2606.29649 | Resolution Thresholds in VLM Detection of Harmful ASCII Art Across Construction Modes and Languages | cs.CL | 92 | Directly probes VLM moderation failure on ASCII-art jailbreaks; strong safety relevance. | VLM, jailbreak, content-moderation, robustness, evaluation |
2606.29171 | Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies | cs.LG, cs.AI, cs.CL | 92 | Mechanistic data attribution for refusal behavior; strong alignment interpretability angle. | alignment, interpretability, data-attribution, refusal, SAE, LLM |
2606.30119 | On the Internet, Nobody Knows You're an LLM Bot: Unmasking Web Agents with Multi-Layer Fingerprinting | cs.CR | 92 | Directly targets detection of LLM web agents; strong agent security relevance. | agent-safety, web-agents, bot-detection, security, fingerprinting |
2607.01595 | Safe and Adaptive Cloud Healing: Verifying LLM-Generated Recovery Plans with a Neural-Symbolic World Model | cs.AI, cs.CL | 91 | Verifies LLM-generated recovery plans with neuro-symbolic world model; strong agent safety angle. | agent-safety, verification, neuro-symbolic, planning, reliability, cloud |
2606.30256 | EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots | cs.AI, cs.CY | 91 | Multilingual multi-turn safety benchmark for emotional-support chatbots with auditor-judge setup. | safety, benchmark, chatbots, multilingual, evaluation |
2607.00700 | LLVM-Bench: Benchmarking and Advancing Large Language Models for LLVM Compiler Issue Resolution | cs.SE, cs.AI, cs.PL | 91 | Strong LLM agent benchmark/framework for real LLVM issue resolution with validated tasks and eval gym. | llm, agents, benchmark, code, software-engineering, evaluation |
2606.29315 | Hierarchical Experimentalist Agents | cs.AI, cs.LG | 91 | Agent learns via active experimentation and reusable skills; strong agentic capability relevance. | agents, active-learning, self-improvement, long-horizon, experimentation |
2606.30573 | SWE-INTERACT: Reimagining SWE Benchmarks as User-Driven Long-Horizon Coding Sessions | cs.LG | 91 | Interactive long-horizon coding-agent benchmark with evolving requirements; highly reusable eval. | agents, evaluation, coding-agents, benchmark, interactive, SWE |
2607.01136 | Skills Are Not Islands: Measuring Dependency and Risk in Agent Skill Supply Chains | cs.SE, cs.AI | 90 | Introduces agent skill supply-chain risk framing plus dependency analysis benchmark/tooling. | agents, supply-chain-security, provenance, dependencies, benchmark |
2607.02201 | The Eticas AI Risk Taxonomy: Open Infrastructure for Operationalizing AI Audits | cs.CY, cs.AI | 90 | Operationalizes AI audits with concrete risk testing; strong governance and evaluation relevance. | ai-auditing, risk-taxonomy, evaluation, governance, privacy |
2606.30518 | Regime-Aware Peer Specialization for Robust RAG under Heterogeneous Knowledge Conflicts | cs.CL | 90 | Targets RAG failures under conflicting knowledge, including adversarial context, with regime-aware training. | RAG, grounding, adversarial, reliability, knowledge-conflict |
2606.30479 | COHORT: Collaborative Orchestration for Hardening via Offensive Replay on Emulated Topologies | cs.NI, cs.AI, cs.CR, cs.MA | 90 | Automates network hardening via multi-agent LLMs and offensive replay on realistic emulated topologies. | agents, cybersecurity, defense, multi-agent, evaluation |
2606.31054 | ADAPT: Attention Dynamics Alignment with Preference Tuning for Faithful MLLMs | cs.CV, cs.AI, cs.CL, cs.MM | 90 | Targets MLLM hallucination via cross-attention dynamics with preference tuning; strong reliability relevance. | MLLM, hallucination, faithfulness, attention, preference-tuning |
2606.29960 | IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies | cs.CL | 89 | Training-free defense for multi-turn instruction hierarchy failures, central to agent robustness. | LLM-safety, instruction-hierarchy, contrastive-decoding, multi-turn, robustness |
2606.30373 | Your Space is My Zone: Demystifying the Security Risks of AI-Powered Applications on Pre-Trained Model Hubs | cs.CR | 89 | Systematic security analysis of AI-app hubs exposes real deployment attack surfaces. | security, ai-apps, model-hubs, deployment, owasp |
2607.00436 | PHREEQC-MCQ-200: A Diagnostic Benchmark for Tool-Augmented Scientific Simulator Agents | cs.AI | 89 | Useful benchmark for tool-augmented scientific agents; shows tool access can both help and hurt. | benchmark, agents, tool-use, evaluation, scientific-llms, reliability |
2606.29604 | Mechanistically Eliciting Latent Behaviors in Language Models | cs.LG, cs.AI | 89 | Unsupervised method to elicit latent LLM behaviors; useful for risk discovery and interpretability. | interpretability, llms, behavior-elicitation, safety-evaluation, lora |
2606.30360 | On the Vulnerability of Parameter-Level Defenses to Model Merging | cs.LG, cs.CV | 89 | Shows model-merging defenses can be bypassed; concrete attack on AI model protection. | security, model-merging, attack, defense-evasion, weights |
2606.29824 | Neural Procedural Memory: Empowering LLM Agents with Implicit Activation Steering | cs.CL, cs.AI | 89 | Agent memory via activation steering is novel, reusable, and directly relevant to LLM agents. | llm-agents, memory, activation-steering, reliability |
2607.01751 | MedStreamBench: A Time-Aware Benchmark for Streaming and Proactive Medical Video Understanding | cs.CV, cs.AI | 89 | Time-aware benchmark for when medical video models should answer, defer, or proactively alert. | benchmark, evaluation, multimodal, medical-ai, streaming, reliability |
2606.29445 | Bridging VideoQA and Video-Guided Agentic Tasks via Generalized Keyframe Extraction | cs.CV, cs.AI | 89 | Benchmark for video-guided GUI agents; evaluates tutorial-to-action transfer in agentic settings. | agents, benchmark, multimodal, GUI-agents, evaluation |
2606.30182 | MirrorCode: AI can rebuild entire programs from behavior alone | cs.AI | 89 | Long-horizon coding benchmark for rebuilding whole programs from behavior alone. | agents, coding, benchmark, software-engineering, evaluation, autonomy |
AI 论文洞察简报
2026-07-06
0) 执行要点(请先阅读)
- 今天最强的主线,是研究重点正从平均情形下的基准分数,转向运行保证与失败定位:论文聚焦于错误行动预算、指令层级保持、持久状态治理,以及长上下文中的评分细则验证。
- 推理时控制正变得更实用、更有针对性:IHDec 在多轮解码中强制执行角色层级,ADAPT 在 grounding 退化时引导多模态交叉注意力,而 NPM/CPE 则利用内部激活或低秩扰动,在无需完整重训练的情况下恢复潜在技能或行为。
- 安全研究越来越关注系统表面,而不只是模型输出:模型中心、Web 智能体、技能注册表、提示注入、ASCII 艺术绕过内容审核,以及模型合并防御,都表明部署基础设施与组合层是主要攻击面。
- 工具使用有帮助,但往往并非单调改进:模拟器访问、交互式编程和长时程 SWE 场景会提升总体表现,同时也会让先前已解决的样本重新退化,因此保留率与轨迹级诊断比 headline accuracy 更重要。
- 多篇论文指出,评审器可靠性如今已是一类核心瓶颈:agentic 场景中的评分细则验证、情感支持审计和儿童安全评估都表明,未经校准的评审器会抹平有意义的差异,或漏掉细微伤害。
- 对前沿安全工作而言,可执行的模式已经很清晰:构建能够延迟决策、审计、回放、定位和回滚的系统,而不是假设单个对齐模型或单一基准分数就足够。
2) 关键主题(聚类)
主题:推理时控制与机制性引导
- 为什么重要:今天相当一部分工作试图在不进行昂贵重训练的情况下改善行为,方法包括解码控制、激活引导或局部权重扰动。这对安全很有吸引力,因为它部署更快、审计更直接,并且能针对特定失效模式。
- 代表论文:
- IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies
- ADAPT: Attention Dynamics Alignment with Preference Tuning for Faithful MLLMs
- Neural Procedural Memory: Empowering LLM Agents with Implicit Activation Steering
- Mechanistically Eliciting Latent Behaviors in Language Models
- 共同方法:
- 将内部信号作为控制表面:角色级 JSD 影响、交叉注意力锚点、残差流引导向量,或 rank-1 LoRA 扰动。
- 进行稀疏或条件式干预,而不是全局干预,例如仅在检测到层级违规或注意力漂移时介入。
- 偏好无需训练或低成本的适配循环,可在冻结模型上工作,或仅使用小型适配器。
- 在具有行为意义的任务上评估:越狱、幻觉、sandbagging、过程执行,以及多轮层级冲突。
- 开放问题 / 失效模式:
- 大多数方法需要访问 logits、激活或注意力等内部信息,因此难以应用于封闭 API。
- 若干收益具有场景特异性;跨领域泛化仍缺乏充分测试。
- 引导可能因错误原因改变行为,负面结果已在行动前监控和特异性控制中有所体现。
- 对反事实解码和锚点构建方法而言,推理开销是真实存在的。
主题:安全评估正从输出转向运行条件
- 为什么重要:如今最有用的评估,不再只是“模型能否回答?”,而更多是“系统能否在预算、时序、层级和长上下文约束下安全行动?”这更接近真实部署环境。
- 代表论文:
- Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds
- Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios?
- EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots
- CAREBench: A Child-Safety Risk Benchmark for Language Models
- 共同方法:
- 用更丰富的指标替代单一标量准确率:错误行动预算使用量、已执行样本准确率、响应性、稳定性、评分细则级平衡准确率,或按风险类型划分的失败率。
- 将评审器视为需要校准的仪器,而不是真值。
- 评估完整轨迹或已部署系统行为,而不是孤立的单轮输出。
- 显式分解不确定性来源:校准误差、表示鸿沟、提示敏感性,或评审器宽松度。
- 开放问题 / 失效模式:
- 保证通常依赖于关于局部平滑性、状态压缩或评审器行为的假设。
- 尽管方法学更好,基准在模态、语言或领域上仍然偏窄。
- 长上下文和多轮设置暴露了评审器的脆弱性,尤其是在证据分散时。
- 在若干高风险领域,基于人工的验证仍然有限。
主题:安全正转向生态系统与组合攻击
- 为什么重要:攻击面已不再只是基础模型。今天最强的安全论文瞄准的是模型中心、Web 智能体、技能注册表、模型合并、多语言越狱和审核绕过——这些都是组合与基础设施制造可利用缺口的地方。
- 代表论文:
- Your Space is My Zone: Demystifying the Security Risks of AI-Powered Applications on Pre-Trained Model Hubs
- On the Internet, Nobody Knows You’re an LLM Bot: Unmasking Web Agents with Multi-Layer Fingerprinting
- On the Vulnerability of Parameter-Level Defenses to Model Merging
- Skills Are Not Islands: Measuring Dependency and Risk in Agent Skill Supply Chains
- 共同方法:
- 分析完整技术栈:代码、容器、日志、浏览器指纹、TLS、依赖图,或变换后的检查点。
- 说明隐藏的传递结构很重要:继承的软件包暴露、由锚点主导的受保护权重,或跨层指纹。
- 将大规模测量与具体利用或恢复流程配对。
- 强调治理工件,如类似 SBOM 的清单、审计轨迹和平台侧缓解措施。
- 开放问题 / 失效模式:
- 许多发现依赖于时间截面,因为平台、模型和防御都在快速演化。
- 检测与缓解通常需要特权访问或平台配合。
- 一些攻击利用的是基础几何结构或生态激励,而不只是实现缺陷。
- 在大规模扫描流水线中,精确率/召回率权衡仍然显著。
主题:工具增强型智能体有帮助,但接口与工作流主导结果
- 为什么重要:多篇论文表明,给智能体提供工具、模拟器或交互式用户,能够带来显著收益——但也会引入新的失效模式。瓶颈往往在于接口设计、检索结构或工作流分解,而不是原始模型能力。
- 代表论文:
- 共同方法:
- 评估端到端循环:提出、测试、检查、修订和提交。
- 增加结构化外部记忆或技能库,以在多个 episode 间摊销探索成本。
- 不仅衡量解决率,也衡量保留率、新增/丢失样本、步骤预算、token 成本和失败轨迹。
- 使用真实约束:隐藏测试、模拟器 API、用户反馈,或长时程执行预算。
- 开放问题 / 失效模式:
- 工具访问可能降低模型在原本无需工具即可解决样本上的保留率。
- 中等水平模型往往更难应对导航开销,而不是底层推理本身。
- 大幅收益可能需要可观的推理预算,使评估成本高昂。
- 相比真实世界部署的多样性,基准覆盖的环境仍然偏窄。
主题:针对隐藏行为、归因与监控的更好诊断
- 为什么重要:多篇论文超越了输出层评估,转而追问:究竟是哪种内部策略、训练数据或潜在模式在驱动行为。这对对齐有用,但今天的结果也表明,基于内部探针的结论很容易被过度宣称。
- 代表论文:
- Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies
- Internal-State Probes Read the Situation, Not the Action: Three Negative Results for Pre-Action Misalignment Monitoring
- Curvature-Guided Module Localization for Low-Rank Detoxification of Backdoored Large Language Models
- 共同方法:
- 定义中间分析对象:基于 SAE 特征的符号策略、模块级触发路径,或行动前探针状态。
- 使用因果或准因果分解:激活修补、有限差分影响、Fisher/K-FAC 曲率,或阈值穿越测试。
- 压力测试内部信号能否跨场景泛化,并保持对所宣称行为的特异性。
- 在修复或审计行为时,优先采用局部干预而非全模型重训练。
- 开放问题 / 失效模式:
- 内部读出可能相关于情境线索,而非行动前兆。
- 符号或线性替代模型仍留下大量未解释方差。
- 通过重训练或移除进行因果验证仍然罕见。
- 受控触发器或单模型设置限制了外部有效性。
3) 技术综合
- 一个反复出现的设计模式是条件式干预:仅当置信界、注意力分数或层级违规信号越过阈值时才采取行动。
- 多篇论文使用同尺度辅助模型或同伴,而不是更大的教师模型:HExA 的 evolver、RAPS-DA 的 regime specialists,以及评审器集成都避免假设存在更强的 oracle。
- 反事实比较是多种方法的核心:IHDec 中的角色消融解码、后门修复中的干净 vs 触发激活修补、完整 vs 消融提示影响,以及无工具 vs 工具增强的保留率分析。
- 许多评估如今将总体收益与样本级回归分开,尤其是在工具使用和交互式编程中;“gained/lost/kept” 正变得比平均准确率更有信息量。
- 研究正明显转向结构化外部工件:技能库、SkillBOM、持久状态账本、可见/隐藏测试 harness,以及事件流审计协议。
- 校准已不再只是概率校准;它还包括评审器校准、局部偏差包络、审计严重度分带,以及稀疏干预的阈值选择。
- 多篇论文揭示了一个几何问题:模型合并中由锚点主导的受保护权重、act-or-defer 边界中的局部邻域偏差,以及探针和引导中的层特异可分离性或不可分离性。
- 长上下文智能体评估越来越依赖证据定位而非整体评分:评分细则验证、关键帧搜索和基于 TOC 的模拟器输出访问,都试图降低搜索负担。
- 安全论文反复表明,传递结构主导直接信号:技能供应链中的传递性软件包暴露、AI 应用中心中的继承平台风险,以及 Web 智能体的跨层指纹。
- 一个值得注意的方法学分化正在出现:一些论文使用内部信号进行控制,另一些则用其进行监控;今天的负面结果表明,当前控制可能比可靠的行动前检测更容易实现。
4) 前 5 篇论文(以及“为什么是现在”)
- Your Space is My Zone: Demystifying the Security Risks of AI-Powered Applications on Pre-Trained Model Hubs
- 分析了主要模型中心上的 972,546 个公开 AI 应用,使其成为本批次中覆盖面最广的生态系统安全测量之一。
- 发现了平台设计缺陷和应用层问题:Ghost Token、Identifier Reuse、凭证泄露、易受攻击的 SDK、后门和加密劫持。
- 现在很有用,因为模型中心正成为默认部署表面,而这篇论文表明风险并非假设性的,而是已经可以大规模测量。
- 质疑 / 局限:扫描器是筛查工具,精度限制不可忽视,而且研究主要聚焦于公开的容器化应用。
- Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds
- 将声明的错误行动预算转化为可部署的多智能体审议停止规则。
- 在激活的数据集上,经验上仅使用了声明预算的大约 ~9–12%,同时实现了最高 84% 的自动化率和 96% 的已执行样本准确率。
- 现在很有用,因为许多智能体部署需要可审计的自主性阈值,而不只是更好的平均准确率。
- 质疑 / 局限:保证依赖于局部偏差包络和表示鸿沟假设,这些假设可以诊断,但不能自动验证。
- IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies
- 针对一个具体部署失效:在多轮场景中,低优先级轮次覆盖系统指令。
- 显示其在冲突场景中有显著提升,同时保留良性效用,并报告了在更大 Qwen 模型上的扩展收益。
- 现在很有用,因为提示注入和角色混淆正越来越多地发生在多轮和 agentic 场景中,而仅靠训练的防御仍然滞后。
- 质疑 / 局限:需要多次反事实前向传播和 logit 访问,因此部署成本和 API 兼容性是约束。
- Hierarchical Experimentalist Agents
- 展示了一种无需训练的 actor–evolver–retriever 循环,可将实验轨迹转化为可复用技能。
- 在 Interphyre 上带来显著提升,包括强零样本跨层级迁移,以及在早期阶段优于同预算 GRPO 的低数据适应能力。
- 现在很有用,因为它为即使是封闭模型也提供了一条实用的、样本高效的智能体改进路径。
- 质疑 / 局限:证据仅限于二维物理领域,而且相对于梯度 RL 的渐近上限仍不清楚。
- Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios?
- 引入了一个包含 2,458 个实例的基准,用于对长篇 agentic 输出进行评分细则验证,而不是短文本评判。
- 表明前沿评审器可以很强,但仍然有噪声,尤其是在长上下文且证据分散的编码轨迹中。
- 现在很有用,因为评分细则验证正越来越多地用于智能体流水线中的奖励、过滤和监控。
- 质疑 / 局限:基准范围仅限于两个领域和二元评分细则标签。
5) 实际下一步
- 在智能体评估中加入保留率核算:对于任何工具增强或交互式设置,跟踪 kept/gained/lost 样本,而不只是净准确率。
- 为高风险智能体行动试点act-or-defer 策略,使用局部置信界或经校准的弃权机制,尤其是在有人类复核可用的场景中。
- 在真实提示注入负载下测试多轮层级防御;如果可以访问 logits,就对具备角色感知的对比解码等推理时控制方法进行基准测试。
- 在依赖 LLM 评审器进行奖励建模或安全审计之前,先构建评审器校准套件;其中应包括严格评分细则、跨家族评审器和长上下文压力测试。
- 将持久记忆和技能视为受治理的状态,而不只是检索上下文:为记忆/技能存储增加来源、删除、回滚和权限元数据。
- 对多模态系统,监测内部 grounding 信号,如交叉注意力漂移,并将稀疏干预与仅基于输出的幻觉缓解方法进行比较。
- 对部署表面开展生态系统级安全审查:模型中心、运行时日志、嵌入式应用、技能注册表,以及智能体的浏览器/TLS 指纹。
- 对基于可解释性的安全主张,在将探针提升为生产监控器之前,要求其具备跨场景泛化与特异性控制。
根据逐篇论文分析生成;未进行外部浏览。