核心要点

今天最强的主线，是研究重点正从平均情形下的基准分数，转向**运行保证与失败定位**：论文聚焦于错误行动预算、指令层级保持、持久状态治理，以及长上下文中的评分细则验证。
**推理时控制正变得更实用、更有针对性**：IHDec 在多轮解码中强制执行角色层级，ADAPT 在 grounding 退化时引导多模态交叉注意力，而 NPM/CPE 则利用内部激活或低秩扰动，在无需完整重训练的情况下恢复潜在技能或行为。
安全研究越来越关注**系统表面，而不只是模型输出**：模型中心、Web 智能体、技能注册表、提示注入、ASCII 艺术绕过内容审核，以及模型合并防御，都表明部署基础设施与组合层是主要攻击面。

先读这篇：Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds

为什么先读： 它把声明的错误行动预算转化为一条可审计的自主性规则，适用于带有人类升级处理机制的多智能体系统。

建议重点质疑： 它的保证依赖于局部偏差包络和表示鸿沟等假设，而这些假设在更困难的部署分布转移下可能失效。

agents reliability calibration human-in-the-loop

arXiv PDF

主题

推理时控制与机制性引导 今天相当一部分工作试图在不进行昂贵重训练的情况下改善行为，方法包括解码控制、激活引导或局部权重扰动。这对安全很有吸引力，因为它部署更快、审计更直接，并且能针对特定失效模式。

安全评估正从输出转向运行条件 如今最有用的评估，不再只是“模型能否回答？”，而更多是“系统能否在预算、时序、层级和长上下文约束下安全行动？”这更接近真实部署环境。

安全正转向生态系统与组合攻击 攻击面已不再只是基础模型。今天最强的安全论文瞄准的是模型中心、Web 智能体、技能注册表、模型合并、多语言越狱和审核绕过——这些都是组合与基础设施制造可利用缺口的地方。

信号 安全正在变得可运营。 act-or-defer 边界、评分细则验证基准、儿童安全审计和情感支持评估，衡量的都是约束条件下的安全行动，而不只是回答质量。

张力 内部控制胜过内部监控。 IHDec、ADAPT 和激活引导展示了有针对性的推理时收益，而行动前探针则给出了负面结果：它们无法可靠地检测失配行动。

判断 系统表面将主导失败。 模型中心、Web 智能体、提示注入、模型合并和技能供应链，都暴露出超越基础模型输出之外的攻击路径。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds

如果你需要可部署的自主性阈值，并且要求明确的人类升级处理与可度量的错误行动预算，这篇论文很有用。

为什么现在值得读: 智能体部署越来越需要可审计的弃权策略，而不只是更高的平均准确率。
怀疑点: 这些可靠性边界以若干假设为前提，而这些假设在复杂的真实环境中可能很难验证。

arXiv PDF

Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios?

它是一篇很强的配套论文，因为它检验了那些用于给智能体轨迹打分的评审器，是否足够可信到可以用于部署。

为什么现在值得读: LLM 评审器如今已嵌入长时程智能体的奖励、过滤和安全审计之中。
怀疑点: 它只覆盖了两个领域和二元评分细则标签，因此其普适性仍然有限。

arXiv PDF

IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies

如果你在寻找一种实用的推理时防御方法，用于应对多轮角色冲突和提示注入失效，这篇值得一读。

为什么现在值得读: 随着智能体在更长、对抗性更强的对话中运行，指令层级失效正变得越来越核心。
怀疑点: 它需要多次反事实前向传播和 logit 访问，这限制了低成本或仅 API 方式的部署。

arXiv PDF

英文版：/paper-news/2026-07-06/

运行统计

候选论文: 1416
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-07-03T00:00:00Z → 2026-07-04T00:00:00Z (weekend_backlog_sat, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2606.29685`	CAREBench: A Child-Safety Risk Benchmark for Language Models PDF	cs.LG	95	Child-safety benchmark for upstream LM risks; highly relevant safety eval with concrete categories.	safety, benchmark, evaluation, child-safety, risk-assessment
`2606.30449`	Internal-State Probes Read the Situation, Not the Action: Three Negative Results for Pre-Action Misalignment Monitoring PDF	cs.LG	94	Important negative result on internal-monitoring for agent misalignment; directly safety-relevant.	ai-safety, monitoring, interpretability, agents, negative-results
`2606.29920`	Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios? PDF	cs.CL	94	Benchmarking LLM-judge reliability for agentic rubric verification is highly relevant to safe evals.	evaluation, llm-as-judge, agents, benchmark, reliability
`2606.30899`	Curvature-Guided Module Localization for Low-Rank Detoxification of Backdoored Large Language Models PDF	cs.CR, cs.AI	93	Targets LLM backdoors with mechanistic localization and low-rank repair; strong security relevance.	llm-security, backdoor, detoxification, mechanistic-interpretability, model-repair
`2607.02329`	Grounded autonomous research: a fault-tolerant LLM pipeline from corpus to manuscript in frontier computational physics PDF	cs.AI, cond-mat.mtrl-sci, physics.comp-ph	93	Grounded autonomous research pipeline tackles hallucination/calibration in agentic science workflows.	agents, llm, grounding, hallucination, scientific-ai, evaluation
`2606.29602`	An Empirical Evaluation of Prompt Injection Vulnerabilities in Large Language Models Across Multilingual and Obfuscated Attack Scenarios PDF	cs.CR	92	Broad empirical study of prompt injection across models, languages, and obfuscation scenarios.	LLM-security, prompt-injection, multilingual, adversarial-evaluation, benchmarking
`2606.29654`	Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds PDF	cs.AI, cs.MA	92	Act-or-defer reliability bounds for multi-agent LLM deliberation with human escalation.	agents, reliability, calibration, human-in-the-loop, multi-agent
`2606.30306`	Always-OnAgents:A Survey of Persistent Memory, State, and Governance in LLMAgents PDF	cs.MA, cs.AI	92	Comprehensive survey of persistent-state LLM agents with governance, audit, rollback, and authority axes.	agents, memory, governance, survey, safety
`2606.29649`	Resolution Thresholds in VLM Detection of Harmful ASCII Art Across Construction Modes and Languages PDF	cs.CL	92	Directly probes VLM moderation failure on ASCII-art jailbreaks; strong safety relevance.	VLM, jailbreak, content-moderation, robustness, evaluation
`2606.29171`	Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies PDF	cs.LG, cs.AI, cs.CL	92	Mechanistic data attribution for refusal behavior; strong alignment interpretability angle.	alignment, interpretability, data-attribution, refusal, SAE, LLM
`2606.30119`	On the Internet, Nobody Knows You're an LLM Bot: Unmasking Web Agents with Multi-Layer Fingerprinting PDF	cs.CR	92	Directly targets detection of LLM web agents; strong agent security relevance.	agent-safety, web-agents, bot-detection, security, fingerprinting
`2607.01595`	Safe and Adaptive Cloud Healing: Verifying LLM-Generated Recovery Plans with a Neural-Symbolic World Model PDF	cs.AI, cs.CL	91	Verifies LLM-generated recovery plans with neuro-symbolic world model; strong agent safety angle.	agent-safety, verification, neuro-symbolic, planning, reliability, cloud
`2606.30256`	EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots PDF	cs.AI, cs.CY	91	Multilingual multi-turn safety benchmark for emotional-support chatbots with auditor-judge setup.	safety, benchmark, chatbots, multilingual, evaluation
`2607.00700`	LLVM-Bench: Benchmarking and Advancing Large Language Models for LLVM Compiler Issue Resolution PDF	cs.SE, cs.AI, cs.PL	91	Strong LLM agent benchmark/framework for real LLVM issue resolution with validated tasks and eval gym.	llm, agents, benchmark, code, software-engineering, evaluation
`2606.29315`	Hierarchical Experimentalist Agents PDF	cs.AI, cs.LG	91	Agent learns via active experimentation and reusable skills; strong agentic capability relevance.	agents, active-learning, self-improvement, long-horizon, experimentation
`2606.30573`	SWE-INTERACT: Reimagining SWE Benchmarks as User-Driven Long-Horizon Coding Sessions PDF	cs.LG	91	Interactive long-horizon coding-agent benchmark with evolving requirements; highly reusable eval.	agents, evaluation, coding-agents, benchmark, interactive, SWE
`2607.01136`	Skills Are Not Islands: Measuring Dependency and Risk in Agent Skill Supply Chains PDF	cs.SE, cs.AI	90	Introduces agent skill supply-chain risk framing plus dependency analysis benchmark/tooling.	agents, supply-chain-security, provenance, dependencies, benchmark
`2607.02201`	The Eticas AI Risk Taxonomy: Open Infrastructure for Operationalizing AI Audits PDF	cs.CY, cs.AI	90	Operationalizes AI audits with concrete risk testing; strong governance and evaluation relevance.	ai-auditing, risk-taxonomy, evaluation, governance, privacy
`2606.30518`	Regime-Aware Peer Specialization for Robust RAG under Heterogeneous Knowledge Conflicts PDF	cs.CL	90	Targets RAG failures under conflicting knowledge, including adversarial context, with regime-aware training.	RAG, grounding, adversarial, reliability, knowledge-conflict
`2606.30479`	COHORT: Collaborative Orchestration for Hardening via Offensive Replay on Emulated Topologies PDF	cs.NI, cs.AI, cs.CR, cs.MA	90	Automates network hardening via multi-agent LLMs and offensive replay on realistic emulated topologies.	agents, cybersecurity, defense, multi-agent, evaluation
`2606.31054`	ADAPT: Attention Dynamics Alignment with Preference Tuning for Faithful MLLMs PDF	cs.CV, cs.AI, cs.CL, cs.MM	90	Targets MLLM hallucination via cross-attention dynamics with preference tuning; strong reliability relevance.	MLLM, hallucination, faithfulness, attention, preference-tuning
`2606.29960`	IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies PDF	cs.CL	89	Training-free defense for multi-turn instruction hierarchy failures, central to agent robustness.	LLM-safety, instruction-hierarchy, contrastive-decoding, multi-turn, robustness
`2606.30373`	Your Space is My Zone: Demystifying the Security Risks of AI-Powered Applications on Pre-Trained Model Hubs PDF	cs.CR	89	Systematic security analysis of AI-app hubs exposes real deployment attack surfaces.	security, ai-apps, model-hubs, deployment, owasp
`2607.00436`	PHREEQC-MCQ-200: A Diagnostic Benchmark for Tool-Augmented Scientific Simulator Agents PDF	cs.AI	89	Useful benchmark for tool-augmented scientific agents; shows tool access can both help and hurt.	benchmark, agents, tool-use, evaluation, scientific-llms, reliability
`2606.29604`	Mechanistically Eliciting Latent Behaviors in Language Models PDF	cs.LG, cs.AI	89	Unsupervised method to elicit latent LLM behaviors; useful for risk discovery and interpretability.	interpretability, llms, behavior-elicitation, safety-evaluation, lora
`2606.30360`	On the Vulnerability of Parameter-Level Defenses to Model Merging PDF	cs.LG, cs.CV	89	Shows model-merging defenses can be bypassed; concrete attack on AI model protection.	security, model-merging, attack, defense-evasion, weights
`2606.29824`	Neural Procedural Memory: Empowering LLM Agents with Implicit Activation Steering PDF	cs.CL, cs.AI	89	Agent memory via activation steering is novel, reusable, and directly relevant to LLM agents.	llm-agents, memory, activation-steering, reliability
`2607.01751`	MedStreamBench: A Time-Aware Benchmark for Streaming and Proactive Medical Video Understanding PDF	cs.CV, cs.AI	89	Time-aware benchmark for when medical video models should answer, defer, or proactively alert.	benchmark, evaluation, multimodal, medical-ai, streaming, reliability
`2606.29445`	Bridging VideoQA and Video-Guided Agentic Tasks via Generalized Keyframe Extraction PDF	cs.CV, cs.AI	89	Benchmark for video-guided GUI agents; evaluates tutorial-to-action transfer in agentic settings.	agents, benchmark, multimodal, GUI-agents, evaluation
`2606.30182`	MirrorCode: AI can rebuild entire programs from behavior alone PDF	cs.AI	89	Long-horizon coding benchmark for rebuilding whole programs from behavior alone.	agents, coding, benchmark, software-engineering, evaluation, autonomy

AI 论文洞察简报

2026-07-06

0) 执行要点（请先阅读）

今天最强的主线，是研究重点正从平均情形下的基准分数，转向运行保证与失败定位：论文聚焦于错误行动预算、指令层级保持、持久状态治理，以及长上下文中的评分细则验证。
推理时控制正变得更实用、更有针对性：IHDec 在多轮解码中强制执行角色层级，ADAPT 在 grounding 退化时引导多模态交叉注意力，而 NPM/CPE 则利用内部激活或低秩扰动，在无需完整重训练的情况下恢复潜在技能或行为。
安全研究越来越关注系统表面，而不只是模型输出：模型中心、Web 智能体、技能注册表、提示注入、ASCII 艺术绕过内容审核，以及模型合并防御，都表明部署基础设施与组合层是主要攻击面。
工具使用有帮助，但往往并非单调改进：模拟器访问、交互式编程和长时程 SWE 场景会提升总体表现，同时也会让先前已解决的样本重新退化，因此保留率与轨迹级诊断比 headline accuracy 更重要。
多篇论文指出，评审器可靠性如今已是一类核心瓶颈：agentic 场景中的评分细则验证、情感支持审计和儿童安全评估都表明，未经校准的评审器会抹平有意义的差异，或漏掉细微伤害。
对前沿安全工作而言，可执行的模式已经很清晰：构建能够延迟决策、审计、回放、定位和回滚的系统，而不是假设单个对齐模型或单一基准分数就足够。

2) 关键主题（聚类）

主题：推理时控制与机制性引导

为什么重要：今天相当一部分工作试图在不进行昂贵重训练的情况下改善行为，方法包括解码控制、激活引导或局部权重扰动。这对安全很有吸引力，因为它部署更快、审计更直接，并且能针对特定失效模式。
代表论文：
共同方法：
- 将内部信号作为控制表面：角色级 JSD 影响、交叉注意力锚点、残差流引导向量，或 rank-1 LoRA 扰动。
- 进行稀疏或条件式干预，而不是全局干预，例如仅在检测到层级违规或注意力漂移时介入。
- 偏好无需训练或低成本的适配循环，可在冻结模型上工作，或仅使用小型适配器。
- 在具有行为意义的任务上评估：越狱、幻觉、sandbagging、过程执行，以及多轮层级冲突。
开放问题 / 失效模式：
- 大多数方法需要访问 logits、激活或注意力等内部信息，因此难以应用于封闭 API。
- 若干收益具有场景特异性；跨领域泛化仍缺乏充分测试。
- 引导可能因错误原因改变行为，负面结果已在行动前监控和特异性控制中有所体现。
- 对反事实解码和锚点构建方法而言，推理开销是真实存在的。

主题：安全评估正从输出转向运行条件

为什么重要：如今最有用的评估，不再只是“模型能否回答？”，而更多是“系统能否在预算、时序、层级和长上下文约束下安全行动？”这更接近真实部署环境。
代表论文：
共同方法：
- 用更丰富的指标替代单一标量准确率：错误行动预算使用量、已执行样本准确率、响应性、稳定性、评分细则级平衡准确率，或按风险类型划分的失败率。
- 将评审器视为需要校准的仪器，而不是真值。
- 评估完整轨迹或已部署系统行为，而不是孤立的单轮输出。
- 显式分解不确定性来源：校准误差、表示鸿沟、提示敏感性，或评审器宽松度。
开放问题 / 失效模式：
- 保证通常依赖于关于局部平滑性、状态压缩或评审器行为的假设。
- 尽管方法学更好，基准在模态、语言或领域上仍然偏窄。
- 长上下文和多轮设置暴露了评审器的脆弱性，尤其是在证据分散时。
- 在若干高风险领域，基于人工的验证仍然有限。

主题：安全正转向生态系统与组合攻击

为什么重要：攻击面已不再只是基础模型。今天最强的安全论文瞄准的是模型中心、Web 智能体、技能注册表、模型合并、多语言越狱和审核绕过——这些都是组合与基础设施制造可利用缺口的地方。
代表论文：
共同方法：
- 分析完整技术栈：代码、容器、日志、浏览器指纹、TLS、依赖图，或变换后的检查点。
- 说明隐藏的传递结构很重要：继承的软件包暴露、由锚点主导的受保护权重，或跨层指纹。
- 将大规模测量与具体利用或恢复流程配对。
- 强调治理工件，如类似 SBOM 的清单、审计轨迹和平台侧缓解措施。
开放问题 / 失效模式：
- 许多发现依赖于时间截面，因为平台、模型和防御都在快速演化。
- 检测与缓解通常需要特权访问或平台配合。
- 一些攻击利用的是基础几何结构或生态激励，而不只是实现缺陷。
- 在大规模扫描流水线中，精确率/召回率权衡仍然显著。

主题：工具增强型智能体有帮助，但接口与工作流主导结果

为什么重要：多篇论文表明，给智能体提供工具、模拟器或交互式用户，能够带来显著收益——但也会引入新的失效模式。瓶颈往往在于接口设计、检索结构或工作流分解，而不是原始模型能力。
代表论文：
共同方法：
- 评估端到端循环：提出、测试、检查、修订和提交。
- 增加结构化外部记忆或技能库，以在多个 episode 间摊销探索成本。
- 不仅衡量解决率，也衡量保留率、新增/丢失样本、步骤预算、token 成本和失败轨迹。
- 使用真实约束：隐藏测试、模拟器 API、用户反馈，或长时程执行预算。
开放问题 / 失效模式：
- 工具访问可能降低模型在原本无需工具即可解决样本上的保留率。
- 中等水平模型往往更难应对导航开销，而不是底层推理本身。
- 大幅收益可能需要可观的推理预算，使评估成本高昂。
- 相比真实世界部署的多样性，基准覆盖的环境仍然偏窄。

主题：针对隐藏行为、归因与监控的更好诊断

为什么重要：多篇论文超越了输出层评估，转而追问：究竟是哪种内部策略、训练数据或潜在模式在驱动行为。这对对齐有用，但今天的结果也表明，基于内部探针的结论很容易被过度宣称。
代表论文：
共同方法：
- 定义中间分析对象：基于 SAE 特征的符号策略、模块级触发路径，或行动前探针状态。
- 使用因果或准因果分解：激活修补、有限差分影响、Fisher/K-FAC 曲率，或阈值穿越测试。
- 压力测试内部信号能否跨场景泛化，并保持对所宣称行为的特异性。
- 在修复或审计行为时，优先采用局部干预而非全模型重训练。
开放问题 / 失效模式：
- 内部读出可能相关于情境线索，而非行动前兆。
- 符号或线性替代模型仍留下大量未解释方差。
- 通过重训练或移除进行因果验证仍然罕见。
- 受控触发器或单模型设置限制了外部有效性。

3) 技术综合

一个反复出现的设计模式是条件式干预：仅当置信界、注意力分数或层级违规信号越过阈值时才采取行动。
多篇论文使用同尺度辅助模型或同伴，而不是更大的教师模型：HExA 的 evolver、RAPS-DA 的 regime specialists，以及评审器集成都避免假设存在更强的 oracle。
反事实比较是多种方法的核心：IHDec 中的角色消融解码、后门修复中的干净 vs 触发激活修补、完整 vs 消融提示影响，以及无工具 vs 工具增强的保留率分析。
许多评估如今将总体收益与样本级回归分开，尤其是在工具使用和交互式编程中；“gained/lost/kept” 正变得比平均准确率更有信息量。
研究正明显转向结构化外部工件：技能库、SkillBOM、持久状态账本、可见/隐藏测试 harness，以及事件流审计协议。
校准已不再只是概率校准；它还包括评审器校准、局部偏差包络、审计严重度分带，以及稀疏干预的阈值选择。
多篇论文揭示了一个几何问题：模型合并中由锚点主导的受保护权重、act-or-defer 边界中的局部邻域偏差，以及探针和引导中的层特异可分离性或不可分离性。
长上下文智能体评估越来越依赖证据定位而非整体评分：评分细则验证、关键帧搜索和基于 TOC 的模拟器输出访问，都试图降低搜索负担。
安全论文反复表明，传递结构主导直接信号：技能供应链中的传递性软件包暴露、AI 应用中心中的继承平台风险，以及 Web 智能体的跨层指纹。
一个值得注意的方法学分化正在出现：一些论文使用内部信号进行控制，另一些则用其进行监控；今天的负面结果表明，当前控制可能比可靠的行动前检测更容易实现。

4) 前 5 篇论文（以及“为什么是现在”）

Your Space is My Zone: Demystifying the Security Risks of AI-Powered Applications on Pre-Trained Model Hubs
- 分析了主要模型中心上的 972,546 个公开 AI 应用，使其成为本批次中覆盖面最广的生态系统安全测量之一。
- 发现了平台设计缺陷和应用层问题：Ghost Token、Identifier Reuse、凭证泄露、易受攻击的 SDK、后门和加密劫持。
- 现在很有用，因为模型中心正成为默认部署表面，而这篇论文表明风险并非假设性的，而是已经可以大规模测量。
- 质疑 / 局限：扫描器是筛查工具，精度限制不可忽视，而且研究主要聚焦于公开的容器化应用。
Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds
- 将声明的错误行动预算转化为可部署的多智能体审议停止规则。
- 在激活的数据集上，经验上仅使用了声明预算的大约 ~9–12%，同时实现了最高 84% 的自动化率和 96% 的已执行样本准确率。
- 现在很有用，因为许多智能体部署需要可审计的自主性阈值，而不只是更好的平均准确率。
- 质疑 / 局限：保证依赖于局部偏差包络和表示鸿沟假设，这些假设可以诊断，但不能自动验证。
IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies
- 针对一个具体部署失效：在多轮场景中，低优先级轮次覆盖系统指令。
- 显示其在冲突场景中有显著提升，同时保留良性效用，并报告了在更大 Qwen 模型上的扩展收益。
- 现在很有用，因为提示注入和角色混淆正越来越多地发生在多轮和 agentic 场景中，而仅靠训练的防御仍然滞后。
- 质疑 / 局限：需要多次反事实前向传播和 logit 访问，因此部署成本和 API 兼容性是约束。
Hierarchical Experimentalist Agents
- 展示了一种无需训练的 actor–evolver–retriever 循环，可将实验轨迹转化为可复用技能。
- 在 Interphyre 上带来显著提升，包括强零样本跨层级迁移，以及在早期阶段优于同预算 GRPO 的低数据适应能力。
- 现在很有用，因为它为即使是封闭模型也提供了一条实用的、样本高效的智能体改进路径。
- 质疑 / 局限：证据仅限于二维物理领域，而且相对于梯度 RL 的渐近上限仍不清楚。
Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios?
- 引入了一个包含 2,458 个实例的基准，用于对长篇 agentic 输出进行评分细则验证，而不是短文本评判。
- 表明前沿评审器可以很强，但仍然有噪声，尤其是在长上下文且证据分散的编码轨迹中。
- 现在很有用，因为评分细则验证正越来越多地用于智能体流水线中的奖励、过滤和监控。
- 质疑 / 局限：基准范围仅限于两个领域和二元评分细则标签。

5) 实际下一步

在智能体评估中加入保留率核算：对于任何工具增强或交互式设置，跟踪 kept/gained/lost 样本，而不只是净准确率。
为高风险智能体行动试点act-or-defer 策略，使用局部置信界或经校准的弃权机制，尤其是在有人类复核可用的场景中。
在真实提示注入负载下测试多轮层级防御；如果可以访问 logits，就对具备角色感知的对比解码等推理时控制方法进行基准测试。
在依赖 LLM 评审器进行奖励建模或安全审计之前，先构建评审器校准套件；其中应包括严格评分细则、跨家族评审器和长上下文压力测试。
将持久记忆和技能视为受治理的状态，而不只是检索上下文：为记忆/技能存储增加来源、删除、回滚和权限元数据。
对多模态系统，监测内部 grounding 信号，如交叉注意力漂移，并将稀疏干预与仅基于输出的幻觉缓解方法进行比较。
对部署表面开展生态系统级安全审查：模型中心、运行时日志、嵌入式应用、技能注册表，以及智能体的浏览器/TLS 指纹。
对基于可解释性的安全主张，在将探针提升为生产监控器之前，要求其具备跨场景泛化与特异性控制。

根据逐篇论文分析生成；未进行外部浏览。

安全正在转向运营层面。

核心要点

先读这篇：Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds

主题

值得优先阅读的论文

Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds

Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios?

IHDec: Divergence-Steered Contrastive Decoding for Securing Multi-Turn Instruction Hierarchies

AI 论文洞察简报

2026-07-06

0) 执行要点（请先阅读）

2) 关键主题（聚类）

主题：推理时控制与机制性引导

主题：安全评估正从输出转向运行条件

主题：安全正转向生态系统与组合攻击

主题：工具增强型智能体有帮助，但接口与工作流主导结果

主题：针对隐藏行为、归因与监控的更好诊断

3) 技术综合

4) 前 5 篇论文（以及“为什么是现在”）

5) 实际下一步