AI 论文日报(2026-03-20)

Published:

English version: /paper-news/2026-03-20/

运行统计

  • 候选论文: 211
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-03-18T00:00:00Z → 2026-03-19T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2603.17476UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models
PDF
cs.CV, cs.AI, cs.CL94Comprehensive system-level multimodal safety benchmark across 7 I/O modes; strong reuse for eval/red-teaming.multimodal-safety, benchmark, evaluation, red-teaming, UMM, cross-modality
2603.17372Understanding and Defending VLM Jailbreaks via Jailbreak-Related Representation Shift
PDF
cs.CV, cs.AI94Analyzes VLM jailbreak mechanism via rep shift; proposes defense using jailbreak direction.VLM, jailbreaks, representation, robustness, safety, defense
2603.17368Towards Safer Large Reasoning Models by Promoting Safety Decision-Making before Chain-of-Thought Generation
PDF
cs.AI94Targets CoT-induced safety regressions by forcing safety decisions before reasoning.safety, reasoning-models, chain-of-thought, alignment, guardrails
2603.17239LAAF: Logic-layer Automated Attack Framework A Systematic Red-Teaming Methodology for LPCI Vulnerabilities in Agentic Large Language Model Systems
PDF
cs.CR93Automated red-teaming for agentic systems w/ memory+RAG; LPCI taxonomy + staged escalation looks impactful.agent-security, prompt-injection, red-teaming, memory-attacks, RAG-security, framework
2603.17373SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems
PDF
cs.CL93Benchmark for pedagogical safety in AI tutors with taxonomy of harms; fills eval gap beyond toxicity.AI safety, evaluation, education, tutoring, harm taxonomy, benchmarks, LLM reliability
2603.17292SEAL-Tag: Self-Tag Evidence Aggregation with Probabilistic Circuits for PII-Safe Retrieval-Augmented Generation
PDF
cs.CR92PII-safe RAG runtime: verify-then-route with evidence tables + probabilistic circuits to prevent exfiltration.privacy, PII, RAG, data-exfiltration, tool-use, verification, probabilistic-circuits
2603.17902Differential Privacy in Generative AI Agents: Analysis and Optimal Tradeoffs
PDF
cs.CR, cs.AI91DP framework for enterprise-data leakage in agents; token/message-level DP and tradeoff analysis.privacy, differential privacy, agents, data leakage, enterprise, security, LLMs
2603.17445When Only the Final Text Survives: Implicit Execution Tracing for Multi-Agent Attribution
PDF
cs.AI, cs.CL91Token-level attribution for multi-agent outputs without logs via keyed implicit execution traces.multi-agent, attribution, auditing, monitoring, watermarking, accountability
2603.17639VeriGrey: Greybox Agent Validation
PDF
cs.AI90Greybox testing for LLM agents using tool-invocation feedback; targets rare dangerous tool calls/injections.agent-evaluation, security-testing, greybox-fuzzing, tool-use, prompt-injection, robustness
2603.17815Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain
PDF
cs.CL90Automatic step-level labels for PRMs via info gain; cheaper process supervision for CoT.process-supervision, PRM, reasoning, reliability, information-theory
2603.17915IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia
PDF
cs.CL, cs.AI89Large multilingual safety benchmark for 12 Indic languages; shows major cross-language safety drift.safety-evaluation, multilingual, benchmark, toxicity, refusal, low-resource-languages
2603.17775CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution
PDF
cs.CL, cs.AI, cs.LG89Fixes label-free RL 'consensus trap' with generator-verifier co-evolution for better reasoning.LLM, reasoning, RL, self-training, verification, robustness
2603.17305Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations
PDF
cs.AI, cs.CL, cs.LG88Latent-space RL + contrastive learning to separate safe/unsafe reasoning trajectories; aims at jailbreak robustness.alignment, jailbreak-defense, reasoning-models, representation-learning, RL, hidden-states
2603.17973TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis
PDF
cs.SE, cs.AI88Tool+benchmark to cut coding-agent regressions via code-test graphs; strong SWE-bench results.agents, software engineering, evaluation, robustness, regressions, GraphRAG, SWE-bench
2603.17781Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory
PDF
cs.AI88Shows prompt-memory failure modes; proposes hash-addressed Knowledge Objects for persistent facts.LLM memory, RAG, knowledge management, reliability, long-context, evaluation
2603.17839How do LLMs Compute Verbal Confidence
PDF
cs.CL, cs.AI, cs.LG88Mechanistic evidence on how LLMs form verbal confidence; useful for calibration/monitoring.uncertainty, calibration, interpretability, mechanistic, confidence
2603.17357WebPII: Benchmarking Visual PII Detection for Computer-Use Agents
PDF
cs.CR, cs.AI87Web screenshot PII detection benchmark for computer-use agents; fine-grained taxonomy + scalable synthetic gen.privacy, PII-detection, computer-use-agents, benchmark, vision-language, UI-security
2603.17504Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination
PDF
cs.CL87Targeted SFT dataset/benchmark to induce uncertainty admission and reduce hallucinations; many runs.hallucinations, calibration, SFT, datasets, benchmarks, LLM reliability, uncertainty
2603.17662FINER: MLLMs Hallucinate under Fine-grained Negative Queries
PDF
cs.CV, cs.AI86New fine-grained negative-query benchmarks for MLLM hallucinations; DPO tuning boosts robustness.MLLM, hallucination, benchmark, DPO, evaluation, robustness
2603.17233Draft-and-Prune: Improving the Reliability of Auto-formalization for Logical Reasoning
PDF
cs.AI86Verification + diversity reduces semantic failures in auto-formalization for sound reasoning.formal-verification, auto-formalization, reasoning, reliability, verification
2603.17419Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare
PDF
cs.CR, cs.AI85Zero-trust security architecture for production healthcare agents; practical controls for PHI/HIPAA contexts.agent-security, zero-trust, healthcare, PHI, deployment, access-control, governance
2603.17673Post-Training Local LLM Agents for Linux Privilege Escalation with Verifiable Rewards
PDF
cs.CR, cs.AI84Post-training local 4B agent for Linux privesc with verifiable rewards; relevant to security-agent capability/safety.cybersecurity, agents, post-training, verifiable-rewards, privilege-escalation, local-LLMs
2603.17829CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents
PDF
cs.SE, cs.AI, cs.CL84RL recipe trains code-search agents using only a Unix terminal; simplifies agent tooling assumptions.coding agents, reinforcement learning, code search, tool use, agents, efficiency
2603.18000AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse
PDF
cs.AI84Self-evolving agents that store reusable executable subagents; raises capability & safety stakes.agents, self-improvement, tool-use, code-generation, reusability
2603.17787Governed Memory: A Production Architecture for Multi-Agent Workflows
PDF
cs.AI, cs.CL, cs.MA82Shared memory + governance layer for multi-agent enterprise workflows; tackles context quality and oversight gaps.multi-agent, memory, governance, enterprise, RAG, observability, reliability
2603.17244Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures
PDF
cs.AI, cs.IR, cs.LO82Formal belief-revision semantics for versioned agent memory graphs; bridges AGM to graph ops.agent memory, belief revision, formal methods, knowledge representation, graphs, AGM
2603.17893scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns
PDF
cs.SE, cs.AI, cs.LG82LLM-generated lint patterns to catch scientific methodology bugs (leakage/CV/seeds) sustainably.code, LLM tools, reliability, static analysis, data leakage, evaluation
2603.17677Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models
PDF
cs.CL, cs.AI, cs.LG82Training-free adaptive guidance for RAG in diffusion LMs; mitigates noisy retrieval conflicts.RAG, grounding, diffusion-language-models, robustness, retrieval
2603.17863Procedural Generation of Algorithm Discovery Tasks in Machine Learning
PDF
cs.LG, cs.AI81Procedurally generated task suite for ML algorithm discovery; mitigates contamination/saturation.evaluation, benchmarks, procedural generation, AutoML, algorithm discovery, meta-learning
2603.17942Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing
PDF
cs.CL81Training-free multi-token prediction speeds decoding without loss; potentially big inference win.inference, speculative-decoding, multi-token-prediction, efficiency, LLMs

AI 论文洞察简报

2026-03-20

0) 核心要点(先读这个)

  • 推理时“多生成、强验证、再投票”正在赢得对正确性敏感的推理任务:Draft-and-Prune 表明,用求解器检查的良定义性(存在性+唯一性)可以把许多“可执行但错误”的形式化结果,转化为高准确率的自动形式化(AF)流水线。
  • 安全失败越来越像“表征/状态漂移”,而不是简单的意图误判:VLM 越狱工作发现了可分离的越狱状态,并在推理时移除其分量,在保持良性效用的同时显著降低 ASR。
  • 智能体安全正在收敛到两条互补路径:(a) 面向合规部署的基础设施零信任控制(沙箱、密钥隔离、出站白名单、审计),以及 (b) 通过工具序列反馈的灰盒模糊测试来进行系统化智能体红队
  • 记忆正在成为受治理、可版本化的底座——不只是检索:两种架构(图原生信念修正;企业级受治理记忆)都把溯源、修订语义、巩固安全与策略路由作为一等原语。
  • 带可验证奖励的后训练让小型本地智能体在狭窄但真实的安全任务上具备竞争力:一个 4B 模型在 Linux 提权上达到接近前沿的成功率,并在(评估的工作点上)实现每次成功推理成本降低 >100×。
  • 基准正在转向系统级多模态风险:UniSAFE 的共享目标、多 I/O 评估显示,多图像组合与多轮编辑相较文本输出任务风险更高。

2) 关键主题(聚类)

主题:通过剪枝、过程信号与求解器实现可验证推理

  • 重要性:当模型用于高风险推理时,瓶颈往往不是产出一个答案,而是确保产出的推理/程序在语义上忠实且不会静默失败。
  • 代表论文
  • 共同方法
    • 生成多个候选(计划/轨迹),再用验证器进行门控(求解器检查;任务校验器)。
    • 偏好廉价、可扩展的标注/验证(存在性/唯一性检查;MCNIG 的 O(N) 步级标注)。
    • 使用聚合/选择(对剪枝后的形式化做多数投票;通过 PRM 评分做 best-of-K)。
  • 开放问题 / 失效模式
    • 覆盖失败:采样可能从未包含忠实的形式化(剪枝无法解决)。
    • 验证器不匹配:步级标签/求解器检查可能无法捕获所有语义错误或下游目标。
    • 计算成本:多路径采样 + 验证在推理时可能很昂贵。

主题:通过作用于内部状态缓解越狱(CoT 前与多模态漂移)

主题:实践中的智能体安全:零信任部署 + 灰盒红队

  • 重要性:工具使用型智能体扩大了攻击面(密钥、出站、提示注入、集群漂移)。实用防御既需要预防性控制,也需要持续发现失败。
  • 代表论文
  • 共同方法
    • 将工具使用视为核心安全面:隔离执行(gVisor)、隔离密钥(凭证代理)、限制出站(白名单),并测试工具序列漏洞(VeriGrey 反馈)。
    • 增加审计/溯源:集群审计智能体(Tony);带密钥的隐式追踪从最终文本恢复归因/拓扑。
    • 用运维指标衡量成功(发现 HIGH 严重度问题;ITSR 提升;token 级归因准确率)。
  • 开放问题 / 失效模式
    • 相比基础设施控制,提示完整性仍然脆弱(在医疗零信任栈中被明确指出)。
    • 对仪表化有要求:VeriGrey 需要工具调用日志;IET 需要解码期调制与密钥管理。
    • 自适应攻击者:在刻意规避下,工具序列模糊测试收益与表征/溯源信号有多稳健?

主题:记忆作为受治理、可版本化、可信念修正的底座

主题:系统级评估与可靠性工具(多模态安全、方法学 lint、扩散式 RAG)

3) 技术综合

  • 多篇论文收敛到一个两阶段模式:先多样化候选(采样计划;采样 CoT;变异提示;检索上下文),再应用验证器/门控(求解器存在性/唯一性;校验器;工具序列新颖性;评审器集成)。
  • “验证”的外延正在从正确性扩展到良定义性与治理:D&P 剪除含糊/矛盾但可执行的程序;受治理记忆强制实体隔离与治理路由;医疗栈强制出站/密钥隔离。
  • 表征层干预正在成为可行防御:JRS-Rem 减去学习到的越狱方向;PreSafe 对齐 CoT 前的潜在决策信号——两者都旨在在降低 ASR 的同时保留效用。
  • 工具调用序列正在成为智能体版的覆盖度:VeriGrey 将其作为灰盒反馈;零信任栈加固工具面;溯源工作(IET)把智能体身份/拓扑编码进输出流。
  • 记忆系统正在收敛到版本化 + 巩固:Kumiho 的修订/标签图与 Dream State 巩固,与 Governed Memory 的去重 + 反思有界检索 + schema 生命周期监控相呼应。
  • 基准从单轮文本转向系统级模态与工作流:UniSAFE 强调多图像组合与多轮编辑;LoCoMo/LoCoMo-Plus 在 Kumiho 与 Governed Memory 中作为记忆压力测试出现。
  • 后训练趋势:可验证奖励设置(提权)让小模型显著提升;过程监督(MCNIG)降低 PRM 标注成本;两者都依赖校验器而非人工标签。
  • 多种方法明确以计算换可靠性:D&P(k 路径 + 求解器调用)、MCNIG(K 次 rollout 但 token 少于以往标注器)、ARAM(逐 token/逐步的熵/KL 计算)、VeriGrey(活动式执行)。

4) Top 5 论文(含“为何现在”)

1) Draft-and-Prune: Improving the Reliability of Auto-formalization for Logical Reasoning

  • 通过采样计划多样性求解器剪枝(仅保留存在性+唯一性解),把 AF 的脆弱性变成可控流水线。
  • 报告了显著的 AR-LSAT 提升(例如在 k=20 时,剪枝将 AccAF 从 45.13% 提升到 78.43%),表明语义门控是主要杠杆,而不只是语法修补。
  • “为何现在”:随着求解器支撑的推理更常见,语义忠实性成为限制因素;这是推理时、模块化的修复。
  • 质疑点:推理成本更高;当采样不到正确形式化时仍会失败。

2) UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models

  • 提供跨 7 类多模态 I/O 任务的共享目标基准,包含 ASR/ARR/SAS 指标与经验证的集成评判(与人工 r=0.962)。
  • 发现组合(IC)与多轮编辑(MT)尤其脆弱;图像输出任务比文本输出任务更脆弱。
  • “为何现在”:统一的 any-to-any 模型正在落地;安全评估需要匹配真实工作流(组合/编辑),而非单步提示。
  • 质疑点:不同任务对模型能力支持不一致;拒答机制使得难以完全“同口径”比较。

3) VeriGrey: Greybox Agent Validation

  • 工具序列反馈替代分支覆盖,并用上下文桥接变异来构造更可信的注入。
  • 实证提升显著(例如在 AgentDojo 上对 GPT-4.1 的 ITSR +33 个百分点;消融显示反馈与上下文桥接都关键)。
  • “为何现在”:间接提示注入是现实世界智能体的主导失败模式;团队需要可扩展的上线前验证。
  • 质疑点:需要仪表化;范围限定在单会话攻击(不含多会话记忆投毒)。

4) Understanding and Defending VLM Jailbreaks via Jailbreak-Related Representation Shift

  • 表明越狱/拒答/良性状态可分离;定义越狱方向并在推理时移除其投影(JRS-Rem)。
  • ASR 大幅下降(例如 LLaVA-1.5-7B 在 HADES 上 77.3%→12.2%),且在报告基准上良性效用变化可忽略。
  • “为何现在”:多模态越狱是部署阻碍;免训练、低开销防御更具吸引力。
  • 质疑点:依赖主干对齐;在更大规模与对抗性规避下尚未验证。

5) Post-Training Local LLM Agents for Linux Privilege Escalation with Verifiable Rewards

  • 展示 SFT + RLVR 可让本地 4B 智能体在可验证的多步安全任务上高度可靠(R=20 时 95.8%)。
  • 报告在所选工作点上,相比前沿 API 模型每次成功提权的期望推理成本降低 >100×。
  • “为何现在”:组织希望在敏感环境中使用本地、可复现的智能体;可验证任务天然适配 RLVR。
  • 质疑点:RL 训练计算开销大(4×H100 约 29 小时);领域较窄,生成器家族可能覆盖不了真实世界长尾。

5) 实用下一步

  • 对求解器支撑的推理系统:实现存在性/唯一性剪枝(或类似良定义性检查),并衡量你的错误中有多少是“可执行但错误”,如 D&P 的分解所示。
  • 对启用 CoT 的部署:评估安全性时对比 CoT 开 vs 关,并测试 预决策对齐方法(如 PreSafe 的 CoT 前潜变量对齐)是否能在不损害关键任务推理的情况下降低 ASR。
  • 对 VLM 产品:加入表征漂移监控(投影到越狱方向),并做 τ 扫描以绘制安全–效用前沿(如 JRS-Rem)。
  • 对智能体安全项目:将工具序列日志作为一等遥测信号;既用于灰盒模糊测试(VeriGrey 风格),也用于运行时异常检测。
  • 对受监管的智能体部署:优先基础设施控制(沙箱、密钥隔离、出站白名单),并将提示完整性层视为尽力而为;加入持续审计(如 “Tony” 审计智能体),并严格限定权限范围。
  • 对多智能体溯源:若可对解码进行仪表化,考虑带密钥的隐式追踪,即使日志被剥离也能保留归因/拓扑;尽早定义密钥管理与审计流程。
  • 对记忆/RAG 栈:从“检索文本”升级到版本化、受治理的记忆(含溯源、去重与有界反思);显式测试跨实体泄露与绕过治理场景。
  • 对评估:在安全套件中加入系统级多模态任务(组合、多轮编辑,UniSAFE 风格),并不仅跟踪 ASR,还跟踪严重性(ARR)与自我认知(SAS)。

由逐篇论文分析生成;未进行外部浏览。