AI 论文日报(2026-03-10)

Published:

English version: /paper-news/2026-03-10/

运行统计

  • 候选论文: 1292
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-03-06T01:00:00Z → 2026-03-07T01:00:00Z (weekend_backlog_sun, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2603.050992603.05099
PDF
92Generator-based ARC-AGI tasks w/ human validation; reduces leakage/overfit, improves eval rigorARC-AGI, benchmark, task-generation, evaluation, reasoning, data-leakage
2603.043562603.04356
PDF
92Large reproducible household-robot benchmark (365 tasks, 2.5k kitchens, 2k+ hrs demos) for eval/trainingrobotics, benchmark, simulation, generalist-robots, evaluation, demonstrations
2603.008892603.00889
PDF
92Compact synthetic reasoning data to overcome cold-start/coverage bottlenecks for open LLM reasoning.LLM, reasoning, synthetic-data, post-training, CoT, dataset
2603.048222603.04822
PDF
90Personalized value alignment; aims to reduce alignment tax, hallucinations, and value drift in finetuningalignment, personalization, value-learning, post-training, hallucinations, robustness
2603.016072603.01607
PDF
90Evidence-grounded agentic medical reasoning to reduce hallucination and improve accountability.medical-ai, agentic-framework, evidence-grounding, hallucinations, reliability, multimodal
2603.031192603.03119
PDF
90Formal semantics for agentic AI boundary crossing; governance-relevant model of authority expansion.agentic-systems, governance, formal-semantics, permissions, institutional-ai, safety
2603.026882603.02688
PDF
90Retrieve-Reason-Act for zero-shot robots; strong agentic grounding via external procedural docsrobotics, agents, RAG, tool-use, grounding, zero-shot
2603.047502603.04750
PDF
90Hierarchical multi-agent planning w/ transactional constraint monitor; strong agent reliability angle.multi-agent, planning, constraints, monitoring, long-horizon, GRPO
2603.009922603.00992
PDF
90Diffusion unlearning via mutual-information elimination; aims to preserve utility without compensationmachine-unlearning, diffusion-models, privacy, safety, concept-erasure
2603.027662603.02766
PDF
90Automates reusable agent-skill discovery via failure analysis; broadly useful for agent engineering.agents, skill-discovery, automation, multi-agent, tool-use, framework
2603.006562603.00656
PDF
88Info-gain rewards for multi-turn agents; better credit assignment for asking questions under uncertaintyagents, RL, policy-optimization, active-information-seeking, credit-assignment, GRPO
2603.027882603.02788
PDF
88Reproducible, auditable agent evaluation framework; structured failure modes + budgeted assessment.agent-evaluation, benchmarking, auditing, reliability, formal-methods, SMT, FOLIO
2603.011952603.01195
PDF
88Measures visual necessity to filter redundant/misaligned multimodal IT data; practical data curationmultimodal, instruction-tuning, data-selection, dataset-quality, evaluation, VLM
2603.049692603.04969
PDF
88Benchmark + metrics for multi-party conversation generation; decomposes speaker/content consistency and structureevaluation, benchmark, dialogue, multi-party, LLM, metrics
2602.227032602.22703
PDF
88New benchmark + RL method to improve VLM geometric perception via NL↔DSL translator guidance.VLM, benchmark, diagram-understanding, geometric-perception, RL, DPO, DSL
2603.029512603.02951
PDF
88Continual learning for GUI agents via RL fine-tuning to reduce forgetting under app updates.agents, GUI-agents, continual-learning, RL, tool-use, robustness
2603.028912603.02891
PDF
88Tensor-Core EM side-channel model extraction; important ML security risk for deployed frontier models.security, side-channels, model-extraction, GPU, Tensor-Cores, threat-model
2603.008462603.00846
PDF
86Cuts agentic RAG cost by using small critics for routing/eval; targets hallucinations and tool overuseRAG, agents, efficiency, hallucinations, routing, small-models, evaluation
2603.014822603.01482
PDF
86Security-relevant benchmark for audio deepfake detection across 20 SSL models and OOD settings.deepfakes, benchmark, speech-ssl, robustness, security, evaluation
2603.038652603.03865
PDF
86Structure-aware FL backdoors with new sensitivity/compatibility metrics; improves stealthy poisoning.federated-learning, backdoor, data-poisoning, security, robustness, model-architecture
2603.008952603.00895
PDF
86Large-scale real handwritten math grading study; practical benchmark + reliability signalsevaluation, education, OCR, LLMs, benchmark, reliability
2602.232392602.23239
PDF
86Argues formal limits of RLHF/optimization for norm-responsiveness; relevant to alignment theory.alignment, RLHF, agency, norms, theory, safety-philosophy
2603.037842603.03784
PDF
86Bridges explicit simulators & learned world models for agent planning; aims for verifiable long-horizon dynamics.agents, world-models, simulation, formal-methods, planning, verification
2603.005872603.00587
PDF
86Practical unlearning evaluation using subset statistical independence; no retraining or attacks neededmachine-unlearning, evaluation, privacy, HSIC, auditing
2603.005102603.00510
PDF
85Probes what visual tokens encode in MLLMs; finds sparsity/redundancy with a new analysis tool.multimodal, interpretability, representation-analysis, MLLM, probing, efficiency
2603.054712603.05471
PDF
84Evaluates fact-checking without retrieval; probes parametric knowledge limits and verification reliabilityfactuality, evaluation, fact-checking, parametric-knowledge, reliability, LLMs
2603.013432603.01343
PDF
84Disease-specific LLM safety/utility benchmark with expert rubrics and hallucination focus.medical-llms, benchmark, hallucinations, evaluation, safety-critical, rubrics
2603.043232603.04323
PDF
84Replaces gradient sharing with persistent-homology descriptors; targets privacy + non-IID in FL.federated-learning, privacy, gradient-leakage, personalization, topological-data-analysis, security
2603.012252603.01225
PDF
84RL post-training for hateful meme detection + rationale distillation; safety-relevant multimodal evalsafety, hateful-content, multimodal, RL, post-training, robustness, evaluation
2603.039152603.03915
PDF
84Shows role-play eval leakage via character names; anonymized benchmarking improves validityevaluation, LLMs, role-playing, benchmarking, data-contamination, personas

AI 论文洞察简报

2026-03-10

0) 核心要点(先读这个)

  • 反事实信号正在成为训练与数据选择的主力工具:多篇论文使用“移除/遮蔽某个模态或反馈”来构造密集学习信号(VisNec 用于多模态数据过滤;InfoPO 用于逐轮 RL 归因)。
  • 评估正在从端到端分数转向可类型化、可审计的失败模式:几何感知的规范 DSL 评分(GEOPERCEIVE)、遗忘/反学习的子集级统计检验(SDE)、带结构化运行时失败标签的代理式评测(AAA on FOLIO)、以及医学中的量表+原子事实断言核查(PanCanBench)。
  • 小型、专用的“批评器/路由器”是实用的鲁棒性杠杆:Tiny-Critic RAG 表明,一个 LoRA 微调的 1.7B 路由器在路由质量上可接近重型评估器,同时将 TTFT 和成本降低约一个数量级。
  • 多模态效率提升看起来真实且具机制解释:视觉 token 分析显示,约 ~40% 的投影视觉 tokens 是 sink/dead,可在不损害(有时还能提升)性能的情况下剪枝;中层注入往往可以替代早期视觉处理。
  • 隐私/安全威胁正在扩展到 API 之外:电磁侧信道可泄露 GPU Tensor Core 计算(演示了近场提取;远场泄露以 PoC 形式展示),且联邦学习后门可能被架构放大(SCC/SRS 指标可预测成功率)。
  • 治理/对齐研究正在推进“架构极限”和“边界语义”:一篇论文主张 RLHF 式优化在原则上无法对规范作出响应;另一篇将二阶“权威扩张”形式化为一类一等治理事件,要求原子化 Decide→Anchor→Effect 以及可回放的见证(witness)。

2) 关键主题(聚类)

主题:用反事实信号改进归因与数据效率

主题:通过规范化、量表与结构化失败类型实现“可审计评估”

主题:用于鲁棒代理式 RAG 的轻量门控/批评

  • 重要性:代理式流水线可能将嘈杂检索的错误级联到长工具调用循环;重型批评器增加延迟/成本。小型确定性路由器可在早期阻止浪费。
  • 代表论文
  • 共同方法
    • 插入显式控制点:二元路由(Tiny-Critic)、事务式 CHECK/COMMIT/ROLLBACK(HiMAP)、技能触发器/元数据(EvoSkill)。
    • 倾向廉价、结构化决策而非完整“反思式”生成(Tiny-Critic 的受限 1-token 解码)。
    • 留出验证接受改进(EvoSkill frontier),或用消融证明必要性(HiMAP)。
  • 开放问题 / 失效模式
    • 超出构造噪声协议的泛化(Tiny-Critic 在 5k queries、ρ=0.45 上评估)。
    • 事务监控只覆盖被跟踪的不变量(HiMAP 的 Σ 不强制所有约束,如最少住宿夜数/路线可行性)。
    • 方差报告有限(EvoSkill 因算力仅单次运行)。

主题:多模态内部机制:稀疏性、冗余与证据落地

主题:隐私与安全:从遗忘审计到物理与联邦威胁

主题:将对齐与治理视为架构/语义约束

3) 技术综合

  • 反事实评估正在跨领域收敛:遮蔽用户反馈(InfoPO)、遮蔽视觉 tokens(VisNec)、将自然语言翻译为规范 DSL 以评分(GeoDPO)。该模式无需新增人工标签即可产生密集信号。
  • 偏好/RL 微调正在被结构化评估器“仪表化”:GeoDPO 用翻译器将自由形式自然语言转为元素级奖励;CARE 为专家模块使用可验证奖励(匹配、格式、基于熵的置信度)。
  • 规范表示降低监督歧义:GEODSL 使图→程序映射唯一;AAA 强制确定性标签解析;PanCanBench 使用问题特定量表并进行原子断言事实性核查。
  • 效率工作越来越偏机制而非启发式:EmbedLens + 聚类识别 sink/dead/alive tokens 并验证剪枝;Tiny-Critic 用受限解码(Lmax=1)使路由确定且廉价。
  • 长时程约束满足的“全局状态”模式正在出现:HiMAP 的事务式 Σ 是显式外部记忆以强制不变量;在任务层面与治理“膜”语义(Decide→Anchor→Effect)精神相近。
  • 安全评估正在扩展到非标准通道:Tensor Cores 的 EM 泄露提示模型机密性需要物理层考虑;FL 后门依赖架构(SCC)与时间协同。
  • 遗忘验证正从逐样本 MIA 转向子集级检验:SDE 的 split-half HSIC 提供独立审计信号,可能与 ASR 风格成员指标结论不一致。
  • 医疗安全评估正在变得以量表与断言为中心:PanCanBench 显示网页搜索并不稳定提升量表分数,且可能挤占内部知识;CARE 推动像素级证据作为可追责工件。
  • 合成数据流水线对验证更严格:CHIMERA 使用双验证器过滤与低 n-gram 重叠检查;ARC-TGI 使用可执行见证与 episode 级约束防止退化样本。
  • 中间层的重要性反复出现:视觉 token 工作发现投影范数与中层对齐;INTRA 发现中间层对无检索事实核查最有信息量。

4) Top 5 论文(含“为何是现在”)

1) VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning(衡量并利用视觉必要性进行多模态指令微调)

  • 表明仅用15% 数据即可达到/超过全量数据微调(例如:LLaVA-665K 上 100.2%;Vision-Flan 上 115.8%)。
  • 使用简单可扩展的盲测 vs 多模态损失差并结合聚类保持多样性。
  • 实用“为何是现在”:多模态训练成本激增;这是直接降低算力并提升落地性的杠杆。
  • 质疑点:盲测前向是 OOD;严格过滤非正分数可能丢弃部分有用样本。

2) InfoPO: Information-Driven Policy Optimization for User-Centric Agents(面向用户中心智能体的信息驱动策略优化)

  • 引入逐轮反事实信息增益奖励以修复长时程归因问题。
  • 自适应方差门控将内在信号绑定到外部奖励不可区分时(报告了许多零方差 rollout 组)。
  • 实用“为何是现在”:交互式智能体无处不在;稀疏终止奖励是 RL 训练稳定性的主要障碍。
  • 质疑点:每轮额外前向增加训练成本;模拟器保真度影响结果。

3) PanCanBench: A Comprehensive Benchmark for Evaluating LLMs in Pancreatic Oncology(胰腺肿瘤学 LLM 综合评测基准)

  • 真实患者/照护者问题(282)与3,130 条量表标准;同时衡量完整性与事实错误。
  • 发现网页搜索并不稳定提升量表分数,且可能导致遗漏;AI 生成量表会抬高分数(+17.9 分)。
  • 实用“为何是现在”:面向患者的医疗使用在上升;该基准直接针对部署风险。
  • 质疑点:单疾病范围;尽管验证仍存在 judge 模型依赖。

4) ENHANCING GEOMETRIC PERCEPTION IN VLMs VIA TRANSLATOR-GUIDED REINFORCEMENT LEARNING(通过翻译器引导的强化学习增强 VLM 的几何感知)

  • 规范 GEODSL + 程序级指标隔离感知;GeoDPO 提升域内感知(示例 +26.5%)与下游几何推理(MathVista 几何子集最高 +39%)。
  • 翻译器使策略保持自然语言输出,同时获得结构化奖励。
  • 实用“为何是现在”:图形/几何失败是 VLM 常见幻觉模式;该工作同时提供基准与修复方法。
  • 质疑点:依赖翻译器质量;GEODSL 目前遗漏定量/代数约束。

5) Tiny-Critic RAG: Empowering Agentic Fallback with Parameter-Efficient Small Language Models

  • LoRA 微调的 1.7B 路由器达到routing F1 0.912(gpt-4o-mini 为 0.934),且TTFT 492 ms vs 1235 msCPQ $0.06 vs $3.00(每 10k queries)。
  • 受限 1-token 解码使路由确定且廉价。
  • 实用“为何是现在”:高吞吐代理式 RAG 需要控制延迟/成本且不牺牲鲁棒性。
  • 质疑点:评估使用特定对抗噪声协议与 5k-query 语料;更广噪声分布未展示。

5) 实用下一步

  • 在你的流水线中采用反事实评分:实现(纯文本 vs 多模态)损失差来过滤/加权多模态指令数据(VisNec 风格),并在固定算力下衡量幻觉/落地性是否改善。
  • 用密集逐轮信号为智能体训练加仪表:原型化 InfoPO 风格的遮蔽反馈信息增益,并在多轮任务上与 GRPO/PPO 基线对比学习曲线;在训练早期跟踪“结果方差为零”的频率。
  • 在昂贵批评器/工具前加入小型本地路由器:复现 Tiny-Critic 的受限解码门控,用于“检索是否被污染?”或“是否需要工具调用?”等决策;测量 TTFT、CPQ 与忠实性变化。
  • 在评估中分离感知与推理:对图表密集领域,考虑规范中间表示(DSL/程序)并在表示层评分(GEOPERCEIVE 模式)以定位失败来源。
  • 遗忘审计采用子集级依赖检验:对候选遗忘集尝试 SDE/HSIC 风格 split-half 依赖;与成员攻击 ASR 对比并关注不一致(如 Unroll 报告)。
  • 将威胁模型扩展到 API 之外:若部署在共享/可接触硬件上,复核物理侧信道暴露假设(Kraken),并考虑运维缓解(屏蔽、访问控制、工作负载隔离)。
  • 在 FL/分布式训练中将架构纳入后门风险评估:评估你的模型族是否对结构化触发具有高“兼容性”(SCC/SRS 思路),并在 DP/鲁棒聚合下测试防御。
  • 高风险领域优先采用量表 + 原子断言评估:借鉴 PanCanBench 将完整性与事实错误分离;显式测试网页搜索是否会“挤占”模型内部知识。

由逐篇论文分析生成;未进行外部浏览。