AI 论文日报（2026-03-11）

Published: March 11, 2026

English version: /paper-news/2026-03-11/

运行统计

候选论文: 258
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-03-09T00:00:00Z → 2026-03-10T00:00:00Z (arxiv_announce, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2603.08274`	How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms PDF	cs.CL, cs.AI	95	Massive, contamination-resistant hallucination measurement for doc QA across temps/contexts/hardware.	hallucination, evaluation, grounded-QA, long-context, methodology, reliability
`2603.08640`	PostTrainBench: Can LLM Agents Automate LLM Post-Training? PDF	cs.SE, cs.AI, cs.LG	95	Benchmarks autonomous agents doing LLM post-training under tight compute; key for AI R&D automation risk.	agents, post-training, automation, evaluation, bounded-compute, AI-research
`2603.08024`	ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments PDF	cs.CL	94	Interactive benchmark for human-AI conflict; exposes deception/self-preservation in agents	agent-safety, benchmark, multimodal, interactive-eval, deception, alignment
`2603.08104`	Invisible Safety Threat: Malicious Finetuning for LLM via Steganography PDF	cs.LG	93	Steganographic finetuning enables covert harmful outputs while appearing aligned	alignment, steganography, backdoor, model-security, covert-channels, red-teaming
`2603.08145`	DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding PDF	cs.LG, cs.AI	93	Retraining-free risk-sensitive decoding for preference disagreement; robust alignment control knobs.	alignment, preference-modeling, distributional-robustness, decoding, risk, RLHF, DPO
`2603.08655`	OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning PDF	cs.AI, cs.CL, cs.IR	93	Enterprise-scale grounded multi-doc reasoning benchmark; frontier models <35% even with corpus access.	benchmark, grounded-reasoning, RAG, documents, tables, evaluation, agents
`2603.08234`	The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs PDF	cs.AI, cs.LG	92	Mechanistic interpretability of a jailbreak trigger with causal attention-head interventions.	jailbreaks, mechanistic-interpretability, attention-heads, robustness, LLM-safety
`2603.08412`	Aligning to Illusions: Choice Blindness in Human and AI Feedback PDF	cs.CL, cs.AI	92	Shows choice blindness corrupts RLHF labels; LLM judges also fail under context/social pressure.	RLHF, preference-data, label-noise, evaluation, human-factors, LLM-judges, alignment
`2603.08520`	SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement PDF	cs.CR, cs.SE	91	Shows iterative code refinement can drift into worse security; proposes mitigation	code-security, agents, specification-drift, SAST, secure-coding, evaluation
`2603.08660`	How Far Can Unsupervised RLVR Scale LLM Training? PDF	cs.LG, cs.CL	91	Clear theory+experiments: intrinsic URLVR sharpens initial beliefs; can fail catastrophically when wrong.	RLVR, unsupervised-RL, verifiable-rewards, theory, scaling, safety-failure-modes
`2603.08179`	Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models PDF	eess.AS, cs.AI, eess.SP	90	Shows speaker-ID leakage in duplex speech LLMs and proposes streaming anonymization mitigations.	privacy, speech-LLMs, representation-leakage, anonymization, security
`2603.07978`	OSExpert: Computer-Use Agents Learning Professional Skills via Exploration PDF	cs.AI	90	OSExpert-Eval + exploration curriculum for computer-use agents; targets transfer, efficiency, fine actions.	computer-use, agents, benchmark, exploration, curriculum, UI, tool-use
`2603.08316`	SlowBA: An efficiency backdoor attack towards VLM-based GUI agents PDF	cs.CR, cs.CL, cs.CV	89	Backdoor attack on VLM GUI agents that triggers extreme latency via long reasoning	agent-security, VLM, GUI-agents, backdoor, availability-attack, reasoning
`2603.08091`	Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization PDF	cs.CL	88	JudgeBiasBench: taxonomy + benchmark to measure/debias LLM-judge evaluation biases	evaluation, LLM-judges, bias, reward-modeling, benchmark, debiasing
`2603.07853`	SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans PDF	cs.AI, cs.CL, cs.IR	88	Synthetic tool-use plans to fix exploration failures in research agents; boosts on open-web benchmarks.	agents, tool-use, exploration, synthetic-data, RL, web, benchmarks
`2603.07931`	BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence PDF	cs.CL	88	Multi-hop long multimodal doc QA with step-level grounded evidence; exposes hidden aggregation failures.	multimodal, long-context, benchmark, grounding, multi-hop, scientific-docs, RAG
`2603.08262`	FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use PDF	cs.AI	87	FinToolBench: runnable real financial tool-use benchmark for LLM agents in high-stakes domain	agents, tool-use, benchmark, finance, compliance, evaluation
`2603.08221`	SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration PDF	cs.CR, cs.AI	86	SplitAgent: enterprise-cloud agent split with dynamic sanitization + DP guarantees	privacy, agent-architecture, data-sanitization, differential-privacy, enterprise, security
`2603.08486`	Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images PDF	cs.CV, cs.AI	86	Label-free VLM safety persona shaping via threat-image exposure; relevant to multimodal safety.	multimodal-safety, VLM, alignment, persona, fine-tuning
`2603.08068`	In-Context Reinforcement Learning for Tool Use in Large Language Models PDF	cs.AI	86	In-context RL for tool use reduces SFT cold-start dependence; relevant to scalable agent training.	agents, tool-use, reinforcement-learning, in-context-learning, data-efficiency
`2603.07886`	CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases PDF	cs.CL, cs.AI	86	Benchmark for complex instruction following with constraints/control flow; closer to real deployment needs.	instruction-following, benchmark, constraints, control-flow, reliability, evaluation
`2603.08371`	Leaderboard Incentives: Model Rankings under Strategic Post-Training PDF	cs.GT, cs.LG	85	Formalizes benchmaxxing incentives; shows no Nash equilibrium under common benchmark dynamics.	evaluation, benchmarks, gaming, mechanism-design, game-theory, post-training
`2603.07980`	\$OneMillion-Bench: How Far are Language Agents from Human Experts? PDF	cs.LG, cs.AI, cs.CL	84	OneMillion-Bench: expert tasks for long-horizon agents in economically consequential settings	agents, benchmark, long-horizon, tool-use, professional-tasks, evaluation
`2603.08013`	PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents PDF	cs.AI	84	Benchmark for proactive GUI agents from continuous screenshots; long-horizon noisy trajectories.	agents, GUI, benchmark, proactive-assistants, evaluation
`2603.07990`	MJ1: Multimodal Judgment via Grounded Verification PDF	cs.LG	84	Grounded verification chain + counterfactual consistency RL improves multimodal judging with small model.	multimodal, judge-models, grounding, RL, evaluation, bias
`2603.07915`	Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents PDF	cs.AI	84	Per-step reasoning-effort routing for agents to cut cost without big accuracy loss; practical deployment.	agents, inference-efficiency, reasoning-budget, routing, cost-control, deployment
`2603.08429`	One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States PDF	cs.CL, cs.AI, cs.IR	83	Native retrieval embeddings from LLM hidden states; simplifies agent RAG stack with small loss.	RAG, retrieval, embeddings, agents, efficiency, representation-learning
`2603.08659`	CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning PDF	cs.CL	83	Formalizes adaptive reasoning as utility maximization; allocates tokens by difficulty to avoid overthinking.	adaptive-reasoning, inference-time-compute, token-budget, efficiency, reasoning-models
`2603.08117`	UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking PDF	cs.AI, cs.IR	82	UIS-QA benchmark targets unindexed info seeking; shows big drop for SOTA agents	agents, information-seeking, benchmark, web, retrieval, robustness
`2603.08706`	Agentic Critical Training PDF	cs.AI, cs.CL, cs.LG	82	RL paradigm trains agents to judge better actions among alternatives vs imitating reflection text.	agents, reinforcement-learning, critique, action-selection, training-paradigm, reasoning

AI 论文洞察简报

2026-03-11

0) 核心要点（先读这个）

智能体训练正在收敛到“更好的探索先验”，而不只是更好的 RL：合成计划引导的 SFT（SynPlanResearch-R1）与仅用 RL + 上下文示例（ICRL）都在瞄准同一瓶颈——on-policy RL 容易卡在浅层工具使用行为上。
自适应算力正在从“按查询”转向“按步骤 / 按实例”控制：ARES 按每个智能体步骤路由思考等级；CODA 通过塑形 RL 奖励按难度重新分配token——两者都能在（几乎）不损失准确率的情况下降本，但需要谨慎的标注/代理指标设计。
评测正在转向纠缠约束、长时程与真实世界约束：CCR-Bench（约束 + 工作流 + 工业日志）、OfficeQA Pro（企业 PDF + 数值精确性）、$OneMillion-Bench（专家量表 + 经济价值）、BRIDGE（多模态证据链）、UIS-QA（未索引网页）、FinToolBench（金融工具合规）都暴露出“标准 QA”遗漏的巨大差距。
安全威胁正从内容扩展到通道与资源：通过不可见 Unicode 隐写的恶意微调可绕过安全检查；SlowBA 在保持正确性的同时给延迟植入后门；“续写触发”越狱揭示了机制层面的“续写 vs 拒绝”电路张力。
裁判可靠性已成为一等对齐问题：MJ1 通过基于落地验证的核查 + 翻转一致性奖励提升多模态评判；JudgeBiasBench 量化 12 类偏置并用 GRPO/InfoNCE 降低偏置；选择盲视表明偏好数据可被悄然污染，而标准指标看起来仍正常。
企业/隐私约束正在架构化：SplitAgent 提出隐私代理 / 云端推理器拆分，配合 DP 预算与协议原语；全双工语音模型会在隐藏状态泄露说话人身份，但流式匿名化可将 EER 推向接近随机。

2) 关键主题（聚类）

主题：工具使用研究智能体——修复探索与冷启动

重要性：工具使用智能体失败往往不是因为“不了解事实”，而是因为工具轨迹浅层或脆弱；RL 无法探索初始策略从未尝试过的行为。
代表论文：
共同方法：
- 通过结构化先验（合成计划 + 提示线索）或rollout 内示范（ICRL 课程 3→2→0）塑形探索。
- 使用GRPO 风格的组 RL，配合格式奖励与对工具输出的 loss masking。
- 将工具能力扩展到搜索之外：UIS 需要 抓取（crawl）、可视化浏览、文件下载/解析。
开放问题 / 失效模式：
- 计算/数据成本：合成轨迹生成（教师模型）与多 rollout RL 昂贵。
- 对提示/课程/超参敏感（线索注入、课程调度）。
- 真实世界在证据未索引、动态或需要交互/文件解析时更脆弱（UIS 准确率仍约 ~27%）。

主题：长时程智能体的自适应推理与效率

重要性：长时程智能体会叠加 token 成本；“总是深度思考”在经济上不可行，但“少思考”会级联错误。
代表论文：
共同方法：
- 按步骤路由（ARES）：用轻量路由器从最大努力轨迹训练，并加入 RL 成本惩罚。
- 从 rollout 构造难度代理（CODA：组成功率）来惩罚简单题的冗长、鼓励难题的深思。
- 将成本从测试时转移到环境学习（OSExpert：GUI-DFS 技能发现 + 缓存流程 + 快速规划器）。
开放问题 / 失效模式：
- 标注/注释成本与裁判依赖（ARES 使用多次采样 + LLM 裁判 + 理由教师）。
- 代理噪声：在稀疏奖励/小组规模下难度估计不稳定（CODA）。
- 环境探索覆盖/可扩展性（OSExpert）与对强基座模型的依赖。

主题：面向“真实”指令遵循与落地工作的下一代基准

重要性：许多失败只会在约束纠缠、工作流交互、输出必须可审计（格式、工具、证据、合规）时出现。
代表论文：
共同方法：
- 从原子约束走向复合约束满足 + 工作流控制（CCR）。
- 使用专家量表甚至经济价值评估衡量有用性（OneMillion-Bench）。
- 强调大语料上的解析 + 检索 + 数值精确性（OfficeQA Pro）。
- 用领域合规指标评估工具轨迹（金融中的时效性/意图/领域不匹配）。
开放问题 / 失效模式：
- 小而高复杂度数据集（CCR 174、OfficeQA Pro 133 Pro、OneMillion 400、FinTool 295）可能限制训练用途。
- 对 LLM 裁判/混合评估的重依赖引入评估偏置/方差。
- 持续薄弱点：格式/结构约束（CCR）、时间修订错误 + 解析忠实性（OfficeQA Pro）、工具参数正确性 vs 覆盖率权衡（FinToolBench）。

主题：长上下文 / 多模态文档中的落地与幻觉

重要性：随着上下文窗口变大、模态混合，编造与漏证据成为主要可靠性失败。
代表论文：
共同方法：
- 提供显式证据链与基于裁判的忠实度指标（BRIDGE）。
- 用先有真值的合成语料实现大规模确定性评分（RIKER 研究）。
- 诊断流水线瓶颈：解析、检索深度、表格/图像处理（OfficeQA Pro）。
开放问题 / 失效模式：
- 检索在漏掉关键 hop 时会伤害表现（BRIDGE：ColPali 页级 RAG 降低审计分）。
- 编造随上下文长度急剧上升；在 200K 时没有模型能保持 <10% 编造率（RIKER）。
- 视觉/表格主导证据与跨页长距离 hop 仍困难（BRIDGE）。

主题：交互式对齐评测与裁判鲁棒性

重要性：对齐失败常在多轮之后出现；自动裁判可能有偏或不落地——污染评测与训练信号。
代表论文：
共同方法：
- 交互式、可复现环境 + 轨迹指标（ConflictBench TSR/ASR；后悔测试）。
- 通过结构化验证链与反事实一致性奖励强制落地（MJ1）。
- 通过受控反事实注入测量偏置并训练去偏裁判（JudgeBiasBench）。
- 压测反馈通道本身（选择盲视；迎合压力）。
开放问题 / 失效模式：
- 裁判可被博弈：“一致性表演”风险（MJ1 的翻转奖励注意事项）。
- 自动裁判偏置与对评估模型的依赖（CCR、FinToolBench、JudgeBiasBench）。
- 偏好污染对标准指标几乎不可见（成对准确率稳定但奖励信号崩塌）。

主题：安全与隐私——隐蔽通道、后门与架构性缓解

重要性：威胁开始攻击监控看不见的东西（不可见字符、延迟、隐藏状态），防御可能需要架构变更。
代表论文：
共同方法：
- 训练期攻击：表面保持良性行为，同时启用隐藏有害行为（隐写；延迟后门）。
- 对越狱电路进行机制定位（注意力头“安全 vs 续写”头）与推理期引导。
- 隐私即设计：本地净化，云端推理，配合 DP 预算与协议原语。
开放问题 / 失效模式：
- 检测：当载荷不可见（零宽 Unicode）时，内容过滤与人工审核失效。
- 新的目标面：延迟/能耗后门可逃逸基于正确性的监控。
- 信任假设：SplitAgent 假设本地隐私代理未被攻破；净化会增加延迟并带来效用损失。

3) 技术综合

GRPO 是主力：贯穿智能体训练、裁判与效率塑形（SynPlanResearch-R1、ARES、ICRL、MJ1、裁判去偏、CODA、ACT），通常配合格式奖励与对工具输出的 loss masking。
工具使用的两种“冷启动”策略正在形成竞争：
- 通过显式多样化工具计划的合成轨迹获得更好的 SFT 先验（SynPlanResearch-R1）。
- 不做 SFT：在 RL rollout 中注入 few-shot 示范并逐步退火（ICRL）。
探索 vs 合规是反复出现的权衡：更深的工具使用提升准确率（SynPlanResearch-R1），但在金融中，激进调用工具会降低合规/参数正确性（FinToolBench 显示部分模型 TIR 高但 CER 低）。
难度/努力估计正在内化：
- ARES 通过多次试验等价性检查学习每步最小努力标签。
- CODA 用组成功率作为难度代理来塑形长度奖励（并按正确性门控奖励以避免“刷长度”）。
检索日益成为瓶颈：BRIDGE 显示页级检索可能伤害多跳落地；OfficeQA Pro 显示解析 + 检索 + 时间修订处理占主导。
长上下文放大编造：172B-token 的 RIKER 研究发现编造随上下文长度陡增；温度变化在许多情况下可降低编造与连贯性损失。
对齐评测正在走向轨迹：ConflictBench 发现失败发生在多轮之后（平均失败轮次 5.28），并包含后悔测试；单轮 ASR 会高估对齐。
裁判鲁棒性被当作优化目标（MJ1 的翻转一致性奖励；JudgeBiasBench 的 BSR + 去偏训练），但选择盲视警告：反馈通道可被腐蚀而指标不报警。
安全威胁正在超越“有害文本”：不可见 Unicode 隐写绕过安全检查；延迟后门攻击可用性；机制越狱分析暗示提示结构可利用续写电路。
企业隐私正在系统化：SplitAgent 结合本地净化 + DP 预算 + 协议原语；语音对话模型在隐藏状态泄露身份，流式匿名化可缓解。

4) Top 5 论文（含“为何是现在”）

1) Invisible Safety Threat: Malicious Finetuning for LLM via Steganography（不可见安全威胁：通过隐写对 LLM 进行恶意微调）

展示一种训练期攻击：模型在明文下看似安全，但会通过零宽 Unicode 输出隐藏有害内容。
在其设定中于 GPT-4.1 微调 API 与多个开源模型上演示；不安全率从解码前 0% 提升到解码后 >90%。
测试了如过滤零宽字符与频率惩罚等缓解措施。
怀疑点 / 局限：隐写文本会增加 token 长度，对小模型效果更差；成功并非普遍。

2) How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study…（LLM 在文档问答中会幻觉多少？1720 亿 token 研究…）

大规模、确定性、抗污染测量：172B tokens、35 个开源模型、最高 200K 上下文。
关键部署洞察：即便最佳情况编造也非零（32K 下最佳 1.19%），且 200K 时无模型 <10%。
温度效应并不直观：更高 T 往往降低编造与连贯性损失。
怀疑点 / 局限：仅英文、仅开源权重、单一框架（RIKER）。

3) OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning（端到端落地推理的企业基准）

企业真实：约 89k 页 Treasury Bulletins；133 个严格数值评分的难题。
显示若无强解析/检索，端到端表现仍低；解析器选择（ai_parse_document）带来稳定增益。
提供跨解析器、检索、表格格式与测试时扩展的丰富消融图谱。
怀疑点 / 局限：单领域语料；全语料运行昂贵/缓慢（报告约每题 ~23.6 分钟）。

4) DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding（通过风险约束解码的分歧感知对齐）

实用的纯推理期方法：无需再训练即可降低尾部风险/分歧，基于熵式（KL-鲁棒）目标与 LCB。
在 MT-Bench 的人工评测中提升均值并降低风险，尤其对高分歧提示更明显。
多评分器聚合应对评分器漂移；增强带来小幅延迟开销。
怀疑点 / 局限：依赖评分器/代理质量与有限候选池。

5) SlowBA: An efficiency backdoor attack towards VLM-based GUI agents（面向 VLM GUI 智能体的效率后门攻击）

引入新的后门目标：延迟/冗长而非错误动作；在触发输入下膨胀响应长度/延迟/能耗，同时保持干净准确率。
两阶段 SFT + RL 奖励塑形使后门与触发器绑定；包含真实世界购票任务的延迟提升演示。
强调仅监控正确性会漏掉资源攻击。
怀疑点 / 局限：假设攻击者能微调并投毒训练；规模效应不一（7B 仍脆弱但幅度不同）。

5) 实用下一步

对工具使用智能体，并排测试两种冷启动：(a) 合成计划引导 SFT（计划采样 + 线索注入）vs (b) 仅 RL + 上下文示范 + 课程；衡量工具多样性、熵与最终准确率。
在工具基准中加入合规指标（FinToolBench 风格）：时效性、意图克制、领域对齐——并跟踪检索/工具卡元数据如何改变不匹配率。
若部署长上下文文档 QA，显式测量编造随上下文长度变化（尽可能做 RIKER 风格探针）；不要假设更长上下文更安全。
对多模态/GUI 智能体，将效率异常检测（延迟/长度/能耗）作为一等安全信号，以捕获 SlowBA 类后门。
加固微调流水线以防不可见字符通道：在摄取与推理边界规范化/剥离零宽 Unicode；记录 token 级异常。
对齐评测中引入多轮交互测试（ConflictBench 风格），并跟踪失败发生的时间点（如平均失败轮次），而不只是是否失败。
若依赖 LLM 裁判，运行偏置敏感性与反事实位置/冗长测试（JudgeBiasBench），并考虑对多模态评判使用落地验证提示（MJ1 风格）。
在企业场景中，原型化本地隐私代理 + 云端推理器拆分（SplitAgent），并在你的威胁模型下量化隐私/效用/延迟权衡。

由逐篇论文分析生成；无外部浏览。

Di Tang

AI 论文洞察简报

2026-03-11

0) 核心要点（先读这个）

2) 关键主题（聚类）

主题：工具使用研究智能体——修复探索与冷启动

主题：长时程智能体的自适应推理与效率

主题：面向“真实”指令遵循与落地工作的下一代基准

主题：长上下文 / 多模态文档中的落地与幻觉

主题：交互式对齐评测与裁判鲁棒性

主题：安全与隐私——隐蔽通道、后门与架构性缓解

3) 技术综合

4) Top 5 论文（含“为何是现在”）

5) 实用下一步