AI 论文日报（2026-03-08）

Published: March 08, 2026

English version: /paper-news/2026-03-08/

运行统计

候选论文: 1155
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-03-06T01:00:00Z → 2026-03-07T01:00:00Z (weekend_backlog_unknown, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2603.01291`	JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks PDF	cs.LG, cs.CL	92	First multilingual/regional jailbreak fake-news benchmark; direct misuse eval across 22 languages/34 regions	benchmark, jailbreak, misinformation, multilingual, robustness, safety-eval
`2603.00873`	MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains PDF	cs.AI	92	Benchmark for agentic multimodal RAG with long reasoning chains + evidence attribution/verification.	MM-RAG, agents, benchmark, long-horizon, evidence-grounding, evaluation
`2603.01966`	AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations PDF	cs.CL, cs.AI	92	Interactive on-policy benchmark for assistant memory/personalization with structured users & metrics	LLM, memory, benchmark, long-horizon, personalization, evaluation, simulated-users
`2603.00718`	SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? PDF	cs.CL, cs.SE	92	Benchmark for agents learning reusable tool-use skills; targets long-horizon compositionality.	agents, tool-use, benchmark, skills, long-horizon, evaluation
`2603.01257`	A Systematic Study of LLM-Based Architectures for Automated Patching PDF	cs.CR, cs.SE	92	Controlled comparison of LLM patching architectures; clear trade-offs, failure modes, cost/time metrics	LLM-agents, cybersecurity, automated-patching, evaluation, software-engineering, robustness
`2603.01990`	According to Me: Long-Term Personalized Referential Memory QA PDF	cs.AI, cs.CL, cs.CV	92	Benchmark for multimodal long-term personal memory QA with evidence + conflicts.	long-term-memory, personalization, multimodal, benchmark, grounding, assistants
`2603.01154`	vEcho: A Paradigm Shift from Vulnerability Verification to Proactive Discovery with Large Language Models PDF	cs.CR	90	LLM turns from SAST filter into proactive vuln discovery with tools+memory and vulnerability propagation	LLM-security, SAST, vulnerability-discovery, agentic-tools, memory, software-security
`2603.00582`	Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research PDF	cs.CL	90	Benchmark for autonomous deep+wide research with 100+ retrieval steps; targets real agent limits.	agents, deep-research, web-retrieval, long-horizon, benchmark, evaluation
`2603.01952`	LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations PDF	cs.AI	90	Multi-agent social sim benchmark measuring cultural norm adherence + verifier uncertainty	agents, benchmark, culture, social-simulation, evaluation, norms, uncertainty
`2603.00601`	Theory of Code Space: Do Code Agents Understand Software Architecture? PDF	cs.SE, cs.AI	90	ToCS benchmark probes code-agent architectural belief/state under partial observability.	code-agents, software-engineering, benchmark, architecture, belief-state, evaluation
`2603.01213`	Can AI Agents Agree? PDF	cs.MA, cs.LG	90	Byzantine-consensus game shows LLM agents fail to reliably agree; scales poorly with group/Byzantines	multi-agent, robustness, adversarial, consensus, evaluation, agent-safety
`2603.04334`	SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints PDF	cs.DB, cs.AI, cs.LO, cs.PL	90	Verification-based Text-to-SQL eval finds real mismatches via constraint-mined counterexample DBs	evaluation, text-to-sql, verification, robustness, llm-evals, constraints, tooling
`2603.02176`	Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale PDF	cs.CL	90	Framework + benchmark for skill selection/orchestration at ecosystem scale; agent eval value	agents, tool-use, orchestration, benchmarks, skill-discovery, workflows
`2603.00686`	RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis PDF	cs.CL	90	Agentic eval for long-horizon text synthesis + C3EBench; targets outlining/drafting/editing ops	LLM-evaluation, agents, benchmarks, writing, rubrics, multi-step
`2603.02019`	Selection as Power: Constrained Reinforcement for Bounded Decision Authority PDF	cs.MA, cs.AI, cs.CE, cs.LG	90	Governance framing for agentic risk: constrained reinforcement to bound decision authority over time	agent-governance, constrained-optimization, risk, multi-agent, decision-authority
`2603.00546`	Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation PDF	cs.AI, cs.CV	90	Capability-oriented benchmark for MLLM judges + MCTS data gen; directly targets judge reliability	evaluation, LLM-as-judge, multimodal, benchmark, reliability, data-generation, MCTS
`2603.01053`	Turning Black Box into White Box: Dataset Distillation Leaks PDF	cs.CR, cs.AI, cs.LG	89	Shows dataset distillation can leak via new attack; infers algorithm/arch + membership + sample recovery	privacy, data-leakage, dataset-distillation, membership-inference, security, synthetic-data
`2603.00960`	AWE: Adaptive Agents for Dynamic Web Penetration Testing PDF	cs.CR, cs.AI	88	Memory-augmented multi-agent web pentesting with structured pipelines; aims for reproducible, lower-cost agents	agents, cybersecurity, penetration-testing, tool-use, multi-agent, reproducibility
`2603.00540`	LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks PDF	cs.AI	88	Generates verifiable agentic tasks with hard policy grounding and deterministic state verification.	agent-training, synthetic-data, verification, policies, tool-use, stateful-tasks
`2603.04177`	CodeTaste: Can LLMs Generate Human-Level Code Refactorings? PDF	cs.SE, cs.AI, cs.LG	88	Refactoring benchmark mined from real repos; tests + static checks for behavior-preserving changes	code, LLM-agents, benchmark, refactoring, software-engineering, evaluation
`2603.00623`	TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces PDF	cs.AI, cs.CL	88	Multi-agent trace analysis for debugging agent workflows; structured summaries vs raw logs.	agents, observability, debugging, tracing, monitoring, multi-agent
`2603.01152`	DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent PDF	cs.AI	88	9K deep-research agent benchmark w/ trajectories; useful for training/eval of web agents	agents, evaluation, benchmarks, web-search, multi-hop, trajectories, data-synthesis
`2603.00646`	MoltGraph: A Longitudinal Temporal Graph Dataset of Moltbook for Coordinated-Agent Detection PDF	cs.SI, cs.CR	88	Longitudinal graph dataset for coordinated-agent abuse on agent-native social platforms	agent-safety, coordination, misuse, graph-dataset, social-platforms, monitoring
`2603.00977`	HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents PDF	cs.AI, cs.LG	88	Hierarchical RL for long-horizon LLM agents (macro plan + micro execute) to reduce error propagation	agents, long-horizon, hierarchical, reinforcement-learning, planning, robustness
`2603.02153`	Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment PDF	cs.IR, cs.AI, cs.CL	88	Industry RAG-fusion study: recall gains often vanish after rerank/truncation/latency.	RAG, retrieval-fusion, production, evaluation, reranking, latency
`2603.00876`	BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning PDF	cs.AI, cs.MA	87	Neuro-symbolic FSM constraints for wet-lab planning; targets hallucination/unsafe actions	agent-safety, scientific-agents, neuro-symbolic, planning, verification, constraints, tool-use
`2603.00565`	MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs PDF	cs.CV, cs.AI, cs.CR	86	Strong multimodal jailbreak method (multi-image semantic reconstruction) targeting aligned closed MLLMs	MLLM, jailbreak, red-teaming, multimodal, attack, safety
`2603.02668`	SorryDB: Can AI Provers Complete Real-World Lean Theorems? PDF	cs.AI, cs.LG	86	Dynamic Lean benchmark reduces contamination; measures real-world theorem-proving agent progress.	formal-verification, theorem-proving, agents, benchmark, contamination, Lean
`2603.00532`	DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows PDF	cs.AI	86	Uncertainty-aware control loop for multi-step agent workflows; targets error accumulation.	agents, reliability, uncertainty, planning, long-horizon, robustness
`2603.01067`	Hide&Seek: Remove Image Watermarks with Negligible Cost via Pixel-wise Reconstruction PDF	cs.CR, cs.AI	86	Practical watermark removal attacks with high fidelity; relevant to provenance/anti-misuse defenses	watermarking, attack, image-security, provenance, robustness, misuse

AI 论文洞察简报

2026-03-08

0) 执行要点（先读这个）

智能体可靠性正从“更多采样”转向“风险感知的控制回路”：DenoiseFlow 表明可以感知步骤不确定性、只在需要处分配分支，并通过根因定位实现回滚+修复——相较固定分支，在提升准确率的同时降低成本。
可验证环境 + 确定性状态度量正在成为智能体训练的底座：LOGIGEN（DB 触发器策略执行 + DIFF 状态距离）与 MC-SEARCH（逐跳验证的多模态链 + HPS/RD）都把智能体学习变得更像带硬性检查的监督式控制。
评估正从单次得分转向过程/轨迹诊断：SuperResearch（图锚定审计）、RAVEL（提纲/草稿/审阅/精炼轨迹）、TraceSIR（轨迹压缩→根因报告）、TOCS（时间序列“架构信念”探针）都在衡量系统如何失败，而不仅是是否失败。
多模态安全目前对“推理时”攻击很脆弱：MIDAS 通过把有害语义分散到多张图片并迫使后期重建，实现高越狱成功率；即便在部分防御下仍然强——说明仅靠输入过滤不足。
安全自动化正在分化为：(a) 高效的专用确定性流水线与 (b) 覆盖更广的通用编码智能体：AWE 在 token 效率上极强且对注入类表现突出；而自动补丁结果显示通用编码智能体（Claude Code）总体覆盖领先，但 token 成本更高。
多智能体 LLM 系统的长时程协作仍是弱点：即便在简化的拜占庭共识博弈中，有效共识也不可靠，失败多为活性（超时），且“威胁感知”提示会加剧问题。

2) 关键主题（聚类）

主题：长时程智能体的闭环可靠性

重要性：长流程会因隐性语义漂移而失败；可靠性需要在线感知 + 定向算力，而不是均匀再生成。
代表论文：
共同方法：
- 估计/结构化不确定性或搜索复杂度（语义熵 + 依赖传播；宏—微分解）。
- 在预算约束下自适应分配努力（分支因子或蓝图探索）。
- 使用结构化终止/验证信号（验证器、成功奖励、终止投票）。
开放问题 / 失效模式：
- 冷启动校准与对验证器的依赖（DenoiseFlow 需要验证器反馈；早期不稳定）。
- 非平稳性与跨层级/跨智能体的误差传播（HiMAC 同步更新有害；共识活性崩溃）。
- 在所研究基准之外对对抗/噪声设置的鲁棒性（拜占庭策略有限；开放式任务未测试）。

主题：可验证的有状态环境作为智能体训练数据

重要性：在策略密集领域，智能体需要与状态转移绑定的确定性反馈，而不仅是“工具调用语法”或顺利路径轨迹。
代表论文：
共同方法：
- 构建约束可被执行/强制的环境（DB 触发器；硬件注册表 + 规则引擎）。
- 定义确定性验证指标（对规范化 DB 行做 DIFF；逐跳证据检查；物理合规检查）。
- 用已验证的 SFT + 融入步骤/轮次结构的 RL 变体训练（TA-GRPO；通过 SEARCH-ALIGN 的过程 SFT）。
开放问题 / 失效模式：
- 模拟器过拟合 / “模拟器黑客”与跨模拟器泛化（LOGIGEN 明确观察到）。
- 领域限制（关系型 DB 为主；源自 Wikipedia 的 KB；湿实验在仿真中评估且依赖手工注册表）。
- 数据流水线依赖 LLM 生成的链/判断（MC-SEARCH 的生成/验证使用 Gemini 模型）。

主题：过程优先评估（图、轨迹、信念状态）

重要性：当智能体变为多步时，仅看结果的指标会掩盖失败源于规划、检索、记忆还是执行漂移——阻碍定向修复。
代表论文：
共同方法：
- 显式表示中间结构（研究图；Thought–Action–Observation 轨迹；架构依赖图；合成动作原语）。
- 评分维度超越正确性（覆盖/一致性/引用健康；报告根因分析质量；依赖 F1 + 校准；轨迹效率/精炼密度）。
- 使用工具支持审计（图可视化器；标准化轨迹格式；结构化 JSON 探针）。
开放问题 / 失效模式：
- 评估在关键环节仍依赖 LLM 裁判（SuperResearch 覆盖度用 LLM 标注；RAVEL 使用 GPT-5.2-1120 裁判）。
- 外化鸿沟：智能体可能“知道”但无法序列化信念（TOCS 的信念外化瓶颈；不变式 F1=0.0）。
- 扩展成本（SuperResearch 计算与人工成本高；TraceSIR token/时延开销）。

主题：主动攻击下的多模态安全与溯源

重要性：多模态系统正通过结构化推理路径遭受攻击（不只是提示注入），而溯源防御（水印）也能被高效移除。
代表论文：
共同方法：
- 通过延迟/混淆有害语义直到推理链后期来攻击（多图分散 + 重建；像素脆弱性掩码 + 重建）。
- 跨多模型/防御评估，使用攻击成功与质量指标（ASR、有害性评分；PSNR/SSIM；多语 ASR + 子指标伤害分）。
- 强调黑盒可用性（单次 MIDAS；无查询 HS）。
开放问题 / 失效模式：
- 防御需要具备过程感知（MIDAS 暗示应监控中间状态；现有防御不足）。
- 泛化限制与攻击者假设（HS 跨域泛化差，除非训练；JailNewsBench 受法律/伦理区域覆盖限制）。
- 评估器依赖与安全权衡（JailNewsBench 使用集成 LLM 裁判；为安全起见隐藏示例）。

主题：安全智能体：专用化 vs 通用性的权衡

重要性：真实安全工作流既需要在预算内的覆盖，也需要确定性证据；架构会强烈塑造结果。
代表论文：
共同方法：
- 将 LLM 编排与工具支撑的验证结合（浏览器验证；用开发者工具做深度验证；补丁的 PoV/测试）。
- 加入记忆/模式传播，从一次性验证走向主动发现（vEcho 的 EVP + 知识库）。
- 在真实基准与成本指标下比较架构（XBOW tokens/成本；AIxCC 补丁数量 + token 使用）。
开放问题 / 失效模式：
- 多步/链式漏洞利用的覆盖缺口（AWE 总体解题率低于 MAPTA；遗漏推理重的类别）。
- 验证/终止脆弱性（补丁研究中 Claude Code 自报成功与独立测试不一致）。
- 在大型代码库上深度验证回路的可扩展性/成本（vEcho 开销）。

3) 技术综合

“验证作为控制信号”无处不在：DenoiseFlow 从验证器通过率校准不确定性；LOGIGEN 用 DIFF=0 做 Verified SFT，并用稠密状态奖励做 RL；BioProAgent 以 Ks/Kp 门控执行；SpotIt+ 用 SMT 反例；SorryDB 编译项目以验证 “sorry” 移除。
过程指标正在收敛到步骤级归因：MC-SEARCH 的 HPS/RD、SuperResearch 的图投影覆盖/一致性、RAVEL 的精炼密度/增量、TOCS 的动作效率 AUC 都旨在定位轨迹哪里出错。
层级分解是对抗长时程漂移的常见解法：HiMAC 拆分蓝图与执行；SuperResearch 拆分 planner/researcher/summarizer/writer；SkillCraft 与 AgentSkillOS 外化可复用技能并用 DAG 编排。
常见失效模式是“活性/终止”而非明显无效：拜占庭共识失败多为超时；DenoiseFlow 针对无运行时异常的隐性漂移；长时程研究系统整体得分低，尽管局部看起来“合理”。
数据生成越来越“能力定向”：LOGIGEN 设计贴近边界的初始状态；M-JudgeBench 注入可控过程错误并用 MCTS 生成 SC/SE/LC/LE 对比；MC-SEARCH 用 HAVE 过滤冗余跳数。
RAG 改进正以生产约束来评判：RAG Fusion 部署研究发现，融合带来的召回增益在重排/截断后可能被抵消，还会增加时延——提示需要选择性/条件式融合策略。
跨模型迁移依赖工件质量：SkillCraft 显示当技能创建者足够强时跨模型技能复用有效；差技能会增加成本——呼应智能体生态中更广泛的“工具工件”质量问题。
安全攻击越来越利用“推理时”结构：MIDAS 通过多图谜题与人格驱动重建延长推理链；水印移除用像素脆弱性排序 + 重建顺序来削弱检测器。
基准正推动“真实世界新鲜度”以降低泄漏：SorryDB 索引当前未解决的 Lean sorries；SuperResearch 使用专家策划图；CODETASTE 挖掘真实重构提交并提供可执行环境。

4) Top 5 论文（含“为什么是现在”）

1) DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows

为多步 LLM 工作流引入闭环的 Sensing–Regulating–Correcting 控制器，并进行在线不确定性校准。
在数学/代码/QA 基准上，相比固定分支显示准确率提升且成本大幅下降（报告约 ~40–56% 成本降低）。
实用“为什么是现在”：智能体部署正触及预算上限；自适应分支 + 回滚是具体的系统杠杆。
质疑点：依赖可靠验证器；蒙特卡洛采样有额外开销且校准存在冷启动期。

2) LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks

将自然语言策略编译为 DB 支撑的环境并硬性执行（schema + triggers），通过 DIFF 实现确定性验证。
生成 8 个领域的 >20k 任务，并带来显著 τ2-Bench 提升（如 32B：40.7 → 62.7 经 SFT → 79.5 经 RL）。
实用“为什么是现在”：智能体训练受限于可验证、有状态数据；LOGIGEN 提供可扩展的合成配方。
质疑点：明确观察到模拟器过拟合/用户模拟器黑客；当前范围限于关系型 DB 环境。

3) MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

展示强力多模态越狱：将有害 token 分散到多张图片，并通过谜题模板迫使跨图重建。
报告在多个闭源 MLLM 上极高 ASR，并在部分防御下仍具鲁棒性（如 ShieldLM/Self-Reminder 对比）。
实用“为什么是现在”：多模态智能体正进入生产；该攻击瞄准推理路径而非仅输入文本。
质疑点：效果依赖图片预算/模板难度调参；提出缓解方向但未解决。

4) MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

提供 3,333 个多模态 agentic-RAG 样例，含逐步推理链（平均 3.79 hops）与过程指标（HPS、RD）。
SEARCH-ALIGN SFT 显著提升开源模型（如 Qwen2.5-VL-7B：+13.7 F1、+16.0 HPS、−3.1 RD）。
实用“为什么是现在”：多模态 RAG 失败常在规划/检索而非生成；逐步监督可直接对准问题。
质疑点：数据集生成/验证依赖 Gemini 模型；主流水线用 top-1 检索可能限制结论。

5) A Systematic Study of LLM-Based Architectures for Automated Patching

在 19 个 AIxCC Java delta-scan 任务上，对固定工作流、单智能体、多智能体、通用编码智能体进行受控比较。
发现通用编码智能体（Claude Code）修复 16/19，超过补丁专用智能体但使用更多 tokens；多智能体开销由迭代深度驱动。
实用“为什么是现在”：团队在“智能体框架”与“编码智能体”间做选择；该研究给出具体权衡证据。
质疑点：任务集较小（19）且基准访问受限；Claude Code 自报成功与独立测试存在不一致。

5) 实用下一步

在你的智能体栈中采用步骤级不确定性 + 预算路由：实现轻量不确定性代理（如 sample-and-cluster 熵），将步骤路由到直接/分支/精炼模式；对比固定 self-consistency 的成本/准确率（借鉴 DenoiseFlow）。
把“验证器”从输出检查升级为状态检查：尽可能定义确定性状态差分（LOGIGEN 的 DIFF 风格）或编译/执行检查（SorryDB/补丁），并将其作为训练与运行时控制信号。
埋点过程指标，而不仅是最终成功：加入 rollout deviation / step-hit 类指标（MC-SEARCH）与轨迹结构化日志（类似 TraceFormat），以便将失败归因到规划 vs 检索 vs 执行。
用推理时攻击红队多模态系统：测试多图、后期融合重建模式（MIDAS 风格），并评估监控中间解码步骤的防御，而非仅输入/输出过滤。
对安全智能体区分“覆盖”与“确定性”模式：对高频注入类使用专用确定性流水线（AWE 风格），对多步类别回退到更通用的编码智能体；按漏洞类别跟踪 token/时间。
若部署 RAG fusion，让它条件化：测量重排/截断后的证据命中率；仅对召回稀缺查询启用融合以避免时延开销（产业 RAG Fusion 发现）。
压力测试多智能体协作的活性：运行简单共识/终止仿真，测量不同提示变体（威胁感知 vs 非威胁感知）下的超时率，因为活性失败可能占主导（Can AI Agents Agree?）。

由逐篇论文分析生成；未进行外部浏览。

Di Tang

AI 论文洞察简报

2026-03-08

0) 执行要点（先读这个）

2) 关键主题（聚类）

主题：长时程智能体的闭环可靠性

主题：可验证的有状态环境作为智能体训练数据

主题：过程优先评估（图、轨迹、信念状态）

主题：主动攻击下的多模态安全与溯源

主题：安全智能体：专用化 vs 通用性的权衡

3) 技术综合

4) Top 5 论文（含“为什么是现在”）

5) 实用下一步