AI 论文日报(2026-03-08)
Published:
English version: /paper-news/2026-03-08/
运行统计
- 候选论文: 1155
- 入选论文: 30
- 已精读完成: 30
- 时间窗口 (UTC): 2026-03-06T01:00:00Z → 2026-03-07T01:00:00Z (weekend_backlog_unknown, expanded=0)
展开查看用于总结的论文列表
| arXiv ID | 标题 / 链接 | 分类 | 评分 | 入选理由 | 标签 |
|---|---|---|---|---|---|
2603.01291 | JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks | cs.LG, cs.CL | 92 | First multilingual/regional jailbreak fake-news benchmark; direct misuse eval across 22 languages/34 regions | benchmark, jailbreak, misinformation, multilingual, robustness, safety-eval |
2603.00873 | MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains | cs.AI | 92 | Benchmark for agentic multimodal RAG with long reasoning chains + evidence attribution/verification. | MM-RAG, agents, benchmark, long-horizon, evidence-grounding, evaluation |
2603.01966 | AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations | cs.CL, cs.AI | 92 | Interactive on-policy benchmark for assistant memory/personalization with structured users & metrics | LLM, memory, benchmark, long-horizon, personalization, evaluation, simulated-users |
2603.00718 | SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? | cs.CL, cs.SE | 92 | Benchmark for agents learning reusable tool-use skills; targets long-horizon compositionality. | agents, tool-use, benchmark, skills, long-horizon, evaluation |
2603.01257 | A Systematic Study of LLM-Based Architectures for Automated Patching | cs.CR, cs.SE | 92 | Controlled comparison of LLM patching architectures; clear trade-offs, failure modes, cost/time metrics | LLM-agents, cybersecurity, automated-patching, evaluation, software-engineering, robustness |
2603.01990 | According to Me: Long-Term Personalized Referential Memory QA | cs.AI, cs.CL, cs.CV | 92 | Benchmark for multimodal long-term personal memory QA with evidence + conflicts. | long-term-memory, personalization, multimodal, benchmark, grounding, assistants |
2603.01154 | vEcho: A Paradigm Shift from Vulnerability Verification to Proactive Discovery with Large Language Models | cs.CR | 90 | LLM turns from SAST filter into proactive vuln discovery with tools+memory and vulnerability propagation | LLM-security, SAST, vulnerability-discovery, agentic-tools, memory, software-security |
2603.00582 | Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research | cs.CL | 90 | Benchmark for autonomous deep+wide research with 100+ retrieval steps; targets real agent limits. | agents, deep-research, web-retrieval, long-horizon, benchmark, evaluation |
2603.01952 | LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations | cs.AI | 90 | Multi-agent social sim benchmark measuring cultural norm adherence + verifier uncertainty | agents, benchmark, culture, social-simulation, evaluation, norms, uncertainty |
2603.00601 | Theory of Code Space: Do Code Agents Understand Software Architecture? | cs.SE, cs.AI | 90 | ToCS benchmark probes code-agent architectural belief/state under partial observability. | code-agents, software-engineering, benchmark, architecture, belief-state, evaluation |
2603.01213 | Can AI Agents Agree? | cs.MA, cs.LG | 90 | Byzantine-consensus game shows LLM agents fail to reliably agree; scales poorly with group/Byzantines | multi-agent, robustness, adversarial, consensus, evaluation, agent-safety |
2603.04334 | SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints | cs.DB, cs.AI, cs.LO, cs.PL | 90 | Verification-based Text-to-SQL eval finds real mismatches via constraint-mined counterexample DBs | evaluation, text-to-sql, verification, robustness, llm-evals, constraints, tooling |
2603.02176 | Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale | cs.CL | 90 | Framework + benchmark for skill selection/orchestration at ecosystem scale; agent eval value | agents, tool-use, orchestration, benchmarks, skill-discovery, workflows |
2603.00686 | RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis | cs.CL | 90 | Agentic eval for long-horizon text synthesis + C3EBench; targets outlining/drafting/editing ops | LLM-evaluation, agents, benchmarks, writing, rubrics, multi-step |
2603.02019 | Selection as Power: Constrained Reinforcement for Bounded Decision Authority | cs.MA, cs.AI, cs.CE, cs.LG | 90 | Governance framing for agentic risk: constrained reinforcement to bound decision authority over time | agent-governance, constrained-optimization, risk, multi-agent, decision-authority |
2603.00546 | Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation | cs.AI, cs.CV | 90 | Capability-oriented benchmark for MLLM judges + MCTS data gen; directly targets judge reliability | evaluation, LLM-as-judge, multimodal, benchmark, reliability, data-generation, MCTS |
2603.01053 | Turning Black Box into White Box: Dataset Distillation Leaks | cs.CR, cs.AI, cs.LG | 89 | Shows dataset distillation can leak via new attack; infers algorithm/arch + membership + sample recovery | privacy, data-leakage, dataset-distillation, membership-inference, security, synthetic-data |
2603.00960 | AWE: Adaptive Agents for Dynamic Web Penetration Testing | cs.CR, cs.AI | 88 | Memory-augmented multi-agent web pentesting with structured pipelines; aims for reproducible, lower-cost agents | agents, cybersecurity, penetration-testing, tool-use, multi-agent, reproducibility |
2603.00540 | LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks | cs.AI | 88 | Generates verifiable agentic tasks with hard policy grounding and deterministic state verification. | agent-training, synthetic-data, verification, policies, tool-use, stateful-tasks |
2603.04177 | CodeTaste: Can LLMs Generate Human-Level Code Refactorings? | cs.SE, cs.AI, cs.LG | 88 | Refactoring benchmark mined from real repos; tests + static checks for behavior-preserving changes | code, LLM-agents, benchmark, refactoring, software-engineering, evaluation |
2603.00623 | TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces | cs.AI, cs.CL | 88 | Multi-agent trace analysis for debugging agent workflows; structured summaries vs raw logs. | agents, observability, debugging, tracing, monitoring, multi-agent |
2603.01152 | DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent | cs.AI | 88 | 9K deep-research agent benchmark w/ trajectories; useful for training/eval of web agents | agents, evaluation, benchmarks, web-search, multi-hop, trajectories, data-synthesis |
2603.00646 | MoltGraph: A Longitudinal Temporal Graph Dataset of Moltbook for Coordinated-Agent Detection | cs.SI, cs.CR | 88 | Longitudinal graph dataset for coordinated-agent abuse on agent-native social platforms | agent-safety, coordination, misuse, graph-dataset, social-platforms, monitoring |
2603.00977 | HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents | cs.AI, cs.LG | 88 | Hierarchical RL for long-horizon LLM agents (macro plan + micro execute) to reduce error propagation | agents, long-horizon, hierarchical, reinforcement-learning, planning, robustness |
2603.02153 | Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment | cs.IR, cs.AI, cs.CL | 88 | Industry RAG-fusion study: recall gains often vanish after rerank/truncation/latency. | RAG, retrieval-fusion, production, evaluation, reranking, latency |
2603.00876 | BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning | cs.AI, cs.MA | 87 | Neuro-symbolic FSM constraints for wet-lab planning; targets hallucination/unsafe actions | agent-safety, scientific-agents, neuro-symbolic, planning, verification, constraints, tool-use |
2603.00565 | MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs | cs.CV, cs.AI, cs.CR | 86 | Strong multimodal jailbreak method (multi-image semantic reconstruction) targeting aligned closed MLLMs | MLLM, jailbreak, red-teaming, multimodal, attack, safety |
2603.02668 | SorryDB: Can AI Provers Complete Real-World Lean Theorems? | cs.AI, cs.LG | 86 | Dynamic Lean benchmark reduces contamination; measures real-world theorem-proving agent progress. | formal-verification, theorem-proving, agents, benchmark, contamination, Lean |
2603.00532 | DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows | cs.AI | 86 | Uncertainty-aware control loop for multi-step agent workflows; targets error accumulation. | agents, reliability, uncertainty, planning, long-horizon, robustness |
2603.01067 | Hide&Seek: Remove Image Watermarks with Negligible Cost via Pixel-wise Reconstruction | cs.CR, cs.AI | 86 | Practical watermark removal attacks with high fidelity; relevant to provenance/anti-misuse defenses | watermarking, attack, image-security, provenance, robustness, misuse |
AI 论文洞察简报
2026-03-08
0) 执行要点(先读这个)
- 智能体可靠性正从“更多采样”转向“风险感知的控制回路”:DenoiseFlow 表明可以感知步骤不确定性、只在需要处分配分支,并通过根因定位实现回滚+修复——相较固定分支,在提升准确率的同时降低成本。
- 可验证环境 + 确定性状态度量正在成为智能体训练的底座:LOGIGEN(DB 触发器策略执行 + DIFF 状态距离)与 MC-SEARCH(逐跳验证的多模态链 + HPS/RD)都把智能体学习变得更像带硬性检查的监督式控制。
- 评估正从单次得分转向过程/轨迹诊断:SuperResearch(图锚定审计)、RAVEL(提纲/草稿/审阅/精炼轨迹)、TraceSIR(轨迹压缩→根因报告)、TOCS(时间序列“架构信念”探针)都在衡量系统如何失败,而不仅是是否失败。
- 多模态安全目前对“推理时”攻击很脆弱:MIDAS 通过把有害语义分散到多张图片并迫使后期重建,实现高越狱成功率;即便在部分防御下仍然强——说明仅靠输入过滤不足。
- 安全自动化正在分化为:(a) 高效的专用确定性流水线 与 (b) 覆盖更广的通用编码智能体:AWE 在 token 效率上极强且对注入类表现突出;而自动补丁结果显示通用编码智能体(Claude Code)总体覆盖领先,但 token 成本更高。
- 多智能体 LLM 系统的长时程协作仍是弱点:即便在简化的拜占庭共识博弈中,有效共识也不可靠,失败多为活性(超时),且“威胁感知”提示会加剧问题。
2) 关键主题(聚类)
主题:长时程智能体的闭环可靠性
- 重要性:长流程会因隐性语义漂移而失败;可靠性需要在线感知 + 定向算力,而不是均匀再生成。
- 代表论文:
- 共同方法:
- 估计/结构化不确定性或搜索复杂度(语义熵 + 依赖传播;宏—微分解)。
- 在预算约束下自适应分配努力(分支因子或蓝图探索)。
- 使用结构化终止/验证信号(验证器、成功奖励、终止投票)。
- 开放问题 / 失效模式:
- 冷启动校准与对验证器的依赖(DenoiseFlow 需要验证器反馈;早期不稳定)。
- 非平稳性与跨层级/跨智能体的误差传播(HiMAC 同步更新有害;共识活性崩溃)。
- 在所研究基准之外对对抗/噪声设置的鲁棒性(拜占庭策略有限;开放式任务未测试)。
主题:可验证的有状态环境作为智能体训练数据
- 重要性:在策略密集领域,智能体需要与状态转移绑定的确定性反馈,而不仅是“工具调用语法”或顺利路径轨迹。
- 代表论文:
- 共同方法:
- 构建约束可被执行/强制的环境(DB 触发器;硬件注册表 + 规则引擎)。
- 定义确定性验证指标(对规范化 DB 行做 DIFF;逐跳证据检查;物理合规检查)。
- 用已验证的 SFT + 融入步骤/轮次结构的 RL 变体训练(TA-GRPO;通过 SEARCH-ALIGN 的过程 SFT)。
- 开放问题 / 失效模式:
- 模拟器过拟合 / “模拟器黑客”与跨模拟器泛化(LOGIGEN 明确观察到)。
- 领域限制(关系型 DB 为主;源自 Wikipedia 的 KB;湿实验在仿真中评估且依赖手工注册表)。
- 数据流水线依赖 LLM 生成的链/判断(MC-SEARCH 的生成/验证使用 Gemini 模型)。
主题:过程优先评估(图、轨迹、信念状态)
- 重要性:当智能体变为多步时,仅看结果的指标会掩盖失败源于规划、检索、记忆还是执行漂移——阻碍定向修复。
- 代表论文:
- 共同方法:
- 显式表示中间结构(研究图;Thought–Action–Observation 轨迹;架构依赖图;合成动作原语)。
- 评分维度超越正确性(覆盖/一致性/引用健康;报告根因分析质量;依赖 F1 + 校准;轨迹效率/精炼密度)。
- 使用工具支持审计(图可视化器;标准化轨迹格式;结构化 JSON 探针)。
- 开放问题 / 失效模式:
- 评估在关键环节仍依赖 LLM 裁判(SuperResearch 覆盖度用 LLM 标注;RAVEL 使用 GPT-5.2-1120 裁判)。
- 外化鸿沟:智能体可能“知道”但无法序列化信念(TOCS 的信念外化瓶颈;不变式 F1=0.0)。
- 扩展成本(SuperResearch 计算与人工成本高;TraceSIR token/时延开销)。
主题:主动攻击下的多模态安全与溯源
- 重要性:多模态系统正通过结构化推理路径遭受攻击(不只是提示注入),而溯源防御(水印)也能被高效移除。
- 代表论文:
- 共同方法:
- 通过延迟/混淆有害语义直到推理链后期来攻击(多图分散 + 重建;像素脆弱性掩码 + 重建)。
- 跨多模型/防御评估,使用攻击成功与质量指标(ASR、有害性评分;PSNR/SSIM;多语 ASR + 子指标伤害分)。
- 强调黑盒可用性(单次 MIDAS;无查询 HS)。
- 开放问题 / 失效模式:
- 防御需要具备过程感知(MIDAS 暗示应监控中间状态;现有防御不足)。
- 泛化限制与攻击者假设(HS 跨域泛化差,除非训练;JailNewsBench 受法律/伦理区域覆盖限制)。
- 评估器依赖与安全权衡(JailNewsBench 使用集成 LLM 裁判;为安全起见隐藏示例)。
主题:安全智能体:专用化 vs 通用性的权衡
- 重要性:真实安全工作流既需要在预算内的覆盖,也需要确定性证据;架构会强烈塑造结果。
- 代表论文:
- 共同方法:
- 将 LLM 编排与工具支撑的验证结合(浏览器验证;用开发者工具做深度验证;补丁的 PoV/测试)。
- 加入记忆/模式传播,从一次性验证走向主动发现(vEcho 的 EVP + 知识库)。
- 在真实基准与成本指标下比较架构(XBOW tokens/成本;AIxCC 补丁数量 + token 使用)。
- 开放问题 / 失效模式:
- 多步/链式漏洞利用的覆盖缺口(AWE 总体解题率低于 MAPTA;遗漏推理重的类别)。
- 验证/终止脆弱性(补丁研究中 Claude Code 自报成功与独立测试不一致)。
- 在大型代码库上深度验证回路的可扩展性/成本(vEcho 开销)。
3) 技术综合
- “验证作为控制信号”无处不在:DenoiseFlow 从验证器通过率校准不确定性;LOGIGEN 用 DIFF=0 做 Verified SFT,并用稠密状态奖励做 RL;BioProAgent 以 Ks/Kp 门控执行;SpotIt+ 用 SMT 反例;SorryDB 编译项目以验证 “sorry” 移除。
- 过程指标正在收敛到步骤级归因:MC-SEARCH 的 HPS/RD、SuperResearch 的图投影覆盖/一致性、RAVEL 的精炼密度/增量、TOCS 的动作效率 AUC 都旨在定位轨迹哪里出错。
- 层级分解是对抗长时程漂移的常见解法:HiMAC 拆分蓝图与执行;SuperResearch 拆分 planner/researcher/summarizer/writer;SkillCraft 与 AgentSkillOS 外化可复用技能并用 DAG 编排。
- 常见失效模式是“活性/终止”而非明显无效:拜占庭共识失败多为超时;DenoiseFlow 针对无运行时异常的隐性漂移;长时程研究系统整体得分低,尽管局部看起来“合理”。
- 数据生成越来越“能力定向”:LOGIGEN 设计贴近边界的初始状态;M-JudgeBench 注入可控过程错误并用 MCTS 生成 SC/SE/LC/LE 对比;MC-SEARCH 用 HAVE 过滤冗余跳数。
- RAG 改进正以生产约束来评判:RAG Fusion 部署研究发现,融合带来的召回增益在重排/截断后可能被抵消,还会增加时延——提示需要选择性/条件式融合策略。
- 跨模型迁移依赖工件质量:SkillCraft 显示当技能创建者足够强时跨模型技能复用有效;差技能会增加成本——呼应智能体生态中更广泛的“工具工件”质量问题。
- 安全攻击越来越利用“推理时”结构:MIDAS 通过多图谜题与人格驱动重建延长推理链;水印移除用像素脆弱性排序 + 重建顺序来削弱检测器。
- 基准正推动“真实世界新鲜度”以降低泄漏:SorryDB 索引当前未解决的 Lean sorries;SuperResearch 使用专家策划图;CODETASTE 挖掘真实重构提交并提供可执行环境。
4) Top 5 论文(含“为什么是现在”)
1) DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows
- 为多步 LLM 工作流引入闭环的 Sensing–Regulating–Correcting 控制器,并进行在线不确定性校准。
- 在数学/代码/QA 基准上,相比固定分支显示准确率提升且成本大幅下降(报告约 ~40–56% 成本降低)。
- 实用“为什么是现在”:智能体部署正触及预算上限;自适应分支 + 回滚是具体的系统杠杆。
- 质疑点:依赖可靠验证器;蒙特卡洛采样有额外开销且校准存在冷启动期。
2) LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks
- 将自然语言策略编译为 DB 支撑的环境并硬性执行(schema + triggers),通过 DIFF 实现确定性验证。
- 生成 8 个领域的 >20k 任务,并带来显著 τ2-Bench 提升(如 32B:40.7 → 62.7 经 SFT → 79.5 经 RL)。
- 实用“为什么是现在”:智能体训练受限于可验证、有状态数据;LOGIGEN 提供可扩展的合成配方。
- 质疑点:明确观察到模拟器过拟合/用户模拟器黑客;当前范围限于关系型 DB 环境。
3) MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs
- 展示强力多模态越狱:将有害 token 分散到多张图片,并通过谜题模板迫使跨图重建。
- 报告在多个闭源 MLLM 上极高 ASR,并在部分防御下仍具鲁棒性(如 ShieldLM/Self-Reminder 对比)。
- 实用“为什么是现在”:多模态智能体正进入生产;该攻击瞄准推理路径而非仅输入文本。
- 质疑点:效果依赖图片预算/模板难度调参;提出缓解方向但未解决。
4) MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains
- 提供 3,333 个多模态 agentic-RAG 样例,含逐步推理链(平均 3.79 hops)与过程指标(HPS、RD)。
- SEARCH-ALIGN SFT 显著提升开源模型(如 Qwen2.5-VL-7B:+13.7 F1、+16.0 HPS、−3.1 RD)。
- 实用“为什么是现在”:多模态 RAG 失败常在规划/检索而非生成;逐步监督可直接对准问题。
- 质疑点:数据集生成/验证依赖 Gemini 模型;主流水线用 top-1 检索可能限制结论。
5) A Systematic Study of LLM-Based Architectures for Automated Patching
- 在 19 个 AIxCC Java delta-scan 任务上,对固定工作流、单智能体、多智能体、通用编码智能体进行受控比较。
- 发现通用编码智能体(Claude Code)修复 16/19,超过补丁专用智能体但使用更多 tokens;多智能体开销由迭代深度驱动。
- 实用“为什么是现在”:团队在“智能体框架”与“编码智能体”间做选择;该研究给出具体权衡证据。
- 质疑点:任务集较小(19)且基准访问受限;Claude Code 自报成功与独立测试存在不一致。
5) 实用下一步
- 在你的智能体栈中采用步骤级不确定性 + 预算路由:实现轻量不确定性代理(如 sample-and-cluster 熵),将步骤路由到直接/分支/精炼模式;对比固定 self-consistency 的成本/准确率(借鉴 DenoiseFlow)。
- 把“验证器”从输出检查升级为状态检查:尽可能定义确定性状态差分(LOGIGEN 的 DIFF 风格)或编译/执行检查(SorryDB/补丁),并将其作为训练与运行时控制信号。
- 埋点过程指标,而不仅是最终成功:加入 rollout deviation / step-hit 类指标(MC-SEARCH)与轨迹结构化日志(类似 TraceFormat),以便将失败归因到规划 vs 检索 vs 执行。
- 用推理时攻击红队多模态系统:测试多图、后期融合重建模式(MIDAS 风格),并评估监控中间解码步骤的防御,而非仅输入/输出过滤。
- 对安全智能体区分“覆盖”与“确定性”模式:对高频注入类使用专用确定性流水线(AWE 风格),对多步类别回退到更通用的编码智能体;按漏洞类别跟踪 token/时间。
- 若部署 RAG fusion,让它条件化:测量重排/截断后的证据命中率;仅对召回稀缺查询启用融合以避免时延开销(产业 RAG Fusion 发现)。
- 压力测试多智能体协作的活性:运行简单共识/终止仿真,测量不同提示变体(威胁感知 vs 非威胁感知)下的超时率,因为活性失败可能占主导(Can AI Agents Agree?)。
由逐篇论文分析生成;未进行外部浏览。
