AI 论文日报(2026-03-08)

Published:

English version: /paper-news/2026-03-08/

运行统计

  • 候选论文: 1155
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-03-06T01:00:00Z → 2026-03-07T01:00:00Z (weekend_backlog_unknown, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2603.01291JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks
PDF
cs.LG, cs.CL92First multilingual/regional jailbreak fake-news benchmark; direct misuse eval across 22 languages/34 regionsbenchmark, jailbreak, misinformation, multilingual, robustness, safety-eval
2603.00873MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains
PDF
cs.AI92Benchmark for agentic multimodal RAG with long reasoning chains + evidence attribution/verification.MM-RAG, agents, benchmark, long-horizon, evidence-grounding, evaluation
2603.01966AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations
PDF
cs.CL, cs.AI92Interactive on-policy benchmark for assistant memory/personalization with structured users & metricsLLM, memory, benchmark, long-horizon, personalization, evaluation, simulated-users
2603.00718SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?
PDF
cs.CL, cs.SE92Benchmark for agents learning reusable tool-use skills; targets long-horizon compositionality.agents, tool-use, benchmark, skills, long-horizon, evaluation
2603.01257A Systematic Study of LLM-Based Architectures for Automated Patching
PDF
cs.CR, cs.SE92Controlled comparison of LLM patching architectures; clear trade-offs, failure modes, cost/time metricsLLM-agents, cybersecurity, automated-patching, evaluation, software-engineering, robustness
2603.01990According to Me: Long-Term Personalized Referential Memory QA
PDF
cs.AI, cs.CL, cs.CV92Benchmark for multimodal long-term personal memory QA with evidence + conflicts.long-term-memory, personalization, multimodal, benchmark, grounding, assistants
2603.01154vEcho: A Paradigm Shift from Vulnerability Verification to Proactive Discovery with Large Language Models
PDF
cs.CR90LLM turns from SAST filter into proactive vuln discovery with tools+memory and vulnerability propagationLLM-security, SAST, vulnerability-discovery, agentic-tools, memory, software-security
2603.00582Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research
PDF
cs.CL90Benchmark for autonomous deep+wide research with 100+ retrieval steps; targets real agent limits.agents, deep-research, web-retrieval, long-horizon, benchmark, evaluation
2603.01952LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations
PDF
cs.AI90Multi-agent social sim benchmark measuring cultural norm adherence + verifier uncertaintyagents, benchmark, culture, social-simulation, evaluation, norms, uncertainty
2603.00601Theory of Code Space: Do Code Agents Understand Software Architecture?
PDF
cs.SE, cs.AI90ToCS benchmark probes code-agent architectural belief/state under partial observability.code-agents, software-engineering, benchmark, architecture, belief-state, evaluation
2603.01213Can AI Agents Agree?
PDF
cs.MA, cs.LG90Byzantine-consensus game shows LLM agents fail to reliably agree; scales poorly with group/Byzantinesmulti-agent, robustness, adversarial, consensus, evaluation, agent-safety
2603.04334SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints
PDF
cs.DB, cs.AI, cs.LO, cs.PL90Verification-based Text-to-SQL eval finds real mismatches via constraint-mined counterexample DBsevaluation, text-to-sql, verification, robustness, llm-evals, constraints, tooling
2603.02176Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale
PDF
cs.CL90Framework + benchmark for skill selection/orchestration at ecosystem scale; agent eval valueagents, tool-use, orchestration, benchmarks, skill-discovery, workflows
2603.00686RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis
PDF
cs.CL90Agentic eval for long-horizon text synthesis + C3EBench; targets outlining/drafting/editing opsLLM-evaluation, agents, benchmarks, writing, rubrics, multi-step
2603.02019Selection as Power: Constrained Reinforcement for Bounded Decision Authority
PDF
cs.MA, cs.AI, cs.CE, cs.LG90Governance framing for agentic risk: constrained reinforcement to bound decision authority over timeagent-governance, constrained-optimization, risk, multi-agent, decision-authority
2603.00546Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation
PDF
cs.AI, cs.CV90Capability-oriented benchmark for MLLM judges + MCTS data gen; directly targets judge reliabilityevaluation, LLM-as-judge, multimodal, benchmark, reliability, data-generation, MCTS
2603.01053Turning Black Box into White Box: Dataset Distillation Leaks
PDF
cs.CR, cs.AI, cs.LG89Shows dataset distillation can leak via new attack; infers algorithm/arch + membership + sample recoveryprivacy, data-leakage, dataset-distillation, membership-inference, security, synthetic-data
2603.00960AWE: Adaptive Agents for Dynamic Web Penetration Testing
PDF
cs.CR, cs.AI88Memory-augmented multi-agent web pentesting with structured pipelines; aims for reproducible, lower-cost agentsagents, cybersecurity, penetration-testing, tool-use, multi-agent, reproducibility
2603.00540LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks
PDF
cs.AI88Generates verifiable agentic tasks with hard policy grounding and deterministic state verification.agent-training, synthetic-data, verification, policies, tool-use, stateful-tasks
2603.04177CodeTaste: Can LLMs Generate Human-Level Code Refactorings?
PDF
cs.SE, cs.AI, cs.LG88Refactoring benchmark mined from real repos; tests + static checks for behavior-preserving changescode, LLM-agents, benchmark, refactoring, software-engineering, evaluation
2603.00623TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces
PDF
cs.AI, cs.CL88Multi-agent trace analysis for debugging agent workflows; structured summaries vs raw logs.agents, observability, debugging, tracing, monitoring, multi-agent
2603.01152DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent
PDF
cs.AI889K deep-research agent benchmark w/ trajectories; useful for training/eval of web agentsagents, evaluation, benchmarks, web-search, multi-hop, trajectories, data-synthesis
2603.00646MoltGraph: A Longitudinal Temporal Graph Dataset of Moltbook for Coordinated-Agent Detection
PDF
cs.SI, cs.CR88Longitudinal graph dataset for coordinated-agent abuse on agent-native social platformsagent-safety, coordination, misuse, graph-dataset, social-platforms, monitoring
2603.00977HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents
PDF
cs.AI, cs.LG88Hierarchical RL for long-horizon LLM agents (macro plan + micro execute) to reduce error propagationagents, long-horizon, hierarchical, reinforcement-learning, planning, robustness
2603.02153Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment
PDF
cs.IR, cs.AI, cs.CL88Industry RAG-fusion study: recall gains often vanish after rerank/truncation/latency.RAG, retrieval-fusion, production, evaluation, reranking, latency
2603.00876BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning
PDF
cs.AI, cs.MA87Neuro-symbolic FSM constraints for wet-lab planning; targets hallucination/unsafe actionsagent-safety, scientific-agents, neuro-symbolic, planning, verification, constraints, tool-use
2603.00565MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs
PDF
cs.CV, cs.AI, cs.CR86Strong multimodal jailbreak method (multi-image semantic reconstruction) targeting aligned closed MLLMsMLLM, jailbreak, red-teaming, multimodal, attack, safety
2603.02668SorryDB: Can AI Provers Complete Real-World Lean Theorems?
PDF
cs.AI, cs.LG86Dynamic Lean benchmark reduces contamination; measures real-world theorem-proving agent progress.formal-verification, theorem-proving, agents, benchmark, contamination, Lean
2603.00532DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows
PDF
cs.AI86Uncertainty-aware control loop for multi-step agent workflows; targets error accumulation.agents, reliability, uncertainty, planning, long-horizon, robustness
2603.01067Hide&Seek: Remove Image Watermarks with Negligible Cost via Pixel-wise Reconstruction
PDF
cs.CR, cs.AI86Practical watermark removal attacks with high fidelity; relevant to provenance/anti-misuse defenseswatermarking, attack, image-security, provenance, robustness, misuse

AI 论文洞察简报

2026-03-08

0) 执行要点(先读这个)

  • 智能体可靠性正从“更多采样”转向“风险感知的控制回路”:DenoiseFlow 表明可以感知步骤不确定性、只在需要处分配分支,并通过根因定位实现回滚+修复——相较固定分支,在提升准确率的同时降低成本。
  • 可验证环境 + 确定性状态度量正在成为智能体训练的底座:LOGIGEN(DB 触发器策略执行 + DIFF 状态距离)与 MC-SEARCH(逐跳验证的多模态链 + HPS/RD)都把智能体学习变得更像带硬性检查的监督式控制。
  • 评估正从单次得分转向过程/轨迹诊断:SuperResearch(图锚定审计)、RAVEL(提纲/草稿/审阅/精炼轨迹)、TraceSIR(轨迹压缩→根因报告)、TOCS(时间序列“架构信念”探针)都在衡量系统如何失败,而不仅是是否失败。
  • 多模态安全目前对“推理时”攻击很脆弱:MIDAS 通过把有害语义分散到多张图片并迫使后期重建,实现高越狱成功率;即便在部分防御下仍然强——说明仅靠输入过滤不足。
  • 安全自动化正在分化为:(a) 高效的专用确定性流水线 与 (b) 覆盖更广的通用编码智能体:AWE 在 token 效率上极强且对注入类表现突出;而自动补丁结果显示通用编码智能体(Claude Code)总体覆盖领先,但 token 成本更高。
  • 多智能体 LLM 系统的长时程协作仍是弱点:即便在简化的拜占庭共识博弈中,有效共识也不可靠,失败多为活性(超时),且“威胁感知”提示会加剧问题。

2) 关键主题(聚类)

主题:长时程智能体的闭环可靠性

  • 重要性:长流程会因隐性语义漂移而失败;可靠性需要在线感知 + 定向算力,而不是均匀再生成。
  • 代表论文
  • 共同方法
    • 估计/结构化不确定性或搜索复杂度(语义熵 + 依赖传播;宏—微分解)。
    • 在预算约束下自适应分配努力(分支因子或蓝图探索)。
    • 使用结构化终止/验证信号(验证器、成功奖励、终止投票)。
  • 开放问题 / 失效模式
    • 冷启动校准与对验证器的依赖(DenoiseFlow 需要验证器反馈;早期不稳定)。
    • 非平稳性与跨层级/跨智能体的误差传播(HiMAC 同步更新有害;共识活性崩溃)。
    • 在所研究基准之外对对抗/噪声设置的鲁棒性(拜占庭策略有限;开放式任务未测试)。

主题:可验证的有状态环境作为智能体训练数据

主题:过程优先评估(图、轨迹、信念状态)

主题:主动攻击下的多模态安全与溯源

主题:安全智能体:专用化 vs 通用性的权衡

  • 重要性:真实安全工作流既需要在预算内的覆盖,也需要确定性证据;架构会强烈塑造结果。
  • 代表论文
  • 共同方法
    • 将 LLM 编排与工具支撑的验证结合(浏览器验证;用开发者工具做深度验证;补丁的 PoV/测试)。
    • 加入记忆/模式传播,从一次性验证走向主动发现(vEcho 的 EVP + 知识库)。
    • 在真实基准与成本指标下比较架构(XBOW tokens/成本;AIxCC 补丁数量 + token 使用)。
  • 开放问题 / 失效模式
    • 多步/链式漏洞利用的覆盖缺口(AWE 总体解题率低于 MAPTA;遗漏推理重的类别)。
    • 验证/终止脆弱性(补丁研究中 Claude Code 自报成功与独立测试不一致)。
    • 在大型代码库上深度验证回路的可扩展性/成本(vEcho 开销)。

3) 技术综合

  • “验证作为控制信号”无处不在:DenoiseFlow 从验证器通过率校准不确定性;LOGIGEN 用 DIFF=0 做 Verified SFT,并用稠密状态奖励做 RL;BioProAgent 以 Ks/Kp 门控执行;SpotIt+ 用 SMT 反例;SorryDB 编译项目以验证 “sorry” 移除。
  • 过程指标正在收敛到步骤级归因:MC-SEARCH 的 HPS/RD、SuperResearch 的图投影覆盖/一致性、RAVEL 的精炼密度/增量、TOCS 的动作效率 AUC 都旨在定位轨迹哪里出错。
  • 层级分解是对抗长时程漂移的常见解法:HiMAC 拆分蓝图与执行;SuperResearch 拆分 planner/researcher/summarizer/writer;SkillCraft 与 AgentSkillOS 外化可复用技能并用 DAG 编排。
  • 常见失效模式是“活性/终止”而非明显无效:拜占庭共识失败多为超时;DenoiseFlow 针对无运行时异常的隐性漂移;长时程研究系统整体得分低,尽管局部看起来“合理”。
  • 数据生成越来越“能力定向”:LOGIGEN 设计贴近边界的初始状态;M-JudgeBench 注入可控过程错误并用 MCTS 生成 SC/SE/LC/LE 对比;MC-SEARCH 用 HAVE 过滤冗余跳数。
  • RAG 改进正以生产约束来评判:RAG Fusion 部署研究发现,融合带来的召回增益在重排/截断后可能被抵消,还会增加时延——提示需要选择性/条件式融合策略。
  • 跨模型迁移依赖工件质量:SkillCraft 显示当技能创建者足够强时跨模型技能复用有效;差技能会增加成本——呼应智能体生态中更广泛的“工具工件”质量问题。
  • 安全攻击越来越利用“推理时”结构:MIDAS 通过多图谜题与人格驱动重建延长推理链;水印移除用像素脆弱性排序 + 重建顺序来削弱检测器。
  • 基准正推动“真实世界新鲜度”以降低泄漏:SorryDB 索引当前未解决的 Lean sorries;SuperResearch 使用专家策划图;CODETASTE 挖掘真实重构提交并提供可执行环境。

4) Top 5 论文(含“为什么是现在”)

1) DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows

  • 为多步 LLM 工作流引入闭环的 Sensing–Regulating–Correcting 控制器,并进行在线不确定性校准。
  • 在数学/代码/QA 基准上,相比固定分支显示准确率提升且成本大幅下降(报告约 ~40–56% 成本降低)。
  • 实用“为什么是现在”:智能体部署正触及预算上限;自适应分支 + 回滚是具体的系统杠杆。
  • 质疑点:依赖可靠验证器;蒙特卡洛采样有额外开销且校准存在冷启动期。

2) LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks

  • 将自然语言策略编译为 DB 支撑的环境并硬性执行(schema + triggers),通过 DIFF 实现确定性验证。
  • 生成 8 个领域的 >20k 任务,并带来显著 τ2-Bench 提升(如 32B:40.7 → 62.7 经 SFT → 79.5 经 RL)。
  • 实用“为什么是现在”:智能体训练受限于可验证、有状态数据;LOGIGEN 提供可扩展的合成配方。
  • 质疑点:明确观察到模拟器过拟合/用户模拟器黑客;当前范围限于关系型 DB 环境。

3) MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

  • 展示强力多模态越狱:将有害 token 分散到多张图片,并通过谜题模板迫使跨图重建。
  • 报告在多个闭源 MLLM 上极高 ASR,并在部分防御下仍具鲁棒性(如 ShieldLM/Self-Reminder 对比)。
  • 实用“为什么是现在”:多模态智能体正进入生产;该攻击瞄准推理路径而非仅输入文本。
  • 质疑点:效果依赖图片预算/模板难度调参;提出缓解方向但未解决。

4) MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

  • 提供 3,333 个多模态 agentic-RAG 样例,含逐步推理链(平均 3.79 hops)与过程指标(HPS、RD)。
  • SEARCH-ALIGN SFT 显著提升开源模型(如 Qwen2.5-VL-7B:+13.7 F1、+16.0 HPS、−3.1 RD)。
  • 实用“为什么是现在”:多模态 RAG 失败常在规划/检索而非生成;逐步监督可直接对准问题。
  • 质疑点:数据集生成/验证依赖 Gemini 模型;主流水线用 top-1 检索可能限制结论。

5) A Systematic Study of LLM-Based Architectures for Automated Patching

  • 在 19 个 AIxCC Java delta-scan 任务上,对固定工作流、单智能体、多智能体、通用编码智能体进行受控比较。
  • 发现通用编码智能体(Claude Code)修复 16/19,超过补丁专用智能体但使用更多 tokens;多智能体开销由迭代深度驱动。
  • 实用“为什么是现在”:团队在“智能体框架”与“编码智能体”间做选择;该研究给出具体权衡证据。
  • 质疑点:任务集较小(19)且基准访问受限;Claude Code 自报成功与独立测试存在不一致。

5) 实用下一步

  • 在你的智能体栈中采用步骤级不确定性 + 预算路由:实现轻量不确定性代理(如 sample-and-cluster 熵),将步骤路由到直接/分支/精炼模式;对比固定 self-consistency 的成本/准确率(借鉴 DenoiseFlow)。
  • 把“验证器”从输出检查升级为状态检查:尽可能定义确定性状态差分(LOGIGEN 的 DIFF 风格)或编译/执行检查(SorryDB/补丁),并将其作为训练与运行时控制信号。
  • 埋点过程指标,而不仅是最终成功:加入 rollout deviation / step-hit 类指标(MC-SEARCH)与轨迹结构化日志(类似 TraceFormat),以便将失败归因到规划 vs 检索 vs 执行。
  • 用推理时攻击红队多模态系统:测试多图、后期融合重建模式(MIDAS 风格),并评估监控中间解码步骤的防御,而非仅输入/输出过滤。
  • 对安全智能体区分“覆盖”与“确定性”模式:对高频注入类使用专用确定性流水线(AWE 风格),对多步类别回退到更通用的编码智能体;按漏洞类别跟踪 token/时间。
  • 若部署 RAG fusion,让它条件化:测量重排/截断后的证据命中率;仅对召回稀缺查询启用融合以避免时延开销(产业 RAG Fusion 发现)。
  • 压力测试多智能体协作的活性:运行简单共识/终止仿真,测量不同提示变体(威胁感知 vs 非威胁感知)下的超时率,因为活性失败可能占主导(Can AI Agents Agree?)。

由逐篇论文分析生成;未进行外部浏览。