AI 论文日报(2026-04-05)
Published:
English version: /paper-news/2026-04-05/
运行统计
- 候选论文: 2272
- 入选论文: 30
- 已精读完成: 30
- 时间窗口 (UTC): 2026-04-03T00:00:00Z → 2026-04-04T00:00:00Z (weekend_backlog_unknown, expanded=0)
展开查看用于总结的论文列表
| arXiv ID | 标题 / 链接 | 分类 | 评分 | 入选理由 | 标签 |
|---|---|---|---|---|---|
2604.00419 | G-Drift MIA: Membership Inference via Gradient-Induced Feature Drift in LLMs | cs.LG, cs.AI | 93 | White-box LLM membership inference via gradient-induced representation drift; stronger privacy auditing signal. | privacy, membership-inference, LLM-security, white-box, auditing |
2604.00430 | Secure Forgetting: A Framework for Privacy-Driven Unlearning in Large Language Model (LLM)-Based Agents | cs.MA, cs.CR | 93 | Framework for privacy-driven unlearning in LLM agents; timely for deployed agent safety/privacy. | LLM-agents, unlearning, privacy, data-deletion, security, governance |
2604.01161 | Reasoning Shift: How Context Silently Shortens LLM Reasoning | cs.LG | 92 | Finds context can silently shorten reasoning traces; robustness issue for test-time scaling models | llm-reasoning, robustness, test-time-scaling, long-context, evaluation |
2604.01147 | SERSEM: Selective Entropy-Weighted Scoring for Membership Inference in Code Language Models | cs.SE, cs.CR | 92 | Stronger membership inference for code LMs; practical contamination/privacy auditing via AST-weighted signals | privacy, membership-inference, data-contamination, code-llms, security, memorization |
2604.00860 | Policy Improvement Reinforcement Learning | cs.LG | 92 | Adds inter-iteration “did policy improve?” feedback to RLVR; targets drift/collapse in LLM post-training | RLVR, post-training, policy-improvement, reasoning, stability, verification |
2604.01014 | AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration | cs.CR, cs.CV | 90 | Agentic self-exploration to auto-discover stronger MIA strategies; reusable auditing framework. | privacy, membership-inference, agents, red-teaming, automation |
2604.00478 | The Silicon Mirror: Dynamic Behavioral Gating for Anti-Sycophancy in LLM Agents | cs.AI | 90 | Agent anti-sycophancy gating + auditor veto loop; concrete eval on TruthfulQA adversarial dialogs | llm-agents, sycophancy, guardrails, behavioral-gating, oversight, evaluation |
2604.00938 | WARP: Guaranteed Inner-Layer Repair of NLP Transformers | cs.LG, cs.AI | 90 | Provable inner-layer transformer repair against adversarial perturbations; bridges robustness+verification. | robustness, adversarial, transformers, formal-methods, model-repair, verification |
2603.28101 | Heddle: A Distributed Orchestration System for Agentic RL Rollout | cs.LG | 90 | Trajectory-centric orchestration for agentic RL rollouts; tackles long-tail tool-call bottlenecks | agentic-RL, LLM-agents, systems, tool-use, scaling, scheduling |
2604.01128 | Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers | cs.CL, cs.AI, cs.LG | 90 | New framework to measure hallucination/presentation risks in agent-written papers; timely eval methodology | evaluation, hallucinations, agent-reliability, scientific-writing, benchmarks, auditing |
2604.00555 | Ontology-Constrained Neural Reasoning in Enterprise Agentic Systems: A Neurosymbolic Architecture for Domain-Grounded AI Agents | cs.AI, cs.CL, cs.SE | 89 | Ontology-constrained neurosymbolic agent architecture to reduce hallucination and enforce compliance | agents, governance, neurosymbolic, hallucinations, enterprise, compliance |
2604.00442 | Execution-Verified Reinforcement Learning for Optimization Modeling | cs.AI, cs.CL | 89 | Execution-verified RL with sandboxed solver as verifier for NL→optimization code; reusable agentic training recipe | agents, tool-use, RLVR, verifiable-rewards, code-generation, sandboxing, optimization |
2603.28309 | VulnScout-C: A Lightweight Transformer for C Code Vulnerability Detection | cs.CR | 88 | Lightweight transformer + curated dataset for C vuln detection; practical secure-dev impact and benchmark value. | code-security, vulnerability-detection, dataset, efficient-LLM, software-security |
2603.28386 | COvolve: Adversarial Co-Evolution of Large-Language-Model-Generated Policies and Environments via Two-Player Zero-Sum Game | cs.AI | 88 | Adversarial co-evolution of LLM-generated envs/policies for automated curricula; strong agent generalization. | agents, curriculum, adversarial-training, LLM-codegen, evaluation, continual-learning |
2604.01221 | HippoCamp: Benchmarking Contextual Agents on Personal Computers | cs.AI, cs.CV | 88 | Realistic benchmark for contextual PC/file agents with large multimodal data + dense trajectories for analysis | agent-benchmark, tool-use, context, multimodal, evaluation, personal-data |
2603.29328 | Beyond Corner Patches: Semantics-Aware Backdoor Attack in Federated Learning | cs.CR, cs.AI, cs.CV, cs.DC, cs.LG | 86 | Realistic semantic in-distribution backdoors in federated learning; stronger threat model than patch triggers. | backdoors, federated-learning, adversarial-ML, security-eval, robustness |
2603.28281 | Corruption-robust Offline Multi-agent Reinforcement Learning From Human Feedback | cs.LG | 86 | Provable robustness to ε-fraction corrupted preference data in offline multi-agent RLHF setting | rlhf, offline-rl, multi-agent, robustness, data-corruption, theory, alignment |
2603.28673 | FL-PBM: Pre-Training Backdoor Mitigation for Federated Learning | cs.LG, cs.CR, cs.DC | 86 | Client-side pre-training data filtering to mitigate FL backdoors; practical security angle | backdoors, federated-learning, data-poisoning, ml-security, defenses |
2603.08269 | SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM | cs.RO, cs.AI | 86 | Test-time compute scaling (MCTS) for VLM imitation; reusable recipe for robust robot agents | agents, robotics, VLM, test-time-scaling, MCTS, imitation-learning, planning |
2603.21656 | TrustFed: Enabling Trustworthy Medical AI under Data Privacy Constraints | cs.LG, cs.CY | 86 | Federated uncertainty quantification with distribution-free finite-sample coverage under heterogeneity | uncertainty-quantification, federated-learning, reliability, privacy, healthcare, conformal |
2603.29399 | ELT-Bench-Verified: Benchmark Quality Issues Underestimate AI Agent Capabilities | cs.AI, cs.DB | 86 | Auditor-Corrector finds benchmark flaws; shows agent capability underestimation and improves evaluation rigor | agent-evaluation, benchmarks, data-quality, auditing, data-engineering, ELT |
2603.28589 | Towards a Medical AI Scientist | cs.AI, cs.LG | 86 | Autonomous “AI Scientist” tailored to clinical research with evidence grounding and traceability. | agents, autonomous-research, medical, evidence-grounding, traceability, LLM |
2603.29199 | AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction | cs.AI | 85 | Open benchmark for multimodal agentic AEC tasks; includes harness techniques and baselines | agent-evaluation, benchmarks, multimodal, tool-use, real-world-tasks |
2603.29182 | Dummy-Aware Weighted Attack (DAWA): Breaking the Safe Sink in Dummy Class Defenses | cs.LG, cs.CR | 84 | Shows dummy-class defenses fool AutoAttack; proposes DAWA for proper robustness evaluation. | adversarial-robustness, evaluation, attack-methods, security, benchmarks |
2603.29410 | AGFT: Alignment-Guided Fine-Tuning for Zero-Shot Adversarial Robustness of Vision-Language Models | cs.CV, cs.AI, cs.LG | 84 | Adversarially robust VLM fine-tuning while preserving cross-modal alignment and zero-shot performance. | vision-language, adversarial-robustness, alignment-preservation, fine-tuning, zero-shot |
2603.22904 | Separating Diagnosis from Control: Auditable Policy Adaptation in Agent-Based Simulations with LLM-Based Diagnostics | cs.AI | 84 | Separates LLM diagnosis from deterministic control for auditability in adaptive policy interventions | auditability, LLM, governance, agent-based-simulation, control, safety |
2604.00706 | AfrIFact: Cultural Information Retrieval, Evidence Extraction and Fact Checking for African Languages | cs.CL | 84 | Fact-checking dataset for 10 African languages; exposes retrieval gaps and supports grounded verification | fact-checking, retrieval, low-resource, multilingual, grounding, misinformation |
2603.09331 | Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning | cs.LG | 84 | Language-embedding implicit rewards for RL; could impact instruction-following agents & reward hacking analysis. | reinforcement-learning, language-reward, implicit-reward, agents, specification-gaming |
2604.00835 | Agentic Tool Use in Large Language Models | cs.CL | 84 | Structured survey of LLM tool-use paradigms, failure modes, and eval gaps; useful map for agent safety work | tool-use, agents, survey, evaluation, failure-modes, LLM-systems |
2603.11709 | Scaling Laws for Educational AI Agents | cs.AI | 84 | Proposes “agent scaling law” + structured AgentProfile; relevant to evaluating/engineering agent capability growth. | agents, scaling-laws, agent-evaluation, multi-agent, education, specifications |
AI 论文洞察简报
2026-04-05
0) 执行要点(先读这个)
- “测试时扩展(test-time scaling)”正从文本走向具身控制:SAIL 表明,通过在连续轨迹上用 MCTS 花更多推理算力可以显著提升成功率(45 个节点时平均成功率 25%→73%),随后再蒸馏以恢复低延迟。
- 验证(verification)正在成为跨领域的主导训练/评估原语:求解器作为验证器(EVOM)、仿真器/数字孪生作为验证器(SAIL)、用于智能体的基准验证器(AEC-Bench、HippoCamp),以及能纠正基准本身的审计流水线(ELT-Bench-Verified)。
- 联邦学习安全进入军备竞赛:一种主动的客户端侧缓解(FL-PBM)可在测试的交通标志设置上将 ASR 压到接近 0–5%;而更贴近现实的语义感知攻击(SABLE)即使在鲁棒聚合器下也能实现高 ASR——说明角落贴片触发器的评估已不再具有代表性。
- 隐私审计正转向更强威胁模型与自动化:白盒梯度“特征漂移”MIA(G-Drift)在问答基准上报告接近上限的 AUC;AutoMIA 用智能体去发现跨 VLM 的 logits 级 MIA;SERSEM 表明代码特定的 MIA 需要结构感知加权才能超过通用基线。
- 鲁棒性评估本身也在被攻击:DAWA 展示标准对抗目标会高估 dummy-class 防御的鲁棒性(例如 CIFAR-10 上某领先防御的鲁棒准确率 58.61%→29.52%)。
- 长上下文可能悄然降低深思熟虑:Reasoning Shift 发现在无关长前缀/多轮/打包子任务下,推理轨迹最多缩短约 50%,自我验证减少——这对把子任务嵌入长历史的智能体流水线很关键。
2) 关键主题(聚类)
主题:测试时算力与搜索以获得鲁棒性(具身 + 智能体)
- 重要性:通过把一次性生成变成带评分的迭代搜索,可以在推理时“购买”鲁棒性,然后可选地蒸馏以满足部署延迟。
- 代表论文:
- 共同方法:
- 用迭代改进替代单次生成(在轨迹上做 MCTS;PSRO 风格的人群更新)。
- 用学习到的/LLM/VLM 的评分信号引导搜索(逐帧进度评分;收益矩阵 + MSNE)。
- 维护档案/种群以防回退(成功 rollout 档案;环境/策略种群)。
- 开放问题 / 失效模式:
- 测试时成本高(SAIL MCTS ~645s vs ~72s 蒸馏后)且依赖仿真器/数字孪生。
- 若无领域约束,课程生成可能不可行/过难(COvolve 依赖辅助函数/可行性检查)。
- 如何标准化“算力预算”以便跨方法公平比较。
主题:验证器无处不在(执行验证、仿真验证与评测框架验证的学习/评估)
- 重要性:当奖励稀疏或正确性难以标注时,外部验证器(求解器、仿真器、确定性脚本)能提供可扩展监督与更可靠评估。
- 代表论文:
- Execution-Verified Reinforcement Learning for Optimization Modeling(用于优化建模的执行验证强化学习)
- SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM(VLM 的上下文模仿学习测试时扩展)
- AEC-Bench: A Multimodal Benchmark for Agentic Systems in AEC(面向 AEC 领域智能体系统的多模态基准)
- HippoCamp: Benchmarking Contextual Agents on Personal Computers(在个人电脑上评测上下文智能体)
- 共同方法:
- 在沙箱中执行候选输出并对结果打分(求解器状态/目标值;仿真 rollout 成功与否)。
- 用结构化任务格式 + 自动验证器减少主观评判(JSONL 输出;harness 评分)。
- 增加逐步标注/轨迹以诊断失败位置(HippoCamp 的结构化轨迹)。
- 开放问题 / 失效模式:
- 验证器脆弱性与基准伪影可能主导测得性能(促使 ELT-Bench-Verified 出现)。
- 执行反馈未必能修复深层语义错误(EVOM 指出约束错误仍是关键残差)。
- 即便解析/检索工具更好,多模态落地(grounding)仍是瓶颈(AEC-Bench、HippoCamp)。
主题:现实异质性下的联邦不确定性与安全
- 重要性:临床 FL 需要在异质性下有效不确定性;FL 安全需要能抵御分布内语义触发器与自适应攻击者的防御。
- 代表论文:
- 共同方法:
- 用表征空间应对异质性(TrustFed 按嵌入距离路由;SABLE 分离特征)。
- 最小化共享信息以保护隐私(TrustFed 仅交换标量距离/阈值)。
- 在多种聚合器/划分下评估(SABLE 测试 FedAvg、Trimmed Mean、MultiKrum、FLAME、FilterFL)。
- 开放问题 / 失效模式:
- 防御/攻击不匹配:客户端清洗(FL-PBM)vs 能绕过离群过滤的语义触发器(SABLE)。
- TrustFed 的邻域大小选择是经验性的;扩展到分类之外与单模态之外仍待探索。
- 运行假设(例如 FL-PBM 假设客户端有可信执行环境)。
主题:隐私审计与成员推断在多样化(白盒、智能体化、领域特定)
- 重要性:训练数据泄露审计更强(白盒漂移信号)也更可扩展(智能体发现攻击),同时更贴合领域(代码特定信号)。
- 代表论文:
- G-Drift MIA: Membership Inference via Gradient-Induced Feature Drift in LLMs(通过梯度诱导特征漂移的成员推断)
- AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration(通过智能体自探索改进成员推断基线)
- SERSEM: Selective Entropy-Weighted Scoring for Membership Inference in Code Language Models(代码语言模型成员推断的选择性熵加权评分)
- 共同方法:
- 超越输出似然:使用梯度/表征漂移(G-Drift)或内部探针(SERSEM)。
- 用闭环评估自动发现指标(AutoMIA 策略库 + 引导智能体)。
- 针对领域结构定制信号(SERSEM 下调样板代码,上调标识符/字符串/lint 异常)。
- 开放问题 / 失效模式:
- 威胁模型约束:G-Drift 是白盒;AutoMIA 是灰盒(可访问 logits/tokenizer)。
- 对差分隐私等防御的鲁棒性(G-Drift 预期 DP 会削弱可分性)。
- 超越基准划分与模态的泛化。
主题:鲁棒性评估陷阱与带保证的修复
- 重要性:一些防御利用评估目标(dummy-class “安全汇”),而事后修复需要保证以避免破坏既有正确行为。
- 代表论文:
- 共同方法:
- 让目标匹配真实成功准则(DAWA 同时针对真实与配对 dummy logits)。
- 约束更新以保留既有行为(WARP 的 remain-set 约束;AGFT 通过软目标保留 CLIP 对齐)。
- 提供更强保证或更广泛泛化主张(WARP 证书;AGFT 覆盖 15 个数据集)。
- 开放问题 / 失效模式:
- DAWA 仅在 CIFAR 的 ℓ∞ 上评估;更广威胁模型未展示。
- WARP 依赖一阶线性化与保守的 Lipschitz 证书。
- AGFT 主要针对 ℓ∞ 下的零样本分类;更广多模态任务/威胁仍待探索。
主题:在真实工作流中基准化与审计智能体能力
- 重要性:报告的智能体性能可能被 harness 设计、验证器脆弱性与基准错误主导;审计基准能实质性改变结论。
- 代表论文:
- 共同方法:
- 用自动验证器 + 结构化输出对端到端任务评分。
- 增加诊断层:逐列审计(ELT)、逐步证据单元(HippoCamp)、按主张级别的幻觉检查(PaperRecon)。
- 比较不同 harness/工具变体以隔离瓶颈(AEC-Bench H vs H+ 解析工具)。
- 开放问题 / 失效模式:
- LLM-as-judge 的混杂与成本(ELT-Bench-Verified 指出多天、数百美元运行;PaperRecon 使用 GPT-5.4 评委)。
- 即便检索改善,多模态空间落地仍弱(AEC-Bench)。
- 展示质量可能与事实性权衡(PaperRecon:部分智能体 rubric 更高但重大矛盾更多)。
3) 技术综合
- 搜索 + 评分正在跨模态收敛:SAIL 用 VLM 导出的逐帧进度奖励做 MCTS;COvolve 用收益矩阵 + MSNE 在档案上稳定——两者都是“在学习到的评估器引导下,对候选进行种群/搜索”。
- 表征空间成为新的路由层:TrustFed 通过嵌入距离把测试样本分配给客户端;SABLE 显式分离触发与干净特征;两者都把嵌入当作隐私/鲁棒约束下的操作接口。
- 可结果验证的 RL 正在扩展到数学之外:EVOM 用求解器执行作为奖励;类似“验证器回路”也出现在 SAIL(数字孪生执行)与基准 harness(AEC-Bench/HippoCamp)中。
- 基准正确性成为一等变量:ELT-Bench-Verified 显示 33% 的列不匹配可归因于基准本身,修复后 SRDT 22.66%→32.51%,意味着许多“智能体失败”其实是评估失败。
- 对抗鲁棒性需要防御感知目标:DAWA 表明若攻击目标不匹配防御机制(dummy sink),鲁棒性会被高估;这呼应了评估中更广泛的目标不匹配担忧。
- 对齐/鲁棒微调正转向“结构保持”目标:AGFT 使用预训练的软图像→文本分布(加校准)以在提升鲁棒性的同时保留 CLIP 对齐。
- 智能体安全日益成为“行为控制平面”:Silicon Mirror 用基于风险的门控 + 生成器-评论家重写;Secure Forgetting 用转换模型生成遗忘提示与记忆编辑——两者都是不改基础权重的编排级控制。
- 长上下文流水线可能降低安全裕度:Reasoning Shift 表明加入无关上下文会减少自我验证行为,这可能与累积长历史的智能体系统产生不良交互。
- 系统瓶颈正在变成基础设施瓶颈:Heddle 显示通过以轨迹为中心的调度/放置/资源分配,rollout 吞吐可提升至 2.5×——若验证器重循环成为标准,这将至关重要。
4) Top 5 论文(含“为何是现在”)
1) SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM(VLM 的上下文模仿学习测试时扩展)
- 将脆弱的一次性 VLM 轨迹预测变为 对完整轨迹做 MCTS,并结合 VLM 评分 + 步级反馈。
- 随算力强扩展:从 1 次 rollout 到 45 个节点,平均成功率 25%→73%;真实世界 BlockIntoBowl 5/6 成功。
- 蒸馏将执行时间 644.72s→72.306s,使“多想再压缩”可落地。
- 质疑点:依赖与试验匹配的仿真器/数字孪生;sim-to-real 差距(位姿/接触)仍会导致失败。
2) TrustFed: Enabling Trustworthy Medical AI under Data Privacy Constraints(隐私约束下的可信医疗 AI)
- 在异质性下实现实用的联邦保形预测:表征感知的客户端分配与最大聚合阈值。
- 大规模评估(>43 万张图像,六种模态),在异质/不平衡下经验覆盖率接近标称值。
- 仅交换 标量距离与阈值,契合隐私约束。
- 质疑点:邻域大小选择是经验性的;仅限分类与单模态任务。
3) Execution-Verified Reinforcement Learning for Optimization Modeling(用于优化建模的执行验证强化学习)
- 用求解器作为确定性验证器进行仅结果 RL(无过程轨迹),采用 GRPO/DAPO 更新。
- 在部分基准上匹配/略超过程 SFT(如 OptiBench 62.95% vs 60.96%),并展示 零样本求解器迁移优势。
- 给出具体冷启动配方(通过跨求解器翻译做小规模 SFT,再执行-RL)。
- 质疑点:约束/语义错误仍是主要残余失效模式;需要执行 harness 基础设施。
4) DAWA: Breaking the Safe Sink in Dummy Class Defenses(打破 dummy 类防御中的安全汇)
- 揭示系统性评估缺陷:标准攻击会落入 dummy “安全汇”,从而高估鲁棒性。
- DAWA 的目标同时针对真实与 dummy logits;鲁棒准确率显著下降(如 CIFAR-10 上 PGD-AT+DUCAT 58.61%→29.52%)。
- 计算高效,易于集成到评估套件。
- 质疑点:仅在 CIFAR-10/100 的 ℓ∞ 下展示;更广数据集/威胁模型未展示。
5) Reasoning Shift: How Context Silently Shortens LLM Reasoning(推理迁移:上下文如何悄然缩短 LLM 推理)
- 发现当同一问题被嵌入到无关长上下文/多轮/打包子任务中时,推理轨迹最多缩短约 50%。
- 句子级分析显示自我验证减少,且更可能在首次答案后停止。
- 与长上下文智能体与工具使用系统高度相关(它们常把子任务嵌入大历史中)。
- 质疑点:上下文是合成的(如长莎士比亚前缀),深度轨迹分析主要聚焦单一模型。
5) 实用下一步
- 面向具身智能体:原型化“轨迹搜索 + 学习评分器”回路(MCTS/beam),测量成功率随节点预算变化;再测试蒸馏以恢复延迟(SAIL 风格)。
- 面向验证器式 RL:若你有确定性检查器(求解器、编译器、仿真器),实现仅结果 RL 与分组更新,并跟踪哪些错误类型仍残留(EVOM 强调约束错误)。
- 面向 FL 部署:用语义、分布内触发器(SABLE 风格)评估后门防御,而不仅是角落贴片;并在自适应攻击者下单独测试客户端清洗(FL-PBM)。
- 面向联邦医疗 ML 的不确定性:加入表征感知路由 + 保守阈值聚合(TrustFed),并扫描邻域大小以绘制覆盖率–集合大小前沿。
- 面向隐私审计:在可行时至少运行一种白盒 MIA(G-Drift)与一种灰盒场景下的自动化策略搜索(AutoMIA);若审计代码模型,再与代码领域特定 MIA(SERSEM)对比。
- 面向鲁棒性评估:若使用 dummy-class 防御,纳入dummy-aware 成功准则与 DAWA 类损失;否则你可能在基准化“安全汇”,而非鲁棒性。
- 面向长上下文智能体:增加监控以记录“推理 token 预算使用量”和自检行为随上下文长度变化;测试上下文压缩或子任务隔离是否能恢复验证(由 Reasoning Shift 启发)。
- 面向基准/harness:为基准审计预留时间——ELT-Bench-Verified 显示修正可显著改变结论;把验证脚本视为模型的一部分。
由逐篇论文分析生成;未进行外部浏览。
