AI 论文日报（2026-03-30）

Published: March 30, 2026

English version: /paper-news/2026-03-30/

运行统计

候选论文: 1714
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-03-27T00:00:00Z → 2026-03-28T00:00:00Z (weekend_backlog_sat, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2603.24570`	Anti-I2V: Safeguarding your photos from malicious image-to-video generation PDF	cs.CV, cs.AI	90	Targets misuse: adversarial protection vs image-to-video diffusion incl. DiT; timely safety angle	misuse-prevention, adversarial-perturbations, diffusion, video-generation, deepfakes, DiT
`2603.21698`	A Blueprint for Self-Evolving Coding Agents in Vehicle Aerodynamic Drag Prediction PDF	cs.AI	88	Contract-centric self-evolving coding agents; strong for agentic reliability, leakage control, reproducibility.	agents, coding-agents, autonomous-optimization, evaluation-contracts, reproducibility, leakage-prevention
`2603.22179`	MARCUS: An agentic, multimodal vision-language model for cardiac diagnosis and management PDF	cs.AI	88	Agentic multimodal VLM for cardiac diagnosis across ECG/echo/CMR; large-scale training, real deployment relevance	agentic-systems, multimodal, vision-language, medical-ai, orchestration, clinical-decision-support
`2603.17838`	Event-Centric Human Value Understanding in News-Domain Texts: An Actor-Conditioned, Multi-Granularity Benchmark PDF	cs.CL	86	NEVU benchmark for actor-conditioned, direction-aware human values in factual news; useful for alignment evals.	alignment, values, benchmark, evaluation, news, grounding
`2603.23966`	Policy-Guided Threat Hunting: An LLM enabled Framework with Splunk SOC Triage PDF	cs.CR, cs.AI	86	Agentic LLM framework for SOC triage/threat hunting; high real-world security relevance.	agentic-ai, cybersecurity, SOC, SIEM, threat-hunting, LLM-tools
`2603.21613`	AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents PDF	cs.IR, cs.AI	86	End-to-end policy optimization for tool-using LLM recommender agents; trajectory-level feedback linkage.	agents, tool-use, policy-optimization, ReAct, RL, recommenders, evaluation
`2603.18813`	Can LLM generate interesting mathematical research problems? PDF	cs.AI	86	Agent+benchmark for LLM mathematical creativity; 665 novel research problems w/ expert verification	LLM, agents, evaluation, creativity, math, benchmark
`2603.23146`	入选理由 AI-Generated Text Detection Fails: Evidence from Explainable AI Beyond Benchmark Accuracy PDF	cs.CL, cs.AI	86	Shows AI-text detectors fail via artifacts; adds explainability beyond benchmark accuracy	AI-generated-text, detection, dataset-artifacts, robustness, explainable-AI, evaluation
`2603.23160`	UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities PDF	cs.CL	86	Unified toolkit for multi-turn dialogue eval; improves comparability and scalable interactive testing	evaluation, dialogue, toolkit, benchmarks, interactive-systems, metrics
`2603.24051`	FinToolSyn: A forward synthesis Framework for Financial Tool-Use Dialogue Data with Dynamic Tool Retrieval PDF	cs.CL	86	Forward-synth tool-use dialogues w/ dynamic tool retrieval; useful for agent tool-use training/eval	LLM agents, tool use, synthetic data, dialogue generation, retrieval, finance
`2603.23447`	3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding PDF	cs.CV, cs.AI	86	City-scale multimodal LLM framework + 1.2M dataset for 3D perception/planning; strong reuse potential	multimodal-llm, 3d, city-scale, dataset, planning, vision-language
`2603.22985`	Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation PDF	cs.CL, cs.CY	86	Fine-grained multimodal toxicity labels (incivility vs intolerance); improves moderation modeling & eval.	content-moderation, multimodal, toxicity, dataset, evaluation, vision-language
`2603.18779`	SoK: Practical Aspects of Releasing Differentially Private Graphs PDF	cs.CR, cs.SI	86	SoK on practical DP graph release; clarifies guarantees, pitfalls, and utility tradeoffs.	privacy, differential-privacy, graphs, systematization-of-knowledge, deployment
`2603.08014`	FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning PDF	cs.LG, cs.AI	86	Federated LoRA aggregation fix; better convergence + privacy-preserving LLM finetuning practicality	federated-learning, LoRA, LLM-finetuning, privacy, optimization
`2603.23178`	SAiW: Source-Attributable Invisible Watermarking for Proactive Deepfake Defense PDF	cs.AI	84	Source-attributable invisible watermarking for proactive deepfake defense and provenance verification.	security, deepfakes, watermarking, provenance, media-integrity
`2603.24213`	Uncovering Memorization in Timeseries Imputation models: LBRM Membership Inference and its link to attribute Leakage PDF	cs.LG, cs.AI	84	Black-box membership+attribute inference for time-series imputation; concrete privacy leakage.	privacy, membership-inference, attribute-inference, timeseries, security, leakage
`2603.22987`	A Critical Review on the Effectiveness and Privacy Threats of Membership Inference Attacks PDF	cs.CR, cs.LG	84	Clarifies when membership inference is a real privacy threat; warns against overusing MIA as metric.	privacy, membership-inference, security, evaluation, threat-models, ml-security
`2603.17328`	A Progressive Visual-Logic-Aligned Framework for Ride-Hailing Adjudication PDF	cs.AI, cs.LG	84	Targets multimodal hallucination/logic looseness via evidentiary protocol + synthetic grounding engine	multimodal LLM, reliability, hallucinations, structured reasoning, evaluation, decision support
`2603.22977`	DariMis: Harm-Aware Modeling for Dari Misinformation Detection on YouTube PDF	cs.CL, cs.AI, cs.LG	84	First large Dari YouTube misinformation+harm dataset; useful for safety triage in low-resource settings.	misinformation, dataset, low-resource, harm-assessment, content-moderation, YouTube
`2603.21515`	When the Abyss Looks Back: Unveiling Evolving Dark Patterns in Cookie Consent Banners PDF	cs.CR	83	Detects newly evolved cookie-consent dark patterns (DP11–DP19); practical privacy/security measurement.	privacy, security, dark-patterns, measurement, compliance, web
`2603.23279`	Emergence of Fragility in LLM-based Social Networks: the Case of Moltbook PDF	cs.SI, cs.AI	82	Large-scale empirical study of LLM-agent social network fragility; relevant to multi-agent risk dynamics.	multi-agent, LLM-agents, emergent-behavior, network-science, systemic-risk
`2603.19152`	VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models PDF	cs.CL, cs.AI	82	RL w/ verifiable rewards + variable entropy to enforce constraints; targets low-resource LM reliability	alignment, RLVR, reliability, low-resource, constraints, training
`2603.22015`	Retrieving Climate Change Disinformation by Narrative PDF	cs.CL	82	Narrative retrieval for climate disinfo without fixed labels; supports emerging narrative tracking	misinformation, retrieval, narratives, climate, evaluation, synthetic-data
`2603.22988`	Robustness Quantification and Uncertainty Quantification: Comparing Two Methods for Assessing the Reliability of Classifier Predictions PDF	cs.LG	82	Compares robustness vs uncertainty for per-prediction reliability, incl. distribution shift; practical for safety	reliability, uncertainty, robustness, distribution-shift, calibration, evaluation
`2603.21619`	Efficient Zero-Shot AI-Generated Image Detection PDF	cs.CV, cs.AI	82	Training-free, fast AI-generated image detection via frequency-perturbation sensitivity; good generalization angle	ai-generated-content, detection, robustness, forensics, security, frequency-domain
`2603.22982`	How Far Should We Need to Go : Evaluate Provenance-based Intrusion Detection Systems in Industrial Scenarios PDF	cs.CR	82	Systematic industrial eval of provenance-based IDS; highlights real-world gaps vs DARPA-style benchmarks.	security, intrusion-detection, provenance, evaluation, datasets, robustness
`2603.18647`	Beyond TVLA: Anderson-Darling Leakage Assessment for Neural Network Side-Channel Leakage Detection PDF	cs.CR, cs.AI	82	Better side-channel leakage test for NN implementations; full-distribution vs mean-shift TVLA.	security, side-channels, leakage-detection, neural-networks, evaluation
`2603.08459`	Data-Driven Priors for Uncertainty-Aware Deterioration Risk Prediction with Multimodal Data PDF	cs.LG	82	Uncertainty-aware multimodal prediction with data-driven priors; reliability angle transferable beyond health	uncertainty, calibration, multimodal, reliability, bayesian
`2603.22846`	CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models PDF	cs.AI	80	Competitive multi-agent training + new benchmark for embodied tracking; useful for adversarial agent evals.	agents, multi-agent-RL, benchmark, embodied-ai, adversarial-training, VLA
`2603.19101`	FedTrident: Resilient Road Condition Classification Against Poisoning Attacks in Federated Learning PDF	cs.CR, cs.AI, cs.DC, cs.LG	80	Federated learning defense vs targeted label-flipping in ITS; safety-critical robustness.	federated-learning, data-poisoning, robustness, transportation, label-flipping

AI 论文洞察简报

2026-03-30

0) 执行要点（先读这个）

“端到端策略优化”正在从聊天扩散到更广领域：多篇论文使用 GRPO/PPO 风格的强化学习来优化完整轨迹（工具调用、多模态推理、具身控制），而不仅仅是最终答案——这表明智能体系统的训练与评估方式在短期内可能发生转变。
可靠性正在被操作化为“选择性行动”（延后/遏制/拒绝），而不只是校准：临床风险预测（MedCertAIn）、SOC 分诊（策略引导的威胁狩猎）以及鲁棒性 vs 不确定性（RQ vs UQ）都强调决策工作流。
数据/基准工作正变得更结构化且“方向感”更强：NEVU（以行为体为条件、方向感知的价值）与 “Beyond Hate”（不文明 vs 不宽容）显示从粗粒度标签转向可分解构念，更贴合治理需求。
联邦与隐私/安全工作更“系统真实”：FedMomentum 修复了一个具体的 LoRA 聚合失效模式（动量丢失）；FedTrident 增加了持久化客户端排除 + 修复（遗忘）；工业 PIDS 评估显示在真实企业日志中可移植性大幅下降且误报率高。
主动式、度量驱动的防御正在崛起：不可见且可溯源的水印（SAiW）、反图生视频隐身（Anti-I2V）以及 Cookie 横幅暗黑模式测量（UMBRA）将防御与具体的交互后/后处理行为绑定。

2) 关键主题（聚类）

主题：面向智能体轨迹的 RL（工具、多模态推理、具身控制）

重要性：仅用最终任务指标训练智能体、却无法把功劳分配到中间步骤，会导致工具使用与推理脆弱。这些工作把整条轨迹视为策略输出并直接优化。
代表论文：
共同方法：
- 用 GRPO 风格更新与 KL 约束稳定训练，优化轨迹级目标（如 list-wise NDCG 奖励、MCQ 准确率、跟踪奖励）。
- 加结构防止坍塌：可变/位置感知的熵控制（VEPO）、硬负例精炼（AgenticRec PPR）、以竞争对手作为课程（CoMaTrack）。
- 在 RL 期间使用轻量适配（如 CoMaTrack 在 RL 期间用 LoRA；MARCUS 分阶段训练）。
开放问题 / 失效模式：
- 当工具变化、观测缺失或对手非平稳时，这些策略在分布漂移下有多鲁棒？
- 奖励投机 / “策略坍塌”仍是核心风险（VEPO 明确针对；对工具过度使用与轨迹格式约束也隐含相关）。
- 离线到在线的鸿沟：AgenticRec 是离线、候选池固定；真实世界反馈回路与探索成本尚未测试。

主题：选择性预测与将可靠性作为工作流原语

重要性：在高风险场景中，关键产品往往是“知道何时不行动”。这些论文强调延后/遏制决策与可靠性排序，而不仅是平均准确率。
代表论文：
共同方法：
- 用不确定性/可靠性分数驱动覆盖率 vs 性能权衡（选择性 AUROC/AUPRC；准确率–拒绝曲线）。
- 在无标签条件下构造“困难/不确定”集合（MedCertAIn：扰动 + 跨模态不匹配）或通过鲁棒性邻域构造（RQ：ε-contamination）。
- 将轻量过滤器/策略与昂贵的下游复核耦合（SOC：DRL 动作 × 异常分数决定是否进行 LLM 分诊）。
开放问题 / 失效模式：
- 均值场变分推断与启发式扰动可能无法代表真实临床漂移（MedCertAIn）。
- RQ 结果展示在离散 UCI 数据集上的朴素贝叶斯/生成森林——向深度网络迁移不明确。
- SOC 流水线使用二元动作与固定 5 分钟窗口；短时攻击与更丰富动作空间未覆盖。

主题：以可分解构念为核心的数据中心对齐基准

重要性：粗标签会掩盖模型真正学到的东西并制造治理盲区。这些数据集显式区分谁持有某种价值、方向（一致 vs 矛盾）以及存在何种伤害。
代表论文：
共同方法：
- 用结构化目标替代单一标签（以行为体为条件的有向价值；不文明 vs 不宽容；错误信息 × 伤害）。
- 评估对运营真正重要的失效模式（NEVU 的方向反转率；Beyond Hate 的 FNR−FPR 审核偏差；叙事方差作为检索难度）。
- 证明轻量适配可能非常关键（NEVU：LoRA 微调的开源模型优于仅提示的基线）。
开放问题 / 失效模式：
- 标注噪声与长尾标签（NEVU）以及子集规模有限（Beyond Hate：2,030 张 meme）可能限制结论。
- 领域依赖：气候叙事检索依赖 NodeRAG 摘要与假设生成；文中提到运行时与专有依赖。
- DariMis 仅用文本元数据；视频/音频信号与联合伤害预测是未来工作。

主题：联邦学习鲁棒性：从优化病理到投毒 + 修复

重要性：FL 正从“平均更新”转向维持训练动力学与处理持久对手——两者对真实部署都至关重要。
代表论文：
- FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning
- FedTrident: Resilient Road Condition Classification Against Poisoning Attacks in Federated Learning
共同方法：
- 修复参数化/聚合中的结构不匹配（FedMomentum：聚合 ΔW=ΣBiAi 后用截断 SVD 重构 rank‑r LoRA；将残差并入骨干）。
- 超越逐轮过滤：维护历史并对持久客户端采取行动（FedTrident 评分 + 黑名单），并修复全局状态（通过减去存储贡献进行近似遗忘）。
开放问题 / 失效模式：
- FedMomentum 增加服务器计算（报告 randomized SVD ~0.60s/轮），下行开销取决于残差秩/阈值。
- FedTrident 假设 TLFA 足迹可通过输出层神经元分析观察；更深层或更隐蔽攻击未评估。

主题：安全与隐私评估更关注分布敏感性与部署现实

重要性：“标准测试”常常漏掉真实泄露或真实世界失效模式。多篇论文提出更强测试或表明实验室基准高估了就绪度。
代表论文：
共同方法：
- 使用对完整分布敏感的检验（ADLA vs Welch t-test）来检测在对抗措施下的泄露。
- 在工业或攻击驱动设置中评估，而非仅依赖基准声明（PIDS 可移植性下降；DP 图发布可被链路预测/重构攻击）。
- 形式化“现实威胁”条件（MIA C0–C4；在现实先验下的加权精度）。
开放问题 / 失效模式：
- ADLA 仅在受限的 MLP 实现（仅首个隐藏神经元在设备端）与一种防护设置上展示。
- 工业 PIDS 数据无法共享；跨组织泛化仍不确定。
- DP 图发布结果显示攻击成功持续存在；依赖感知的隐私机制仍待解决。

3) 技术综合

GRPO 正成为跨领域通用的 RL 原语：推荐排序（list-wise GRPO）、多模态临床 MCQ（MARCUS 使用 GRPO）、具身跟踪（CoMaTrack 使用带 KL 到 SFT 的 GRPO）。
通过对手的课程 vs 通过先验的课程：CoMaTrack 用竞争对手自我提升难度；MedCertAIn 用无标签“高不确定”上下文集合（扰动 + 跨模态不匹配）塑造贝叶斯先验。
“轨迹 = 策略输出”是统一的智能体训练抽象：AgenticRec 显式包含 Think/Act/Obs 与 Rank token；CoMaTrack 联合输出语言 + 航点；SOC 分诊用策略层门控昂贵的 LLM 分析。
结构化标签减少与治理相关的错误不对称：Beyond Hate 显示粗粒度仇恨标签会导致严重漏检（FNR−FPR），引入不宽容监督后改善；NEVU 在 LoRA 后降低方向反转。
在 FL 中，PEFT 的聚合正确性很关键：FedMomentum 的关键动作是聚合 BA 乘积（ΔW）后用截断 SVD 重构低秩结构，而不是分别平均 A/B。
“修复（remediation）”正在成为防御的一等公民：FedTrident 在拉黑后减去历史贡献（近似遗忘）；水印（SAiW）与隐身（Anti‑I2V）旨在创作时防滥用，而非事后检测。
分布敏感测试是反复出现的母题：ADLA 针对非均值泄露；AI 文本检测论文用 SHAP 展示特征依赖跨语料漂移；PIDS 评估显示跨主机/平台 AUC 下降。
检索被用来逃离固定分类法：气候叙事检索使用 HyDE 风格的推测文档 + NodeRAG 社区摘要；这与更广泛的从固定标签分类转向适应演化领域的趋势一致。

4) Top 5 论文（含“为什么是现在”）

1) MARCUS: An agentic, multimodal vision-language model for cardiac diagnosis and management

训练模态专家（ECG/超声/CMR）与一个编排器，将查询分解并聚合输出。
报告强的多模态融合准确率（70.0%），对比 GPT‑5 Thinking（22.5%）与 Gemini 2.5 Pro（27.5%）。
使用反事实探测（包括缺失图像的探测）缓解“海市蜃楼推理（mirage reasoning）”，报告系统级海市蜃楼率为 0%。
质疑点：训练数据开发为单中心；评估为回顾性、基于基准（MCQ/VQA），而非前瞻性临床影响。

2) FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

识别出 FL 中因 LoRA 聚合结构不正确导致的“训练动量丢失”。
聚合正确的 ΔW=ΣBiAi，然后用截断 randomized SVD 与平衡分解重构 rank‑r LoRA；将残差能量并入骨干。
在数学、常识与代码上显示稳定增益；randomized SVD 使聚合可行（0.60s/轮 vs 精确法 >1000s）。
质疑点：增加服务器计算与下行成本取决于残差阈值/秩；实验仅限特定设置（如 LLaMA2‑7B、10 个客户端）。

3) CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models

提出用于具身视觉跟踪的竞争式多智能体 RL，用对手作为自动课程。
显示多智能体 RL 优于 SFT 与单智能体 RL（如 STT SR 88.2 → 89.5 → 92.1）。
发布 CoMaTrack-Bench 用于对抗性 EVT 评估；在新基准上相对基线有强零样本增益。
质疑点：对手真实度与多智能体非平稳性/计算成本是已承认的限制。

4) When the Abyss Looks Back: Unveiling Evolving Dark Patterns in Cookie Consent Banners

UMBRA 检测 19 种暗黑模式（含 9 种“演化的”、依赖交互的模式），并将其与 Cookie 设置行为关联。
在 14K 网站上进行大规模测量；报告高检测准确率（DP11–DP19 最高可达 99%）以及拒绝后 Cookie 仍持续存在（虚假退出）。
将 UI 操控与安全相关的 Cookie 属性（如 XSS 暴露）连接起来，超越“合规 UX”的框架。
质疑点：启发式/词典规则可能需要持续更新；DOM 混淆与设备渲染差异可规避测量。

5) How Far Should We Need to Go: Evaluate Provenance-based IDS in Industrial Scenarios

在真实企业溯源日志上测试 5 个基于异常的 PIDS；显示可移植性大幅下降（跨主机平均 AUC −26.77%，跨平台 −38.03%）。
发现对持续变化的主机误报很高（即使无攻击，三套系统 FPR >23%）。
提出无监督误报降低（TF‑IDF + Louvain），将 Nodlink FPR ~25%→~10%，并对误报分组以减少人工成本。
质疑点：单组织数据且不可共享，限制可复现性与外部有效性。

5) 实用的下一步

如果你训练会用工具的智能体：将工具调用视为策略 token，并优化轨迹级奖励（AgenticRec 风格），再加入第二阶段硬负例精炼以提升 top‑K 区分能力。
如果你做多模态安全/临床 ML：评估选择性指标（覆盖率曲线），并构建无标签的“不确定性上下文集合”（扰动 + 模态不匹配）来压力测试延后行为（MedCertAIn）。
如果你部署联邦 PEFT：避免对 LoRA 的 A/B 分别平均；考虑服务器端 ΔW 聚合 + 低秩重构（FedMomentum），并衡量收敛速度 vs 聚合计算/下行开销。
如果你防御 FL 投毒：加入持久性客户端评分 + 排除，并规划对历史贡献的修复/遗忘（FedTrident），再测试动态源/目标翻转。
如果你依赖 AI 文本检测器：部署前要求跨数据集、跨生成器评估 + 可解释性审计（SHAP 风格）；仅看基准准确率并不能保证有效性。
如果你评估泄露或隐私风险：在均值漂移检验可能失效时，优先使用分布敏感检验（ADLA）；对 MIA，报告在现实先验下的可靠性（加权精度）与攻击者成本（C0–C4 框架）。
如果你构建内容审核数据集：分解构念（语气 vs 不宽容；价值的行为体 + 方向），并跟踪与审核相关的错误不对称（如 FNR−FPR），而不只是准确率/F1。

由逐篇论文分析生成；无外部浏览。

Di Tang

AI 论文洞察简报

2026-03-30

0) 执行要点（先读这个）

2) 关键主题（聚类）

主题：面向智能体轨迹的 RL（工具、多模态推理、具身控制）

主题：选择性预测与将可靠性作为工作流原语

主题：以可分解构念为核心的数据中心对齐基准

主题：联邦学习鲁棒性：从优化病理到投毒 + 修复

主题：安全与隐私评估更关注分布敏感性与部署现实

3) 技术综合

4) Top 5 论文（含“为什么是现在”）

5) 实用的下一步