AI 论文日报（2026-05-04）

Published: May 04, 2026

English version: /paper-news/2026-05-04/

运行统计

候选论文: 4848
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-05-01T00:00:00Z → 2026-05-02T00:00:00Z (weekend_backlog_sat, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2604.26235`	LATTICE: Evaluating Decision Support Utility of Crypto Agents PDF	cs.CR, cs.AI, cs.CL	90	Benchmark for crypto agents' decision support; directly relevant to agent evaluation and safety.	agents, benchmark, evaluation, decision-support, crypto, llm-judges
`2604.24155`	The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers PDF	cs.CY, cs.AI, cs.HC	89	Directly probes alignment targets via human vs AI vs designer moral judgments; high safety relevance.	alignment, AI ethics, human values, evaluation, moral judgment
`2604.25684`	Think Before You Act -- A Neurocognitive Governance Model for Autonomous AI Agents PDF	cs.AI	89	Agent governance via internalized deliberation; directly targets autonomous agent safety.	agent-safety, governance, autonomous-agents, guardrails, decision-making
`2604.24341`	GoAT-X: A Graph of Auditing Thoughts for Securing Token Transactions in Cross-Chain Contracts PDF	cs.CR	88	LLM-inspired auditing framework for cross-chain contracts with explicit reasoning over dependencies.	security, smart-contracts, auditing, reasoning-framework
`2604.26522`	AGEL-Comp: A Neuro-Symbolic Framework for Compositional Generalization in Interactive Agents PDF	cs.AI, cs.LG, cs.LO, cs.MA, cs.SC	88	Neuro-symbolic LLM agent targets compositional generalization failures with grounded verification.	llm-agents, neuro-symbolic, compositional-generalization, reasoning, reliability
`2604.26197`	Hierarchical Long-Term Semantic Memory for LinkedIn's Hiring Agent PDF	cs.IR, cs.LG	88	Industrial long-term memory for LLM agents with privacy and observability considerations.	llm-agents, memory, retrieval, privacy, personalization, deployment
`2604.25849`	ADEMA: A Knowledge-State Orchestration Architecture for Long-Horizon Knowledge Synthesis with LLMAgents PDF	cs.AI	88	Long-horizon LLM-agent orchestration with explicit knowledge state, governance, memory, and fallback.	llm-agents, long-horizon, orchestration, memory, reliability, evaluation
`2604.21352`	CARE: Counselor-Aligned Response Engine for Online Mental-Health Support PDF	cs.CL	88	LLM mental-health assistant in a high-risk domain; counselor alignment and real-time support matter.	llm, safety, mental-health, alignment, high-stakes
`2604.25602`	OxyGent: Making Multi-Agent Systems Modular, Observable, and Evolvable via Oxy Abstraction PDF	cs.AI	88	Modular multi-agent framework with observability and permission-driven planning; strong agent safety relevance.	agents, multi-agent, observability, permissions, frameworks
`2604.25152`	MGTEVAL: An Interactive Platform for Systemtic Evaluation of Machine-Generated Text Detectors PDF	cs.CR, cs.CL	86	Reusable platform for systematic evaluation of machine-generated text detectors under attacks.	evaluation, text-detection, robustness, benchmark, security
`2604.26516`	Lyapunov-Guided Self-Alignment: Test-Time Adaptation for Offline Safe Reinforcement Learning PDF	cs.LG, cs.AI	86	Test-time self-alignment for offline safe RL with Lyapunov-guided safety constraints.	safe-rl, alignment, test-time-adaptation, offline-rl, safety
`2604.26394`	SecMate: Multi-Agent Adaptive Cybersecurity Troubleshooting with Tri-Context Personalization PDF	cs.CR, cs.AI	86	Multi-agent cybersecurity assistant with user study; strong real-world agentic security relevance.	agent-safety, cybersecurity, multi-agent, evaluation, human-study, troubleshooting
`2604.17788`	SoK: Analysis of Privacy Risks and Mitigation in Online Propaganda Detection through the PROMPT Framework PDF	cs.CR, cs.SI	86	Privacy-risk framework and compliance scoring for propaganda detection pipelines.	privacy, security, survey, framework, compliance, evaluation
`2604.25085`	Optimally Auditing Adversarial Agents PDF	cs.GT, cs.AI, cs.CY	86	General audit-policy design for adversarial agents; strong strategic oversight relevance and concrete algorithms.	agents, auditing, game-theory, adversarial, mechanism-design
`2604.20273`	ActuBench: A Multi-Agent LLM Pipeline for Generation and Evaluation of Actuarial Reasoning Tasks PDF	cs.AI, cs.CL	84	Multi-agent LLM benchmark pipeline with verifier/repair roles and broad model evaluation.	llm-evaluation, multi-agent, benchmark, reasoning, dataset
`2604.25665`	LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation PDF	cs.CL, cs.AI, cs.DL, cs.IR	84	Strong LLM evaluation/meta-eval plus self-evaluative summarization across long documents.	llm-evaluation, summarization, self-evaluation, long-context, benchmarks
`2604.07900`	AnomalyAgent: Agentic Industrial Anomaly Synthesis via Tool-Augmented Reinforcement Learning PDF	cs.CV, cs.AI	84	Tool-augmented RL agent with self-reflection for iterative anomaly synthesis; relevant to agent evaluation.	agents, tool-use, reinforcement-learning, industrial-ai, self-reflection
`2603.07897`	LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization PDF	cs.LG	84	LLM-agent AutoML for cost prediction; concrete enterprise use with RAG and lifecycle automation.	llm, agents, automl, rag, enterprise, prediction
`2604.18302`	Toward Zero-Egress Psychiatric AI: On-Device LLM Deployment for Privacy-Preserving Mental Health Decision Support PDF	cs.AI	84	On-device LLM deployment for sensitive mental-health use directly targets privacy-preserving AI.	llm, privacy, on-device, healthcare, deployment, security
`2604.25247`	R-CoT: A Reasoning-Layer Watermark via Redundant Chain-of-Thought in Large Language Models PDF	cs.CR	84	Embeds watermarking into reasoning paths, relevant to LLM misuse resistance and model ownership.	llm-security, watermarking, reasoning, chain-of-thought, misuse
`2604.20795`	Automatic Ontology Construction Using LLMs as an External Layer of Memory, Verification, and Planning for Hybrid Intelligent Systems PDF	cs.AI	84	Structured external memory with ontology validation could improve grounding, verification, and agent reliability.	llm, knowledge-graphs, grounding, verification, agents, rag
`2604.25591`	Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models PDF	eess.AS, cs.AI, cs.CL, cs.LG, cs.SD	84	First systematic study of uncertainty estimation for audio-aware LLMs; useful reliability benchmark.	uncertainty, multimodal, LLM, hallucination, evaluation
`2604.24346`	SycoPhantasy: Quantifying Sycophancy and Hallucination in Small Open Weight VLMs for Vision-Language Scoring of Fantasy Characters PDF	cs.CV, cs.AI	83	Targets VLM sycophancy/hallucination with a new metric and large-scale benchmark.	vlm, hallucination, sycophancy, evaluation, benchmark, reliability
`2604.05489`	SCMAPR: Self-Correcting Multi-Agent Prompt Refinement for Complex-Scenario Text-to-Video Generation PDF	cs.AI, cs.MA	82	Multi-agent self-correcting prompt refinement with structured verification; relevant to agent reliability.	multi-agent, prompting, self-correction, verification, text-to-video
`2604.20598`	Self-Aware Vector Embeddings for Retrieval-Augmented Generation: A Neuroscience-Inspired Framework for Temporal, Confidence-Weighted, and Relational Knowledge PDF	cs.IR, cs.CL, cs.DB, cs.LG	82	RAG framework adds temporal, confidence, and relational signals to reduce stale retrieval errors.	rag, retrieval, factuality, knowledge-updates, reliability
`2604.24076`	An Information-Geometric Framework for Stability Analysis of Large Language Models under Entropic Stress PDF	cs.AI, cs.CL, cs.CR	82	LLM stability under uncertainty targets reliability in high-stakes deployment, though claims seem abstract.	LLM reliability, stability, uncertainty, evaluation, safety
`2604.25491`	The Forensic Cost of Watermark Removal PDF	cs.CV, cs.AI	82	Adds forensic detectability to watermark removal evaluation; useful for provenance/security.	watermarking, forensics, security, detection, generative-media
`2604.20842`	SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation PDF	cs.CL, cs.AI, cs.SD	82	Large benchmark for paralinguistic-aware speech generation; reusable eval resource for audio LMs.	benchmark, speech, audio-language-models, evaluation, multimodal
`2604.21766`	AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA PDF	cs.CL	82	New audio QA benchmark targeting shortcut resistance and real auditory reasoning; useful for evals.	benchmark, evaluation, audio, reasoning, robustness
`2604.11394`	Optimizing IoT Intrusion Detection with Tabular Foundation Models for Smart City Forensics PDF	cs.CR	82	Security-focused evaluation of tabular foundation models for fast IoT intrusion detection.	security, intrusion-detection, foundation-models, tabular, evaluation, iot

AI 论文洞察简报

2026-05-04

0) 执行要点（请先阅读）

智能体系统正从“LLM 作为单体”转向 LLM + 受约束的运行时结构：多篇论文表明，相比仅依赖原始提示，加入显式验证、工具使用边界、记忆/状态抽象或治理闭环能带来更好的效果。
一个强烈主题是：评估正变得更以决策为中心、也更关注失败模式：新的基准开始衡量效用、不确定性、谄媚性、隐私/合规、副语言特征、音频推理以及长文档摘要，而不只是总体准确率。
在安全/安保方面，最可信的进展来自混合式流水线：将符号/静态结构与学习组件结合起来。例如，跨链审计、离线安全强化学习自适应，以及本体/记忆系统，都通过将模型推理锚定在显式约束或状态上而获得提升。
多篇论文表明，在实践中运行时上下文质量往往比模型质量更重要：设备证据、分层记忆、运行时派生特征以及场景感知的提示优化，带来的收益常常大于单纯替换基础模型。
面向生产的工作越来越明确地关注延迟、成本、溯源和更新闭环。最好的系统不仅报告准确率，还报告部署权衡：如单项目成本、推理加速、token 节省或工程周期压缩。
一个反复出现的提醒是：许多有前景的结果仍然建立在合成基准、狭窄领域或 LLM-as-judge 协议之上，因此在实际采用时应优先进行对抗性验证、评审器校准和真实世界留出测试。

2) 关键主题（聚类）

主题：面向生产任务的结构化智能体编排

为什么重要：多篇论文认为，当前的主要瓶颈已不再是模型原始能力，而是如何将工作分解为可分析、可观测、可更新的运行时组件。共同模式是把规划、验证、记忆和工具使用外化为显式模块。
代表论文：
常见方法：
- 将工作流拆分为具有显式角色、生命周期钩子和状态作用域的类型化智能体或节点。
- 增加运行时可观测性：轨迹、检查点、调用图、溯源信息，或可重放的特征/模型规格。
- 使用离线或近线预处理来降低在线成本：分层聚合、缓存抽取、挖掘查询模式或工件压缩。
- 将记忆/状态视为一等对象，而不是隐式聊天历史。
开放问题 / 失败模式：
- 增加编排通常也会增加延迟和系统复杂度。
- 许多评估是领域特定的，或基于案例研究，而不是广泛的跨领域测试。
- 一些系统提升的是工程吞吐，而非最终任务准确率。
- 当关键工件或生产基础设施未完全公开时，可复现性会受限。

主题：验证优先的安全与安保流水线

为什么重要：最强的安全/安保结果来自那些用形式化谓词、静态分析、治理规则或控制理论结构来约束模型推理的系统。这能在错误代价高昂或不可逆的场景中减少幻觉式推理。
代表论文：
常见方法：
- 在执行前或决策前插入验证层。
- 将推理锚定在显式结构上：形式化谓词、规则层级、本体、静态切片或 Lyapunov 风格的安全集合。
- 使用混合栈：由 LLM 提出候选，再由符号化或受约束模块进行验证。
- 输出结构化轨迹或证明，以支持审计和人工升级处理。
开放问题 / 失败模式：
- 隐式依赖和对抗性表述仍会击穿当前验证器。
- 许多保证依赖于对世界模型、规则注入或基准代理指标的假设。
- 在延迟敏感场景中，验证开销可能相当可观。
- 单领域评估无法说明这些方法是否能泛化到更混乱的真实部署环境。

主题：更好的基准应面向真实失败模式，而不只是准确率

为什么重要：当前大量论文聚焦于衡量现有基准遗漏的内容：人类效用、不确定性、评审器谄媚性、隐私/合规、动态语音控制以及真正的音频推理。这表明该领域正从能力展示转向部署诊断。
代表论文：
常见方法：
- 定义更能反映面向用户效用或失败模式的任务特定维度。
- 使用 LLM 评审器，但配合人工验证、成对比较协议或心理测量分析。
- 构建难以通过纯文本先验或多项选择脚手架取巧的数据集。
- 报告更丰富的指标：低 FPR 工作点、IRT 能力/难度、人机差距或维度级效用分数。
开放问题 / 失败模式：
- LLM-as-judge 仍是偏差和不稳定性的主要来源。
- 合成或精心筛选的数据可能无法反映真实世界中的自发输入。
- 一些基准是有意做窄的，因此迁移性有限。
- 更好的测量并不自动意味着更好的训练信号。

主题：检索、记忆与知识表示正变得更具时间性和结构性

为什么重要：多篇论文认为，扁平向量检索不足以支持长期存在、持续演化或受隐私范围约束的知识。趋势正转向编码时间、层级、关系、溯源和更新语义的记忆系统。
代表论文：
常见方法：
- 为检索单元增加超越嵌入向量的元数据：时间窗口、置信度、关系、层级或摘要。
- 将快速检索与较慢的整合/更新路径分离。
- 使用自底向上的聚合或图验证来保留溯源并降低在线 token 成本。
- 将更新传播和陈旧答案控制视为核心检索问题。
开放问题 / 失败模式：
- 若干提升主要展示在合成或小规模、源自生产的数据基准上。
- 时间信号往往占主导，这引出了一个问题：更简单的重排序器是否已能捕获大部分收益。
- 图/本体维护可能脆弱且治理负担重。
- 长文档和跨实体推理仍是薄弱环节。

主题：隐私、取证与所有权正走向架构级保证

为什么重要：一些论文不再只依赖策略或事后检测，而是把隐私/安全推进到系统架构中：端侧推理、审计优化、水印鲁棒性，以及对去水印行为的取证检测。
代表论文：
常见方法：
- 将保证内置到系统设计中：零外发执行、推理层水印或优化的审计策略。
- 在具有操作意义的工作点上评估：低误报率、微调鲁棒性或预算受限审计。
- 将攻击者建模为自适应且有策略性的，而非静态的。
- 结合预防与检测，而不是假设单层防护就足够。
开放问题 / 失败模式：
- 许多结果仍属初步，或仅限于狭窄任务和模型。
- 自适应攻击者仍是一个尚未解决的重大威胁。
- 一些方法会以延迟或可用性为代价换取隐私/安全。
- 形式化保证往往依赖于对智能体或攻击面的理想化假设。

3) 技术综合

一个常见的系统模式是 proposal → verification → revision（提议 → 验证 → 修正）：SCMAPR、GoAT-X、LLM-ReSum、PAGRL 和 ActuBench 都采用先生成、再结构化检查、最后定向修复的流程。
多篇论文用运行时自适应控制闭环替代静态流水线：AnomalyAgent 的工具增强 RL、SecMate 的置信度引导式故障排查、SAS 的 imagined safe-fragment prompting，以及 OxyGent 的权限驱动规划。
通过离线预处理改善在线延迟几乎无处不在：HLTM 的自底向上聚合、LeJOT 的缓存特征提取、SmartVector 的整合路径，以及 ActuBench 的最难子集筛选。
最强的检索/记忆论文会在排序中加入非语义信号：时间有效性、置信度、关系、层级、隐私范围或可回答的 QA 视图。
评估越来越关注运行特性，而不只是平均分：如水印/检测工作中的 TPR@low FPR，不确定性中的 AURAC/AUROC，以及用于验证基准有效性的人类偏好或 IRT。
多篇论文表明，评审器设计如今已成为核心方法学变量：LLM-as-judge 出现在精算推理、摘要、语音、加密决策效用和 VLM 谄媚性等任务中，而且通常伴随着对偏差的明确担忧。
可以看到一种从“将对齐视为训练”转向“将对齐视为运行时治理”的变化：PAGRL、审计优化、零外发设计和测试时安全 RL 都强调部署时控制。
当任务需要组合性、形式约束或持久状态时，混合神经符号方法仍然具有竞争力，这一点可见于 AGEL-Comp、本体构建和 GoAT-X。
多篇实用型论文报告称，上下文/证据质量胜过模型扩展：SecMate 中的设备线索、LeJOT 中的运行时特征，以及 HLTM 中的分层记忆，都实质性改变了结果。
这一组论文中反复出现的局限是外部效度：合成基准、单领域案例研究和专有组件仍很常见，因此许多已报告的提升应被视为强有力的原型，而非已尘埃落定的最佳实践。

4) 前 5 篇论文（附“为什么是现在”）

GoAT-X: A Graph of Auditing Thoughts for Securing Token Transactions in Cross-Chain Contracts
- 将静态分析、形式化跨链谓词、LLM 集成和 RAG 结合为一个受约束的审计流水线。
- 在覆盖 20 个项目、673 份合约的数据上，报告了 92% 的审计点召回率，以及项目级 0.95/0.83/0.88 的召回率/精确率/F1。
- 在真实扫描中，从 128 个告警中发现了 117 个已确认风险，并报告了较低的单项目成本和运行时间。
- 为什么是现在：它是一个具体案例，展示了如何通过将 LLM 紧密锚定在程序结构上，而不是依赖自由形式推理，使基于 LLM 的安全分析真正有用。
- 持保留态度之处：隐式语义/算术依赖仍会导致漏报，而且部分告警仍需人工判断是否可利用。
Hierarchical Long-Term Semantic Memory for LinkedIn’s Hiring Agent
- 提出了一种与 schema 对齐的分层记忆，包含 facets、可回答 QA 和摘要，并支持带隐私范围的子树检索。
- 支持无损增量更新和具备溯源感知的回答，解决了真实生产中的记忆约束问题。
- 在一个源自生产的基准上，报告了 0.798 的语义正确性和 0.635 的 Token-F1，并在延迟/质量权衡上优于基线。
- 为什么是现在：长期记忆正成为企业智能体的瓶颈，而这是本批论文中最清晰、最贴近生产设计之一。
- 持保留态度之处：评估规模较小且领域特定，一些分层基线也未被充分比较。
SecMate: Multi-Agent Adaptive Cybersecurity Troubleshooting with Tri-Context Personalization
- 将设备证据、在线用户熟练度画像和推荐整合为一个统一的故障排查助手。
- 在一项 144 名参与者的研究中，通过 Clue Collector 进行设备锚定，使正确解决率从约 50% 提升到 90.9%。
- 用户画像能在少数几轮内快速改善，系统还报告了用户更偏好的分步式解决方案交付方式。
- 为什么是现在：它展示了一条让支持型智能体真正有用的实用路径——将其锚定在本地证据上，并根据用户技能进行自适应。
- 持保留态度之处：参与者群体相对同质，而且单次对话的成本/延迟并不低。
LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation
- 对 7 个数据集上的 14 种摘要指标进行了广泛的元评估，并表明词汇类指标在长文档/专业文档上常常严重失效。
- 多智能体 LLM 评估器在语言维度上与人类更一致，而 refinement loop（迭代优化闭环）无需微调即可改善较弱摘要。
- 在低质量摘要上，报告了最高 +33% 的事实准确性和 +39% 的覆盖率提升，并且 89% 的人工偏好更倾向于优化后的输出。
- 为什么是现在：由评估驱动的自我改进正成为重训练之外的实用途径，尤其适用于企业摘要系统。
- 持保留态度之处：长文档性能仍明显下降，而且评估器的自偏好问题仍值得担忧。
Lyapunov-Guided Self-Alignment: Test-Time Adaptation for Offline Safe Reinforcement Learning
- 使用 imagined rollouts 和基于 occupancy 的 Lyapunov 评分，选择安全轨迹片段作为预训练 transformer policy 的上下文提示。
- 在部署时避免参数更新，同时在 Safety Gymnasium 和 MuJoCo 场景中降低成本/失败率，并保持或提升奖励。
- 包含一个将安全性与计算预算联系起来的概率界。
- 为什么是现在：无需重训练的测试时对齐，对已部署智能体和类机器人系统越来越重要，因为这些场景中的更新代价高昂，甚至不可行。
- 持保留态度之处：推理开销显著，而且安全性依赖于离线覆盖度和世界模型质量。

5) 实际下一步

构建验证优先的智能体闭环：在任何关键动作或外部工具调用之前，要求先提议、再显式检查、再定向修正。
对智能体记忆，测试分层或时间感知检索，而不是扁平向量搜索；衡量陈旧答案率、溯源覆盖率和更新成本，而不只是检索召回率。
现在就加入运行时可观测性钩子：结构化轨迹、检查点、中间工件，以及逐步延迟/成本核算，正迅速成为调试和治理的基础配置。
在评估助手时，超越准确率，转向决策支持指标：可执行性、不确定性处理、证据覆盖和用户负担。
在将任何 LLM-as-judge 设置用于模型排序或自动优化之前，先通过人工抽查、成对比较和偏差审计进行压力测试。
对安全关键型智能体，原型化动作前治理层，设置明确的继续/自我纠正/升级处理结果，并衡量误升级、漏升级和延迟开销。
在安全工作流中，优先采用混合静态/符号 + LLM 设计，而不是纯提示方案；衡量低 FPR 条件下的性能和分析师分诊负担。
如果部署隐私敏感系统，应优先考虑架构级保证，如端侧推理、范围受限记忆和默认不外发，而不是只依赖策略承诺。

基于逐篇论文分析生成；未进行外部浏览。

Di Tang

AI 论文洞察简报

2026-05-04

0) 执行要点（请先阅读）

2) 关键主题（聚类）

主题：面向生产任务的结构化智能体编排

主题：验证优先的安全与安保流水线

主题：更好的基准应面向真实失败模式，而不只是准确率

主题：检索、记忆与知识表示正变得更具时间性和结构性

主题：隐私、取证与所有权正走向架构级保证

3) 技术综合

4) 前 5 篇论文（附“为什么是现在”）

5) 实际下一步