AI 论文日报(2026-05-04)

Published:

English version: /paper-news/2026-05-04/

运行统计

  • 候选论文: 4848
  • 入选论文: 30
  • 已精读完成: 30
  • 时间窗口 (UTC): 2026-05-01T00:00:00Z → 2026-05-02T00:00:00Z (weekend_backlog_sat, expanded=0)
展开查看用于总结的论文列表
arXiv ID标题 / 链接分类评分入选理由标签
2604.26235LATTICE: Evaluating Decision Support Utility of Crypto Agents
PDF
cs.CR, cs.AI, cs.CL90Benchmark for crypto agents' decision support; directly relevant to agent evaluation and safety.agents, benchmark, evaluation, decision-support, crypto, llm-judges
2604.24155The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers
PDF
cs.CY, cs.AI, cs.HC89Directly probes alignment targets via human vs AI vs designer moral judgments; high safety relevance.alignment, AI ethics, human values, evaluation, moral judgment
2604.25684Think Before You Act -- A Neurocognitive Governance Model for Autonomous AI Agents
PDF
cs.AI89Agent governance via internalized deliberation; directly targets autonomous agent safety.agent-safety, governance, autonomous-agents, guardrails, decision-making
2604.24341GoAT-X: A Graph of Auditing Thoughts for Securing Token Transactions in Cross-Chain Contracts
PDF
cs.CR88LLM-inspired auditing framework for cross-chain contracts with explicit reasoning over dependencies.security, smart-contracts, auditing, reasoning-framework
2604.26522AGEL-Comp: A Neuro-Symbolic Framework for Compositional Generalization in Interactive Agents
PDF
cs.AI, cs.LG, cs.LO, cs.MA, cs.SC88Neuro-symbolic LLM agent targets compositional generalization failures with grounded verification.llm-agents, neuro-symbolic, compositional-generalization, reasoning, reliability
2604.26197Hierarchical Long-Term Semantic Memory for LinkedIn's Hiring Agent
PDF
cs.IR, cs.LG88Industrial long-term memory for LLM agents with privacy and observability considerations.llm-agents, memory, retrieval, privacy, personalization, deployment
2604.25849ADEMA: A Knowledge-State Orchestration Architecture for Long-Horizon Knowledge Synthesis with LLMAgents
PDF
cs.AI88Long-horizon LLM-agent orchestration with explicit knowledge state, governance, memory, and fallback.llm-agents, long-horizon, orchestration, memory, reliability, evaluation
2604.21352CARE: Counselor-Aligned Response Engine for Online Mental-Health Support
PDF
cs.CL88LLM mental-health assistant in a high-risk domain; counselor alignment and real-time support matter.llm, safety, mental-health, alignment, high-stakes
2604.25602OxyGent: Making Multi-Agent Systems Modular, Observable, and Evolvable via Oxy Abstraction
PDF
cs.AI88Modular multi-agent framework with observability and permission-driven planning; strong agent safety relevance.agents, multi-agent, observability, permissions, frameworks
2604.25152MGTEVAL: An Interactive Platform for Systemtic Evaluation of Machine-Generated Text Detectors
PDF
cs.CR, cs.CL86Reusable platform for systematic evaluation of machine-generated text detectors under attacks.evaluation, text-detection, robustness, benchmark, security
2604.26516Lyapunov-Guided Self-Alignment: Test-Time Adaptation for Offline Safe Reinforcement Learning
PDF
cs.LG, cs.AI86Test-time self-alignment for offline safe RL with Lyapunov-guided safety constraints.safe-rl, alignment, test-time-adaptation, offline-rl, safety
2604.26394SecMate: Multi-Agent Adaptive Cybersecurity Troubleshooting with Tri-Context Personalization
PDF
cs.CR, cs.AI86Multi-agent cybersecurity assistant with user study; strong real-world agentic security relevance.agent-safety, cybersecurity, multi-agent, evaluation, human-study, troubleshooting
2604.17788SoK: Analysis of Privacy Risks and Mitigation in Online Propaganda Detection through the PROMPT Framework
PDF
cs.CR, cs.SI86Privacy-risk framework and compliance scoring for propaganda detection pipelines.privacy, security, survey, framework, compliance, evaluation
2604.25085Optimally Auditing Adversarial Agents
PDF
cs.GT, cs.AI, cs.CY86General audit-policy design for adversarial agents; strong strategic oversight relevance and concrete algorithms.agents, auditing, game-theory, adversarial, mechanism-design
2604.20273ActuBench: A Multi-Agent LLM Pipeline for Generation and Evaluation of Actuarial Reasoning Tasks
PDF
cs.AI, cs.CL84Multi-agent LLM benchmark pipeline with verifier/repair roles and broad model evaluation.llm-evaluation, multi-agent, benchmark, reasoning, dataset
2604.25665LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation
PDF
cs.CL, cs.AI, cs.DL, cs.IR84Strong LLM evaluation/meta-eval plus self-evaluative summarization across long documents.llm-evaluation, summarization, self-evaluation, long-context, benchmarks
2604.07900AnomalyAgent: Agentic Industrial Anomaly Synthesis via Tool-Augmented Reinforcement Learning
PDF
cs.CV, cs.AI84Tool-augmented RL agent with self-reflection for iterative anomaly synthesis; relevant to agent evaluation.agents, tool-use, reinforcement-learning, industrial-ai, self-reflection
2603.07897LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization
PDF
cs.LG84LLM-agent AutoML for cost prediction; concrete enterprise use with RAG and lifecycle automation.llm, agents, automl, rag, enterprise, prediction
2604.18302Toward Zero-Egress Psychiatric AI: On-Device LLM Deployment for Privacy-Preserving Mental Health Decision Support
PDF
cs.AI84On-device LLM deployment for sensitive mental-health use directly targets privacy-preserving AI.llm, privacy, on-device, healthcare, deployment, security
2604.25247R-CoT: A Reasoning-Layer Watermark via Redundant Chain-of-Thought in Large Language Models
PDF
cs.CR84Embeds watermarking into reasoning paths, relevant to LLM misuse resistance and model ownership.llm-security, watermarking, reasoning, chain-of-thought, misuse
2604.20795Automatic Ontology Construction Using LLMs as an External Layer of Memory, Verification, and Planning for Hybrid Intelligent Systems
PDF
cs.AI84Structured external memory with ontology validation could improve grounding, verification, and agent reliability.llm, knowledge-graphs, grounding, verification, agents, rag
2604.25591Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models
PDF
eess.AS, cs.AI, cs.CL, cs.LG, cs.SD84First systematic study of uncertainty estimation for audio-aware LLMs; useful reliability benchmark.uncertainty, multimodal, LLM, hallucination, evaluation
2604.24346SycoPhantasy: Quantifying Sycophancy and Hallucination in Small Open Weight VLMs for Vision-Language Scoring of Fantasy Characters
PDF
cs.CV, cs.AI83Targets VLM sycophancy/hallucination with a new metric and large-scale benchmark.vlm, hallucination, sycophancy, evaluation, benchmark, reliability
2604.05489SCMAPR: Self-Correcting Multi-Agent Prompt Refinement for Complex-Scenario Text-to-Video Generation
PDF
cs.AI, cs.MA82Multi-agent self-correcting prompt refinement with structured verification; relevant to agent reliability.multi-agent, prompting, self-correction, verification, text-to-video
2604.20598Self-Aware Vector Embeddings for Retrieval-Augmented Generation: A Neuroscience-Inspired Framework for Temporal, Confidence-Weighted, and Relational Knowledge
PDF
cs.IR, cs.CL, cs.DB, cs.LG82RAG framework adds temporal, confidence, and relational signals to reduce stale retrieval errors.rag, retrieval, factuality, knowledge-updates, reliability
2604.24076An Information-Geometric Framework for Stability Analysis of Large Language Models under Entropic Stress
PDF
cs.AI, cs.CL, cs.CR82LLM stability under uncertainty targets reliability in high-stakes deployment, though claims seem abstract.LLM reliability, stability, uncertainty, evaluation, safety
2604.25491The Forensic Cost of Watermark Removal
PDF
cs.CV, cs.AI82Adds forensic detectability to watermark removal evaluation; useful for provenance/security.watermarking, forensics, security, detection, generative-media
2604.20842SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation
PDF
cs.CL, cs.AI, cs.SD82Large benchmark for paralinguistic-aware speech generation; reusable eval resource for audio LMs.benchmark, speech, audio-language-models, evaluation, multimodal
2604.21766AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA
PDF
cs.CL82New audio QA benchmark targeting shortcut resistance and real auditory reasoning; useful for evals.benchmark, evaluation, audio, reasoning, robustness
2604.11394Optimizing IoT Intrusion Detection with Tabular Foundation Models for Smart City Forensics
PDF
cs.CR82Security-focused evaluation of tabular foundation models for fast IoT intrusion detection.security, intrusion-detection, foundation-models, tabular, evaluation, iot

AI 论文洞察简报

2026-05-04

0) 执行要点(请先阅读)

  • 智能体系统正从“LLM 作为单体”转向 LLM + 受约束的运行时结构:多篇论文表明,相比仅依赖原始提示,加入显式验证、工具使用边界、记忆/状态抽象或治理闭环能带来更好的效果。
  • 一个强烈主题是:评估正变得更以决策为中心、也更关注失败模式:新的基准开始衡量效用、不确定性、谄媚性、隐私/合规、副语言特征、音频推理以及长文档摘要,而不只是总体准确率。
  • 在安全/安保方面,最可信的进展来自混合式流水线:将符号/静态结构与学习组件结合起来。例如,跨链审计、离线安全强化学习自适应,以及本体/记忆系统,都通过将模型推理锚定在显式约束或状态上而获得提升。
  • 多篇论文表明,在实践中运行时上下文质量往往比模型质量更重要:设备证据、分层记忆、运行时派生特征以及场景感知的提示优化,带来的收益常常大于单纯替换基础模型。
  • 面向生产的工作越来越明确地关注延迟、成本、溯源和更新闭环。最好的系统不仅报告准确率,还报告部署权衡:如单项目成本、推理加速、token 节省或工程周期压缩。
  • 一个反复出现的提醒是:许多有前景的结果仍然建立在合成基准、狭窄领域或 LLM-as-judge 协议之上,因此在实际采用时应优先进行对抗性验证、评审器校准和真实世界留出测试。

2) 关键主题(聚类)

主题:面向生产任务的结构化智能体编排

主题:验证优先的安全与安保流水线

主题:更好的基准应面向真实失败模式,而不只是准确率

主题:检索、记忆与知识表示正变得更具时间性和结构性

主题:隐私、取证与所有权正走向架构级保证

3) 技术综合

  • 一个常见的系统模式是 proposal → verification → revision(提议 → 验证 → 修正):SCMAPR、GoAT-X、LLM-ReSum、PAGRL 和 ActuBench 都采用先生成、再结构化检查、最后定向修复的流程。
  • 多篇论文用运行时自适应控制闭环替代静态流水线:AnomalyAgent 的工具增强 RL、SecMate 的置信度引导式故障排查、SAS 的 imagined safe-fragment prompting,以及 OxyGent 的权限驱动规划。
  • 通过离线预处理改善在线延迟几乎无处不在:HLTM 的自底向上聚合、LeJOT 的缓存特征提取、SmartVector 的整合路径,以及 ActuBench 的最难子集筛选。
  • 最强的检索/记忆论文会在排序中加入非语义信号:时间有效性、置信度、关系、层级、隐私范围或可回答的 QA 视图。
  • 评估越来越关注运行特性,而不只是平均分:如水印/检测工作中的 TPR@low FPR,不确定性中的 AURAC/AUROC,以及用于验证基准有效性的人类偏好或 IRT。
  • 多篇论文表明,评审器设计如今已成为核心方法学变量:LLM-as-judge 出现在精算推理、摘要、语音、加密决策效用和 VLM 谄媚性等任务中,而且通常伴随着对偏差的明确担忧。
  • 可以看到一种从“将对齐视为训练”转向“将对齐视为运行时治理”的变化:PAGRL、审计优化、零外发设计和测试时安全 RL 都强调部署时控制。
  • 当任务需要组合性、形式约束或持久状态时,混合神经符号方法仍然具有竞争力,这一点可见于 AGEL-Comp、本体构建和 GoAT-X。
  • 多篇实用型论文报告称,上下文/证据质量胜过模型扩展:SecMate 中的设备线索、LeJOT 中的运行时特征,以及 HLTM 中的分层记忆,都实质性改变了结果。
  • 这一组论文中反复出现的局限是外部效度:合成基准、单领域案例研究和专有组件仍很常见,因此许多已报告的提升应被视为强有力的原型,而非已尘埃落定的最佳实践。

4) 前 5 篇论文(附“为什么是现在”)

  • GoAT-X: A Graph of Auditing Thoughts for Securing Token Transactions in Cross-Chain Contracts
    • 将静态分析、形式化跨链谓词、LLM 集成和 RAG 结合为一个受约束的审计流水线。
    • 在覆盖 20 个项目、673 份合约的数据上,报告了 92% 的审计点召回率,以及项目级 0.95/0.83/0.88 的召回率/精确率/F1。
    • 在真实扫描中,从 128 个告警中发现了 117 个已确认风险,并报告了较低的单项目成本和运行时间。
    • 为什么是现在:它是一个具体案例,展示了如何通过将 LLM 紧密锚定在程序结构上,而不是依赖自由形式推理,使基于 LLM 的安全分析真正有用。
    • 持保留态度之处:隐式语义/算术依赖仍会导致漏报,而且部分告警仍需人工判断是否可利用。
  • Hierarchical Long-Term Semantic Memory for LinkedIn’s Hiring Agent
    • 提出了一种与 schema 对齐的分层记忆,包含 facets、可回答 QA 和摘要,并支持带隐私范围的子树检索。
    • 支持无损增量更新和具备溯源感知的回答,解决了真实生产中的记忆约束问题。
    • 在一个源自生产的基准上,报告了 0.798 的语义正确性和 0.635 的 Token-F1,并在延迟/质量权衡上优于基线。
    • 为什么是现在:长期记忆正成为企业智能体的瓶颈,而这是本批论文中最清晰、最贴近生产设计之一。
    • 持保留态度之处:评估规模较小且领域特定,一些分层基线也未被充分比较。
  • SecMate: Multi-Agent Adaptive Cybersecurity Troubleshooting with Tri-Context Personalization
    • 将设备证据、在线用户熟练度画像和推荐整合为一个统一的故障排查助手。
    • 在一项 144 名参与者的研究中,通过 Clue Collector 进行设备锚定,使正确解决率从约 50% 提升到 90.9%。
    • 用户画像能在少数几轮内快速改善,系统还报告了用户更偏好的分步式解决方案交付方式。
    • 为什么是现在:它展示了一条让支持型智能体真正有用的实用路径——将其锚定在本地证据上,并根据用户技能进行自适应。
    • 持保留态度之处:参与者群体相对同质,而且单次对话的成本/延迟并不低。
  • LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation
    • 对 7 个数据集上的 14 种摘要指标进行了广泛的元评估,并表明词汇类指标在长文档/专业文档上常常严重失效。
    • 多智能体 LLM 评估器在语言维度上与人类更一致,而 refinement loop(迭代优化闭环)无需微调即可改善较弱摘要。
    • 在低质量摘要上,报告了最高 +33% 的事实准确性和 +39% 的覆盖率提升,并且 89% 的人工偏好更倾向于优化后的输出。
    • 为什么是现在:由评估驱动的自我改进正成为重训练之外的实用途径,尤其适用于企业摘要系统。
    • 持保留态度之处:长文档性能仍明显下降,而且评估器的自偏好问题仍值得担忧。
  • Lyapunov-Guided Self-Alignment: Test-Time Adaptation for Offline Safe Reinforcement Learning
    • 使用 imagined rollouts 和基于 occupancy 的 Lyapunov 评分,选择安全轨迹片段作为预训练 transformer policy 的上下文提示。
    • 在部署时避免参数更新,同时在 Safety Gymnasium 和 MuJoCo 场景中降低成本/失败率,并保持或提升奖励。
    • 包含一个将安全性与计算预算联系起来的概率界。
    • 为什么是现在:无需重训练的测试时对齐,对已部署智能体和类机器人系统越来越重要,因为这些场景中的更新代价高昂,甚至不可行。
    • 持保留态度之处:推理开销显著,而且安全性依赖于离线覆盖度和世界模型质量。

5) 实际下一步

  • 构建验证优先的智能体闭环:在任何关键动作或外部工具调用之前,要求先提议、再显式检查、再定向修正。
  • 对智能体记忆,测试分层或时间感知检索,而不是扁平向量搜索;衡量陈旧答案率、溯源覆盖率和更新成本,而不只是检索召回率。
  • 现在就加入运行时可观测性钩子:结构化轨迹、检查点、中间工件,以及逐步延迟/成本核算,正迅速成为调试和治理的基础配置。
  • 在评估助手时,超越准确率,转向决策支持指标:可执行性、不确定性处理、证据覆盖和用户负担。
  • 在将任何 LLM-as-judge 设置用于模型排序或自动优化之前,先通过人工抽查、成对比较和偏差审计进行压力测试。
  • 对安全关键型智能体,原型化动作前治理层,设置明确的继续/自我纠正/升级处理结果,并衡量误升级、漏升级和延迟开销。
  • 在安全工作流中,优先采用混合静态/符号 + LLM 设计,而不是纯提示方案;衡量低 FPR 条件下的性能和分析师分诊负担。
  • 如果部署隐私敏感系统,应优先考虑架构级保证,如端侧推理、范围受限记忆和默认不外发,而不是只依赖策略承诺。

基于逐篇论文分析生成;未进行外部浏览。