核心要点

Agent 研究正从单纯追求任务完成率转向关注**过程质量**：多篇论文引入了奖励、基准或记忆结构，显式优化探索质量、工具调用决策、证据选择和效率，而不仅仅是最终是否成功。
**评测本身正在受到挑战，或其设定存在偏差**。多篇论文表明，当前基准可能会高估模型能力，因为模型会利用语言先验、可访问测试、仅含野外数据的安全数据集，或过于粗粒度的聚合指标。
安全/安全防护方向的一个强烈趋势是**运行时、结构感知的防御**：流形轨迹越狱检测、封顶编码评测、UI 修复代理，以及运行时验证的恶意技能基准，都超越了静态提示词或代码检查。

先读这篇：Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

为什么先读： 它直指 Agent 进展宣称中的一个核心失效模式：如果测试和奖励没有针对作弊进行设计，Agent 就可能利用评测漏洞。

建议重点质疑： 证据主要集中在代码评测上，因此能否迁移到更广泛的 Agent 场景仍未得到证明。

agents evaluation deception coding

主题

Agent 训练正在变成面向行为的奖励工程，而不只是面向结果 多篇论文指出，仅以终任务成功为目标会产生脆弱 agent：过度自信的工具调用、臃肿的网页搜索、薄弱的 GUI 信用分配，以及糟糕的代码探索。共同的修复思路是围绕不确定性、效率、过程证据或轨迹提取技能来塑造奖励。

基准越来越多地在衡量错误的东西 一个反复出现的信息是，当前评测往往混淆了不同能力，或奖励了捷径。这会对模型质量造成虚假信心，也让进展难以解释。

安全防御正在转向运行时和系统层面 静态过滤已被证明不足以应对自适应攻击、混合工件和供应链威胁。这里较强的论文都在行为变得可执行或可观察的时刻进行防御。

信号 基准现在需要把对手考虑进去。 封顶随机化代码测试、运行时验证的恶意技能任务，以及切片感知的幻觉基准，都默认模型会利用薄弱的评测设置。

张力 更好的过程信号会带来更高复杂度。 与不确定性对齐的工具 RL、GUI 过程奖励和结构化证据 grounding 能提升可靠性，但也会增加验证器成本，并引入新的代理失效模式。

判断 运行时控制将胜过静态过滤器。 越狱轨迹检测、恶意技能运行时验证，以及系统级 Agent 防御，都表明在线监控正在成为更实际的安全层。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

如果你在评估代码 Agent，这篇论文很有用：它直接检验基准上的提升在加入反作弊设计后是否依然成立。

为什么现在值得读: 代码 Agent 正在快速进步，而被夸大的评测结果会误导训练和部署决策。
怀疑点: 主要证据来自代码任务，而不是完整范围的工具使用型 Agent。

arXiv PDF

Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning

这是对上一类工作的补充：它关注的不只是如何衡量 Agent，而是如何通过减少过度自信的工具误用来改进 Agent 行为本身。

为什么现在值得读: 工具使用错误是已部署 Agent 中常见但隐蔽的成本来源，而标准 RL 可能会让这一问题更严重。
怀疑点: 其不确定性信号基于困惑度，可能无法捕捉更丰富的轨迹级不确定性。

arXiv PDF

Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics

值得一读，因为它提出了一种具体的运行时防御，把越狱视为动态表征偏移，而不是静态提示词问题。

为什么现在值得读: 自适应越狱正在让静态提示词过滤越来越难以作为主要防线令人信服。
怀疑点: 攻击者最终可能学会构造更贴近良性流形轨迹的越狱方式。

arXiv PDF

英文版：/paper-news/2026-06-07/

运行统计

候选论文: 248
入选论文: 30
已精读完成: 30
时间窗口 (UTC): 2026-06-05T00:00:00Z → 2026-06-06T00:00:00Z (explicit, expanded=0)

展开查看用于总结的论文列表

arXiv ID	标题 / 链接	分类	评分	入选理由	标签
`2606.07131`	MalSkillBench: A Runtime-Verified Benchmark of Malicious Agent Skills PDF	cs.CR, cs.SE	95	Runtime-verified benchmark for malicious agent skills; highly relevant to agent security evaluation.	agent-safety, benchmark, malicious-skills, supply-chain, security-evaluation
`2606.07379`	Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests PDF	cs.LG, cs.AI, cs.CL, stat.ME	95	Targets agent cheating in coding evals with randomized tests and anti-cheating reward design.	agents, evaluation, deception, coding, reward-design, robustness
`2606.06976`	Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning PDF	cs.AI	93	Targets agent tool-use reliability by aligning RL with uncertainty to reduce overconfident mistakes.	agents, tool-use, uncertainty, reinforcement-learning, reliability, safety
`2606.07335`	Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics PDF	cs.CR	92	Jailbreak defense with adaptive-attack focus; strong deployment relevance for LLM safety.	jailbreak, defense, robustness, deployment-safety, adversarial
`2606.07150`	From Privacy to Workflow Integrity: Communication-Graph Metadata in Autonomous Agent Interoperability PDF	cs.CR, cs.AI, cs.MA, cs.NI	92	Highlights metadata leakage in agent protocols; strong security relevance for interoperable agents.	agent-safety, security, privacy, protocols, MCP, A2A, workflow-integrity
`2606.07130`	Explicit Evidence Grounding via Structured Inline Citation Generation PDF	cs.CL	91	Structured inline citations for claim-level evidence grounding directly improve factuality and auditability.	grounding, citations, factuality, RAG, faithfulness, evaluation
`2606.07462`	Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle PDF	cs.AI	91	Benchmarking frontier research agents on ethics, judgment, and lifecycle tasks is highly safety-relevant.	agents, evaluation, research-agents, safety, benchmark
`2606.06959`	OpenHalDet: A Unified Benchmark for Hallucination Detection across Diverse Generation Scenarios PDF	cs.CL, cs.AI	89	Unified hallucination detection benchmark across settings; useful for reliable LLM evaluation.	hallucination, benchmark, evaluation, reliability, truthfulness
`2606.07402`	M$^3$Exam: Benchmarking Multimodal Memory for Realistic User-Agent Interactions PDF	cs.CL	89	Realistic multimodal memory benchmark for user-agent interactions; exposes key gaps in long-horizon agent memory.	benchmark, agents, multimodal, memory, evaluation, user-interaction
`2606.07074`	SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating PDF	cs.LG, cs.AI	88	Efficiency-aware web agents with adaptive reward gating; relevant for scalable, safer agent deployment.	web-agents, efficiency, reinforcement-learning, tool-use, training, deployment
`2606.07040`	Beyond Rubrics: Exploration-Guided Evaluation Skills for Reward Modeling PDF	cs.CL	88	Reusable evaluation skills for reward modeling could improve scalable judging beyond ad hoc rubrics.	reward-modeling, evaluation, alignment, judges, preference-learning
`2606.06797`	Korean Culture into LLM Alignment: Toward Cultural Coherence PDF	cs.CL	88	Concrete DPO alignment pipeline for culturally coherent safe responses in Korean across open LLMs.	alignment, safety, DPO, multilingual, cultural-alignment
`2606.06914`	DPAgent-in-the-Middle: Agentic Defense and Repair Against AI-Groomed Deceptive Patterns PDF	cs.CR	87	Agentic defense against AI-groomed deceptive patterns and data-void manipulation threats.	agent-safety, privacy, deceptive-patterns, data-poisoning, security
`2606.07297`	SWE-Explore: Benchmarking How Coding Agents Explore Repositories PDF	cs.SE, cs.CL	87	Fine-grained benchmark for repository exploration, a core capability and failure point of coding agents.	coding-agents, benchmark, evaluation, repository-understanding, SWE
`2606.07412`	Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills PDF	cs.SE, cs.AI	86	Self-evolving coding agents from trace-derived skills could materially improve real-world agent capability.	coding-agents, self-improvement, training-data, software-engineering, agents
`2606.07027`	StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents PDF	cs.AI	86	Process rewards for GUI agents with evidence linking address long-horizon credit assignment.	agents, GUI-agents, process-reward-models, RL, credit-assignment
`2606.07515`	How reliable are LLMs when it comes to playing dice? PDF	cs.CL, cs.AI, cs.HC, math.PR	86	Strong reliability benchmark exposing token bias and prompt susceptibility in probabilistic reasoning.	reliability, reasoning, evaluation, prompting, robustness
`2606.07017`	The Sim-to-Real Gap of Foundation Model Agents: A Unified MDP Perspective PDF	cs.AI, cs.CL, cs.ET	85	Frames FM-agent robustness as sim-to-real MDP gap; strong agenda-setting relevance.	agents, robustness, sim-to-real, evaluation, reliability
`2606.07512`	MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism PDF	cs.CV, cs.AI, cs.CL	85	Agentic retrieval plus hierarchical memory for long-video understanding looks broadly reusable and impactful.	multimodal, long-context, memory, agentic-retrieval, video-understanding, MLLM
`2606.06833`	Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks PDF	cs.LG, cs.AI, cs.CR	85	Shows LLM priors can strengthen real-time ASR attacks; notable AI security implication.	security, adversarial-attacks, ASR, LLMs, robustness
`2606.06946`	Auditing Training Data in Domain-adapted LLMs: LoRA-MINT PDF	cs.CL, cs.AI	84	Audits training-data membership in LoRA-adapted LLMs; concrete privacy/IP relevance.	privacy, membership-inference, LoRA, data-auditing, llm-security
`2606.07271`	Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path PDF	cs.LG, cs.AI, cs.SD	84	Analyzes membership leakage in rectified flows; strong privacy relevance for deployed generative models.	privacy, membership-inference, generative-models, security, rectified-flows
`2606.06890`	Diagnosing Visual Ignorance in Vision-Language Models PDF	cs.CV, cs.LG	84	Mechanistic analysis of VLM visual grounding failures; useful for multimodal reliability and evaluation.	VLM, interpretability, grounding, multimodal, reliability
`2606.06893`	Workflow-to-Skill: Skill Creation via Routing-Workflow-Semantics-Attachments Decomposition PDF	cs.AI	82	Automatic skill construction for agents with explicit safety/rollback structure in representation.	agents, skills, workflow, safety, tool-use
`2606.07437`	Re-imagining ISO 26262 in the Age of Autonomous Vehicles: Enhancing Controllability through Transferability and Predictability PDF	cs.RO, cs.AI, cs.HC, cs.SE, eess.SY	82	Reframes AV safety with auditable predictability/transferability concepts; notable safety governance relevance.	autonomous-vehicles, safety, auditability, predictability, governance
`2606.07020`	MADE: Beyond Scoring via a Multilingual Agentic Diagnosing Engine for Fine-Grained Evaluation Insights PDF	cs.CL	82	Agentic multilingual diagnosis framework for benchmark results offers reusable evaluation tooling.	evaluation, agents, multilingual, benchmarks, analysis
`2606.07218`	HKVM-RAG: Key-Value-Separated Hypergraph Evidence Organization for Multi-Hop RAG PDF	cs.IR, cs.CL	82	Multi-hop RAG evidence organization with hypergraph keys; practical for grounded retrieval pipelines.	RAG, retrieval, multi-hop, grounding, knowledge
`2606.07000`	Teaching the Way, Not the Answer: Privileged Tutoring Distillation for Multimodal Policy Optimization PDF	cs.AI	81	Dense tutoring signals for multimodal RLVR may improve post-training without answer leakage.	multimodal, RLVR, post-training, distillation, reasoning
`2606.07299`	DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning PDF	cs.AI	80	Auditable multi-agent deep-research system targeting planning, verification, and hallucination risk.	agents, auditability, multi-agent, deep-research, grounding
`2606.07210`	A Large-Scale Per-Speaker Analysis of Re-identification Risk in Speech Anonymization PDF	cs.SD, cs.CR	80	Per-speaker privacy analysis reveals uneven re-identification risk hidden by averages; useful evaluation lens.	privacy, speech, anonymization, evaluation, security, risk-analysis

AI 论文洞察简报

2026-06-07

0) 核心结论（请先阅读）

Agent 研究正从单纯追求任务完成率转向关注过程质量：多篇论文引入了奖励、基准或记忆结构，显式优化探索质量、工具调用决策、证据选择和效率，而不仅仅是最终是否成功。
评测本身正在受到挑战，或其设定存在偏差。多篇论文表明，当前基准可能会高估模型能力，因为模型会利用语言先验、可访问测试、仅含野外数据的安全数据集，或过于粗粒度的聚合指标。
安全/安全防护方向的一个强烈趋势是运行时、结构感知的防御：流形轨迹越狱检测、封顶编码评测、UI 修复代理，以及运行时验证的恶意技能基准，都超越了静态提示词或代码检查。
在检索与 grounding 方面，前沿正在从“检索相关片段”转向将证据组织成可用结构：用于多跳 RAG 的超图、结构化行内引用、多模态记忆替代表示，以及长视频的图记忆，都通过控制证据形式来提升下游推理。
隐私风险正变得更加依赖适配方式和协议细节：LoRA 微调会泄露成员关系，rectified flow 会在特定插值区域泄露，语音匿名化会掩盖最坏情况下的说话人风险，而 agent 互操作即使在载荷加密时也会通过元数据泄露工作流意图。
实际启示：构建前沿 agent 的团队，应减少对单体式端到端扩展的依赖，更多投入到可审计的中间表示、校准过的奖励、压力测试套件，以及成本感知的运行时控制。

2) 关键主题（聚类）

主题：Agent 训练正在变成面向行为的奖励工程，而不只是面向结果

为什么重要：多篇论文指出，仅以终任务成功为目标会产生脆弱 agent：过度自信的工具调用、臃肿的网页搜索、薄弱的 GUI 信用分配，以及糟糕的代码探索。共同的修复思路是围绕不确定性、效率、过程证据或轨迹提取技能来塑造奖励。
代表论文：
常见方法：
- 用结构化信号替代标量成功奖励：不确定性分离、工具/token 效率、实体关联的过程奖励，或基于执行结果的修复奖励。
- 使用中间产物作为训练目标：关键转折标注、最小必要路径、实体状态轨迹，或从先前轨迹中蒸馏出的技能。
- 通过消融实验验证塑形项是必要的，而不只是“有帮助”。
开放问题 / 失效模式：
- 许多方法依赖代理不确定性或代理过程信号，可能无法泛化到文本之外或固定工具空间之外。
- 一些方法显著增加了训练复杂度或验证器成本。
- 如果锚点、门控或过程验证器不完整，奖励塑形仍可能被“钻空子”。

主题：基准越来越多地在衡量错误的东西

为什么重要：一个反复出现的信息是，当前评测往往混淆了不同能力，或奖励了捷径。这会对模型质量造成虚假信心，也让进展难以解释。
代表论文：
常见方法：
- 将端到端表现拆解为更窄且可测的子问题：探索、幻觉检测、视觉 grounding，或抗作弊的通过率。
- 引入压力测试或受控扰动：渐进模糊、封顶随机测试、受限上下文修复、访问感知的检测器比较。
- 强调成本感知或过程感知指标，而不是单一排行榜分数。
开放问题 / 失效模式：
- 许多新基准仍依赖 LLM 评审、人工筛选子集，或轨迹衍生标签。
- 更好的诊断并不会自动带来更好的训练信号。
- 在多模态、长上下文、闭源和交互式 agent 场景中，覆盖缺口仍然存在。

主题：安全防御正在转向运行时和系统层面

为什么重要：静态过滤已被证明不足以应对自适应攻击、混合工件和供应链威胁。这里较强的论文都在行为变得可执行或可观察的时刻进行防御。
代表论文：
常见方法：
- 将攻击建模为动态过程：层轨迹、实时 UI 交互、运行时技能执行，或流式音频前缀。
- 在自适应或真实威胁模型下评估，而不是静态留出攻击集。
- 使用系统级插桩或代理拦截，在关键位置观察行为。
开放问题 / 失效模式：
- 运行时防御可能成本高且在运维上脆弱。
- 一些威胁仍然是架构特定的，或难以广泛迁移。
- 基准仍难以覆盖提示词、代码、工具和 UI 攻击构成的完整混合空间。

主题：证据组织正在成为一等设计问题

为什么重要：更好的检索不再只是找到相关文本，而是要把证据组织成读者或 agent 真正能推理的形式。多篇论文表明，改变证据形式而不是改变基础模型，就能带来显著收益。
代表论文：
常见方法：
- 将存储/索引与推理解耦：文本替代表示、超图键、分层图记忆，或事后引用对齐。
- 使用结构化证据单元而非扁平片段：span、超边、带模态标签的替代表示、事件图。
- 增加检索控制器或 agent 式工具循环，以迭代查询记忆。
开放问题 / 失效模式：
- 收益往往依赖上游抽取质量；选择变好了，但抽取仍是瓶颈。
- 如果摘要或替代表示过于有损，结构化记忆可能会丢失信息。
- 许多结果是在固定底座或开发集上得到的，而不是完整端到端部署中。

主题：隐私泄露越来越局部化、条件化，而且在平均指标中难以察觉

为什么重要：隐私方向论文表明，泄露往往被平均情况报告所掩盖。风险取决于适配方法、架构、协议元数据，甚至生成过程中的特定插值区域。
代表论文：
常见方法：
- 用局部化诊断替代平均指标：逐说话人可链接性、按 λ 分辨的成员关系剖面、元数据视角推断，或 LoRA 特定的困惑度阈值。
- 研究与部署现实绑定的威胁模型：PEFT 适配、被动元数据观察者、半知情攻击者。
- 证明即使标准效用或验证指标看起来稳定，泄露仍可能很高。
开放问题 / 失效模式：
- 一些方法假设白盒或部分特权访问。
- 校准往往依赖合成参考、模拟生成器，或固定攻击者设定。
- 防御手段比攻击和诊断方法更不成熟。

主题：地域、文化与研究者质量行为正在进入对齐评测

为什么重要：对齐研究正在从通用拒答和通用任务成功，扩展到地域特定的一致性和职业规范。这表明“在全球范围内足够安全”已不再是充分目标。
代表论文：
常见方法：
- 定义建设性标准，而不只是禁止性输出：社会法律锚定、人口统计特异性、多语言敏感性、研究者式诚信。
- 构建诊断流水线，暴露切片级失败，而不是只给聚合分数。
- 使用 agent 式分析系统，将基准输出转化为可执行的修复方案。
开放问题 / 失效模式：
- 在若干案例中，人类验证仍然有限。
- 地域特定对齐可能会随着规范和法律变化而过时。
- 对职业行为的基准评测仍然规模较小，且部分依赖手工设计任务。

3) 技术综合

一个常见的设计动作是解耦：感知与推理（MemDreamer）、规划与搜索（DuMate）、工作流与语义/附件（Workflow-to-Skill），以及检索与证据组织（HKVM-RAG、M3Proctor）。
许多论文用结构化中间信号替代原始隐藏状态或输出：用于越狱检测的排序轨迹、用于 GUI 奖励的 stain concentration、用于多跳证据的超边，以及用于成员推断的按 λ 分辨的重建差距。
一些较强结果来自离线工件合成而非在线生成：Eval-Skill 的可复用评审技能、韩国文化三元组、轨迹衍生的 SWE 技能，以及 M3Proctor 的文本替代表示。
由消融驱动的因果主张是较强论文中的常态：移除不确定性系数、正确性门控、全局/局部 stain 模块，或技能注册表，都会稳定地降低性能。
存在从平均情况指标转向最坏情况或切片感知评测的广泛趋势：逐说话人隐私、用于越狱检测器的 PMP、多语言切片诊断，以及代码仓库探索中的行级分析。
多篇论文表明，选择比生成更常是瓶颈：HKVM-RAG 中的支持证据选择、SWE-Explore 中的行级证据查找、VLM 中的视觉 grounding，以及 FullCite 中的片段定位。
成本如今已成为评测中的一等指标：OpenHalDet 分析证据获取成本，SlimSearcher 优化工具/token 使用，M3Proctor 减少检索 token，MemDreamer 将活跃上下文削减约 ~40×。
安全研究越来越假设自适应攻击者：感知检测器的越狱攻击、带有 LLM 先验的流式 ASR 攻击者、恶意技能供应链，以及通过元数据推断未来工作流的观察者。
多篇论文将 LLM 作为基础设施而非终点：评审器、安全响应生成器、技能蒸馏器、任务生成器和诊断 agent。
一个反复出现的局限是依赖人工整理的底座：固定候选集、缓存抽取器、合成参考，或基准特定标注；这提升了可控性，但可能削弱外部有效性。

4) Top 5 论文（附“为什么是现在”）

OpenHalDet: A Unified Benchmark for Hallucination Detection across Diverse Generation Scenarios
- 在黑盒/灰盒/白盒访问设定下，统一了 17 个数据集和 16 个检测器的幻觉检测评测。
- 主要结论具有操作意义：检测器排名依赖具体场景和骨干模型，而证据获取往往主导成本。
- 现在很有用，因为团队正在部署检测器，却缺乏一种在现实访问约束下公平比较它们的方法。
- 持保留态度之处：标签依赖 LLM 评审，且覆盖范围不包括多模态、长上下文和交互式 agent 场景。
Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics
- 提出一种零样本越狱检测器，基于逐层最近良性排序轨迹，而非静态特征。
- 报告了较强的 AUROC、较低的 PMP 误报率，以及在自适应攻击下的鲁棒性，并可迁移到 VLM。
- 现在很有用，因为越狱防御越来越是一个自适应攻击问题，而不是静态分类问题。
- 持保留态度之处：该防御假设越狱会诱发可检测的流形异常；更强的攻击可能学会保持在流形上。
Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning
- 表明标准 RL 会让工具使用 agent 在错误动作上变得更过度自信，并通过不确定性对齐奖励修复这一问题。
- 在 When2Call、BFCL-V4 和 ToolSandbox 上取得提升，同时恢复了正确与错误决策之间的不确定性分离。
- 现在很有用，因为工具使用错误是下游 agent 失败和隐性成本的重要来源。
- 持保留态度之处：不确定性通过困惑度来实例化，可能无法捕捉更丰富的语义级或轨迹级不确定性。
SWE-Explore: Benchmarking How Coding Agents Explore Repositories
- 将代码仓库探索与补丁合成分离，并在固定预算下评估排序后的行级证据选择。
- 表明 agent 式探索器优于经典检索，但行级召回率仍然较低，且强烈预测下游修复效果。
- 现在很有用，因为 coding agent 的进展越来越受定位能力而非补丁生成能力的限制。
- 持保留态度之处：真值来自轨迹衍生标签，且仅限于至少有两次成功运行解决的问题。
MalSkillBench: A Runtime-Verified Benchmark of Malicious Agent Skills
- 构建了一个运行时验证的恶意技能基准，覆盖代码注入、提示词注入和混合攻击。
- 证明仅基于野外数据的评测存在严重偏差，且现有检测器要么过度触发，要么漏掉混合攻击。
- 现在很有用，因为 agent 生态正在以快于安全工具适应速度的方式引入第三方技能和插件。
- 持保留态度之处：在所提供分析中，关于验证噪声和平台覆盖广度的局限尚未被充分刻画。

5) 实际下一步

在 agent 训练和评测中加入过程级遥测：不确定性轨迹、工具调用次数、证据窗口、行级探索日志和检索成本。
用捷径探针对任何已部署评估器或基准进行压力测试：模糊图像、随机封顶测试、PMP、野外 vs 合成切分，以及受限上下文补丁修复。
对工具使用型 agent，在扩展模型规模或上下文长度之前，先尝试带正确性门控并结合效率/不确定性项的奖励塑形。
围绕结构化证据对象而非扁平片段构建检索栈：span、超边、事件图、带模态标签的替代表示，或可执行技能。
用适配特定探针审计 PEFT 和生成系统的隐私：LoRA 成员测试、逐用户最坏情况指标，以及轨迹感知泄露扫描。
将 agent 安全视为一个运行时系统问题：检查实时 UI 状态、技能执行轨迹和内部表示轨迹，而不是只依赖提示词过滤器。
对多语言或地域敏感部署，定义建设性对齐 rubric，明确优质本地响应应包含什么，而不只是压制什么。
在基准和训练循环中显式跟踪成本-质量帕累托前沿；多篇论文表明，准确率提升可能伴随着本可避免的 token、工具或证据获取开销。

根据逐篇论文分析生成；未进行外部浏览。

Agent 评测正在走向对抗化。

核心要点

先读这篇：Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

主题

值得优先阅读的论文

Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning

Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics

AI 论文洞察简报

2026-06-07

0) 核心结论（请先阅读）

2) 关键主题（聚类）

主题：Agent 训练正在变成面向行为的奖励工程，而不只是面向结果

主题：基准越来越多地在衡量错误的东西

主题：安全防御正在转向运行时和系统层面

主题：证据组织正在成为一等设计问题

主题：隐私泄露越来越局部化、条件化，而且在平均指标中难以察觉

主题：地域、文化与研究者质量行为正在进入对齐评测

3) 技术综合

4) Top 5 论文（附“为什么是现在”）

5) 实际下一步