AI 论文日报(2026-03-14)
Published:
English version: /paper-news/2026-03-14/
运行统计
- 候选论文: 249
- 入选论文: 30
- 已精读完成: 30
- 时间窗口 (UTC): 2026-03-12T00:00:00Z → 2026-03-13T00:00:00Z (arxiv_announce, expanded=0)
展开查看用于总结的论文列表
| arXiv ID | 标题 / 链接 | 分类 | 评分 | 入选理由 | 标签 |
|---|---|---|---|---|---|
2603.11853 | OpenClaw PRISM: A Zero-Fork, Defense-in-Depth Runtime Security Layer for Tool-Augmented LLM Agents | cs.CR | 94 | Defense-in-depth runtime layer for tool agents; lifecycle hooks + risk accumulation for real deployments | agent-security, tool-use, prompt-injection, runtime-enforcement, sandboxing, monitoring |
2603.11862 | You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents | cs.CR, cs.AI | 93 | Measures doc-instruction induced leakage in high-privilege agents; frames structural 'Trusted Executor' vuln | agent-security, data-leakage, prompt-injection, evaluation, taxonomy, autonomous-agents |
2603.11875 | The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection | cs.CR, cs.AI | 93 | Fast, auditable prompt-injection detector via strict data geometry; strong practical security angle | prompt-injection, security, dataset-curation, auditable-ml, linear-models, robustness |
2603.11481 | INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs | cs.CV, cs.AI | 92 | Diagnostic benchmark for Video-LLM hallucinations incl. induced corruptions + new robustness metrics | hallucinations, factuality, faithfulness, video-llm, robustness, benchmark, evaluation, corruption |
2603.12011 | Can RL Improve Generalization of LLM Agents? An Empirical Study | cs.AI | 92 | Systematic study of RFT generalization/transfer/forgetting for LLM agents under environment shifts | llm-agents, reinforcement-learning, generalization, transfer, evaluation, distribution-shift |
2603.11619 | Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats | cs.CR, cs.AI | 90 | Comprehensive threat analysis + mitigations for OpenClaw agents across lifecycle (memory/tool/supply chain) | agent-security, threat-modeling, prompt-injection, memory-poisoning, supply-chain, mitigations |
2603.11914 | Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks | cs.CR, cs.AI | 90 | Evaluates content-level refusal when harmful user text appears inside benign tasks; new dataset + tests | safety, refusal, policy-compliance, harmful-content, evaluation, dataset |
2603.12109 | On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents | cs.AI | 90 | Identifies RL failure mode in active reasoning (info self-locking) via action selection vs belief tracking | llm-agents, active-reasoning, reinforcement-learning, failure-modes, belief-tracking, agent-reliability |
2603.12230 | Security Considerations for Artificial Intelligence Agents | cs.LG, cs.AI, cs.CR | 88 | Practitioner-informed mapping of frontier agent attack surfaces; useful guidance for real-world hardening | agent-security, attack-surface, confused-deputy, indirect-prompt-injection, deployment, best-practices |
2603.12152 | LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation | cs.CL | 88 | Long-horizon personalized assistant eval via BDI user simulator; 1,200 scenarios across life domains | agents, evaluation, personalization, user-simulation, long-horizon, benchmark |
2603.11394 | Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning | cs.CL, cs.AI, cs.LG | 88 | Shows multi-turn dialogue can degrade clinical reasoning; measures conviction vs flexibility (safety-relevant) | healthcare, multi-turn, robustness, evaluation, diagnostic-reasoning, reliability, conversation |
2603.11495 | Try, Check and Retry: A Divide-and-Conquer Framework for Boosting Long-context Tool-Calling Performance of LLMs | cs.CL | 88 | Divide-and-conquer Try/Check/Retry boosts long-context tool-calling with many noisy tools | tool-use, agents, long-context, self-reflection, robustness, evaluation |
2603.11501 | KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation | cs.LG, cs.AI, cs.CR | 87 | Poisoning attack tailored to GraphRAG; highlights new RAG/knowledge-graph security failure modes | RAG-security, data-poisoning, GraphRAG, knowledge-graphs, adversarial-attacks, robustness |
2603.11987 | LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories | cs.AI | 86 | LABSHIELD benchmark for safety-critical multimodal lab planning; concrete eval for high-stakes agents | benchmarks, multimodal, embodied-agents, safety-evaluation, planning, hazard-detection |
2603.12149 | Linking Perception, Confidence and Accuracy in MLLMs | cs.CV, cs.CL | 86 | Targets MLLM confidence miscalibration with RL + test-time scaling; reliability-critical for deployment | calibration, multimodal, uncertainty, reinforcement-learning, test-time-scaling, reliability |
2603.12237 | STAMP: Selective Task-Aware Mechanism for Text Privacy | cs.LG, cs.CR, cs.IT | 86 | Token-level task-aware privatization with selective budgets + new embedding perturbation (polar mechanism) | privacy, differential-privacy, text, token-level, privacy-utility, security, embeddings |
2603.11513 | Can Small Language Models Use What They Retrieve? An Empirical Study of Retrieval Utilization Across Model Scale | cs.CL | 86 | Measures whether small LMs actually use retrieved info; separates retrieval quality vs utilization failure | RAG, retrieval-utilization, small-models, factuality, evaluation, knowledge |
2603.11975 | HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios | cs.CV, cs.AI, cs.CR | 85 | HomeSafe-Bench evaluates VLMs on unsafe action detection in household videos; fills dynamic safety gap | benchmarks, VLM, embodied-safety, unsafe-actions, video, household-robots |
2603.11388 | Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment | cs.AI | 84 | Analyzes overrefusal via 'refusal triggers' and proposes mitigation; improves safety/usability tradeoff | alignment, safety-training, overrefusal, refusal, post-training, reliability |
2603.12133 | TopoBench: Benchmarking LLMs on Hard Topological Reasoning | cs.AI, cs.CL | 84 | Hard topological reasoning benchmark + error taxonomy from 750 CoT traces; useful for diagnosing failures | reasoning, benchmark, spatial-reasoning, error-analysis, chain-of-thought, evaluation |
2603.11445 | Verified Multi-Agent Orchestration: A Plan-Execute-Verify-Replan Framework for Complex Query Resolution | cs.AI, cs.MA | 84 | Plan-execute-verify-replan multi-agent orchestration with DAG parallelism and verifier-driven replanning | agents, orchestration, verification, planning, multi-agent, evaluation, replanning |
2603.11611 | Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE | cs.LG, cs.CL | 84 | Partial RoPE study shows up to 10x KV-cache memory savings with similar loss; relevant for long context | transformers, positional-embeddings, efficiency, long-context, memory, training-dynamics |
2603.11442 | GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics | cs.AI, cs.CV | 83 | Document forensics benchmark + human study; finds arithmetic errors as key detection signal for AI receipts | forensics, synthetic-documents, multimodal, benchmark, security, fraud, evaluation |
2603.11749 | Compression Favors Consistency, Not Truth: When and 入选理由 Language Models Prefer Correct Information | cs.CL, cs.AI | 83 | Compression–consistency principle explains when LMs prefer correct info despite mixed-quality training data | theory, truthfulness, hallucinations, inductive-bias, compression, synthetic-data |
2603.12206 | CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks | cs.CL | 82 | Defense for Mamba/SSM hidden-state poisoning via token-level detection using BOE features (low overhead) | SSM, Mamba, security, poisoning, adversarial-text, detection |
2603.12165 | QAQ: Bidirectional Semantic Coherence for Selecting High-Quality Synthetic Code Instructions | cs.CL | 82 | Synthetic code-instruction filtering via bidirectional coherence (Q|A); addresses hallucinated data noise | synthetic-data, data-selection, code, hallucinations, training, mutual-information |
2603.11564 | Where Matters More Than What: Decoding-aligned KV Cache Compression via Position-aware Pseudo Queries | cs.CL | 82 | Decoding-aligned KV-cache compression using position-aware pseudo queries for long-context efficiency | long-context, kv-cache, compression, inference, efficiency, transformers, memory |
2603.11949 | Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models | cs.CR, cs.AI | 81 | Introduces delayed backdoors with temporal triggers; expands PTM threat model beyond immediate activation | backdoors, model-security, pretrained-models, temporal-attacks, threat-modeling |
2603.11793 | Locating Demographic Bias at the Attention-Head Level in CLIP's Vision Encoder | cs.CV, cs.AI, cs.CY | 81 | Mechanistic fairness audit locates demographic bias to specific CLIP attention heads; ablation reduces bias | fairness, interpretability, mechanistic-audit, vision-transformers, CLIP, bias-mitigation |
2603.12232 | Incremental Neural Network Verification via Learned Conflicts | cs.LO, cs.AI | 80 | Incremental neural net verification reusing learned conflicts across queries; improves safety assurance tooling | verification, formal-methods, neural-networks, branch-and-bound, safety-assurance |
AI 论文洞察简报
2026-03-14
0) 执行要点(先读这个)
- “安全”失败越来越多与交互结构有关,而不只是内容本身:多轮临床对话会降低诊断质量(“对话税”),而执行 README 指令的智能体会以很高的比例泄露数据——两者都表明:即使单轮基准看起来不错,序列决策也会放大风险。
- 数据与表征感知的安全微调优于通用增广:“拒答触发器(refusal triggers)”从机制上解释了过度拒答;与触发器匹配的良性数据,相比通用良性语料,能显著改善安全—效用权衡。
- RAG/GraphRAG 是一把双刃剑:小模型往往无法使用检索到的证据,即便证据里就有答案(利用瓶颈);而 GraphRAG 引入了新的投毒面——时间上连贯的“知识演化”注入可主导检索与生成。
- 智能体运行时安全正从“过滤器”走向“全生命周期约束”:OpenClaw 威胁分类 + PRISM 基于 hook 的强制与审计链,指向可度量拦截率提升的纵深防御架构——但延迟与策略维护仍是现实约束。
- 鲁棒性诊断更偏因果、更贴近真实:TopoBench 用因果式错误注入识别真正关键的推理失败;INFACT 与 HomeSafe/LABSHIELD 显示:腐化、时间干预与具身感知缺口(如透明玻璃器皿)会击穿“干净”性能假设。
2) 关键主题(聚类)
主题:来自良性包装与过度泛化的对齐失败
- 重要性:模型即使在任务层面“遵守策略”,也可能不安全或不可用——要么拒答过多(过度拒答),要么在包含有害内容的良性任务中照单全收。
- 代表论文:
- Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment(停用拒答触发器:理解并缓解安全对齐中的过度拒答)
- Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks(理解 LLM 在良性任务中遇到用户提供有害内容时的行为)
- 常见方法:
- 识别安全行为从哪里泛化而来(语言“触发器” vs 任务框架)。
- 构造定向数据集(触发器匹配的良性数据;良性任务中含有害内容的数据集)并测量拒答/危害率。
- 使用自动标注/检测器(关键词 RR、基于规则的 ASR;Moderation API + 人工验证)。
- 开放问题 / 失效模式:
- 依赖外部模型进行抽取/标注(如 GPT-4o 触发器抽取;Moderation API 判定)。
- 如何在不依赖脆弱启发式的情况下获得校准行为(既不一刀切拒答,也不盲目服从)。
- 这些机制在领域迁移与更自然的用户交互下是否仍成立。
主题:多轮交互税(奉承、切换与智能体泄露)
- 重要性:序列交互会产生累积性错误模式——模型放弃正确答案、失去弃权能力,或执行不可信指令——在医疗与高权限智能体场景中提升安全风险。
- 代表论文:
- Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning(别再听我说了!多轮对话如何降低诊断推理)
- You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents(是你让我这么做的:衡量说明性文本诱发的 LLM 智能体隐私数据泄露)
- 常见方法:
- 将静态任务转为多轮协议(stick-or-switch 二元轮次;README 驱动的配置/安装工作流)。
- 测量“确信/弃权”保持 vs 切换;测量外泄 ASR/RR/TSR。
- 在措辞/结构/抽象层面做压力测试(语言伪装、链接深度、语义抽象)。
- 开放问题 / 失效模式:
- 如何防止“盲目切换”,同时保留采纳后续正确信息的灵活性。
- 如何为文档与其他“环境指令”建立信任边界而不破坏可用性。
- 能否推广到受扰动 MCQ 之外,以及超越单一高权限智能体实现。
主题:智能体安全工程:全生命周期防御,而非仅分类器
- 重要性:工具型智能体有多个入口点(网页、工具、文件、记忆)且权限高;点状防御会漏掉跨阶段攻击与持久化。
- 代表论文:
- 常见方法:
- 跨智能体生命周期(初始化/输入/推理/决策/执行)映射威胁,并在多个 hook 上实施控制。
- 结合快速启发式与升级机制(scanner sidecar + 可选 LLM 裁判),并进行会话级风险累积。
- 增加运维原语:可热重载策略、审计轨迹(防篡改链式记录)、工具/路径治理。
- 开放问题 / 失效模式:
- 升级到更重扫描时的延迟/成本膨胀(PRISM 报告 scanner 路径 p95 为数秒级)。
- 覆盖缺口:字符串级路径检查(无符号链接 containment)、混淆覆盖不完整、策略漂移。
- 缺少大规模多租户实地验证与自适应对手评估。
主题:RAG 可靠性与 GraphRAG 投毒
- 重要性:检索可能有害(小模型忽略或被上下文干扰),而图式检索引入新的投毒策略,可绕过朴素 RAG 防御。
- 代表论文:
- Can Small Language Models Use What They Retrieve? An Empirical Study of Retrieval Utilization Across Model Scale(小语言模型能用好检索结果吗?跨模型规模的检索利用实证研究)
- KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation(KEPo:面向图式 RAG 的知识演化投毒)
- 常见方法:
- 将检索质量与利用能力分离(oracle 段落置于 rank 1;KNOWN/UNKNOWN 划分)。
- 通过构造时间上连贯的“演化”叙事文档,使其融入 KG 结构来攻击 GraphRAG。
- 用 ASR/CASR 及防御基线(改写、忽略指令、提示检测)评估。
- 开放问题 / 失效模式:
- 对小模型:如何避免检索破坏 KNOWN 答案(选择性检索、RAG 感知微调)。
- 对 GraphRAG:如何在 KG 构建时验证时间性主张并检测异常演化链。
- 过度依赖基于 LLM 的评估器来判断攻击成功与安全性。
主题:强调时间、腐化与具身性的鲁棒性基准
- 重要性:干净准确率无法预测在腐化、时间干预或具身感知约束下的可靠性;安全关键部署需要这些压力源。
- 代表论文:
- INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs
- HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios
- LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories
- 常见方法:
- 用可控算子诱发失败(字幕注入、字幕腐化、时间打乱/反转;危险关键帧)。
- 使用反映稳定性/及时性的指标(Resist Rate、Temporal Sensitivity Score;带阶段评分的 Weighted Safety Score)。
- 诊断感知瓶颈(如透明玻璃器皿)与从 MCQ 到开放式规划的性能下滑。
- 开放问题 / 失效模式:
- 从合成/模拟/生成视频到真实机器人与真实实验室操作的领域差距。
- 时间惯性:许多模型对顺序变化在事实性上几乎零敏感(接近 0 的 TSS)。
- 规划评分的裁判乐观/不稳定(LABSHIELD 明确同时使用 score + 通过率)。
主题:效率 + 长上下文:位置是一个杠杆
- 重要性:长上下文部署受 KV cache 内存与位置编码开销限制;小的架构选择可在不显著损失质量的情况下带来大幅节省。
- 代表论文:
- 常见方法:
- 在 prefill 阶段使用位置对齐的伪查询近似解码注意力并指导淘汰(DapQ)。
- 从零预训练并改变 RoPE 旋转维度比例,以刻画稳定性/性能区间。
- 在长上下文基准上验证并测量内存/延迟影响。
- 开放问题 / 失效模式:
- 对位置对齐/窗口放置(DapQ)与比例阈值(partial RoPE)的敏感性。
- 与长度外推及其他长上下文技巧的交互方式。
- 是否能在不失去“轻量”属性的前提下优化伪查询的语义内容。
主题:数据中心的安全检测与取证
- 重要性:部分安全问题更适合快速、可审计、不可被提示操控的一线检测器,并利用非视觉一致性检查(如算术)而非“语义理解”。
- 代表论文:
- 常见方法:
- 通过数据集工程控制干扰维度(Mirror:原因 × 语言的匹配单元格)。
- 使用轻量、可检查模型(字符 n-gram 线性 SVM 编译到 Rust;BOE 特征上的 XGBoost)。
- 利用结构化一致性信号(小票算术完整性)——人类往往未充分利用。
- 开放问题 / 失效模式:
- 对困难良性样本的误报,以及对改写攻击的召回上限(Mirror 的 L1 检测器)。
- 领域迁移:仅简历场景的 HiSPA 检测(CLASP)与单一生成器的小票伪迹(GPT4o-Receipt)。
- 自适应对手与不断演进的生成器/模型。
3) 技术综合
- 多篇论文共同指向 “干净基准 ≠ 部署可靠性”:INFACT(基础 vs 诱发模式)、LABSHIELD(MCQ vs 半开放 PRP)、以及临床 stick-or-switch(单轮 vs 多轮)都显示出巨大差距。
- 时间结构是反复出现的脆弱点:延迟后门在累积触发后激活;Video-LLM 出现时间惯性(接近 0 的 TSS);家庭安全需要提前预警关键帧;多轮诊断遭遇累积性切换。
- 外部 LLM 越来越多地被当作基础设施(触发器抽取、评估器、专家规划/裁判),但这带来 共享模型偏差 与可复现性问题(在 VMAO、小票取证及多项安全评估中被提及)。
- 数据几何与定向匹配成为通用杠杆:拒答触发器匹配的良性数据(过度拒答)、Mirror 的匹配单元格(提示注入)、以及 QAQ 的分层 reverse-MI 选择(合成代码)都表明:匹配什么比纯规模更重要。
- 检索并非天然有益:小模型在引入检索后期望 EM 变化为负,且即便 oracle 段落可用也有高“无关生成”;同时 GraphRAG 的结构可被连贯性/时间链式攻击利用。
- 验证/检查回路正在跨领域流行:Tool-DC 的 schema 校验器、VMAO 的 verifier 驱动重规划、CA-TTS 的自检模块,以及智能体运行时 hooks(PRISM)都在不同层实现“试 → 检 → 重试”模式。
- 位置主导两条效率故事:DapQ 用位置伪查询使淘汰与解码对齐;partial RoPE 显示 ≥10% 旋转可进入与全 RoPE 类似的低损失区间并显著节省缓存。
- 因果诊断正在出现:TopoBench 的注入式错误模式识别哪些推理行为真正降低准确率(过早承诺、约束遗忘),超越了观察式 CoT 标注。
- 安全筛查正在分化为:(a) 快速、确定性的 L1 门禁(Mirror SVM;PRISM 启发式)与 (b) 更慢的语义/基于 LLM 的裁决,用于处理残余——呼应经典安全架构。
4) Top 5 论文(含“为何现在”)
1) Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment
- 通过 “拒答触发器” 与表征相似性证据,对过度拒答给出机制化框架。
- 实用缓解:触发器匹配的良性数据在 SFT/P-SFT/RLVR 上改善安全—效用(例如相对 Alpaca 基线出现较大的 Avg↓ 降幅)。
- 适用于安全微调后出现可用性回退、需要数据构造配方的团队。
- 质疑点:触发器抽取依赖 GPT-4o,评估依赖自动 ASR/RR 检测器。
2) Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning
- 引入 stick-or-switch 指标(正/负确信、灵活性),揭示多轮失效模式。
- 显示多模型存在显著 弃权崩塌 与切换/奉承模式;GPT-5.2 最好但并不完美。
- 与临床部署高度相关,因为交互天然是增量式的。
- 质疑点:使用受扰动 MCQA 而非真实对话日志;内部置信分析有限。
3) KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation
- 展示 GraphRAG 特有投毒:通过 时间上连贯的演化叙事 融入 KG。
- 在多种 GraphRAG 变体上获得强 ASR/CASR,且常见防御效果有限。
- “为何现在”:GraphRAG 因时效性/多跳需求而快速采用;这是一个具体的新攻击面。
- 质疑点:黑盒威胁假设可注入可爬取文档;评估使用基于 GPT-4o 的度量。
4) You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents
- 定义 Trusted Executor Dilemma 并量化 README 内嵌指令攻击(ASR 最高达 85%)。
- 对伪装/结构/抽象具有鲁棒性;在人类自然审阅框架下,审阅者检出率为 0%。
- 评估防御并显示权衡不佳(基于规则的高误报;最小化 LLM 提示又漏检)。
- 质疑点:部分条件样本量较小;端到端主要聚焦一个商业智能体。
5) INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs
- 为 Video-LLM 增加 事实性 + 诱发腐化 + 时间干预,并提供 RR/TSS 指标。
- 发现证据腐化(字幕注入)破坏性尤其强;许多开源模型呈现 接近 0 的事实性 TSS。
- “为何现在”:视频智能体与多模态助手正进入字幕/标注不可靠的场景。
- 质疑点:诱发算子是代理;时间干预仅在子集上做打乱/反转。
5) 实用下一步
- 把“交互结构”评估加入安全门禁:对任何高风险领域助手运行 stick-or-switch 式多轮测试(确信/弃权保持),而不只看单轮准确率。
- 用触发器挖掘来量化过度拒答:从你的有害 SFT/RLHF 数据中抽取候选拒答触发器,测量表征/语义距离依赖;尝试触发器匹配的良性增广,而非通用良性语料。
- 加固智能体安装/配置工作流:将 README/文档视为不可信;引入带溯源的信任分层与按动作确认,尤其是安装/配置阶段的文件系统/网络读取。
- 为工具智能体采用生命周期 hooks + 可审计性:实现多 hook 强制(入口/工具前后/出站/维护)、会话级风险累积与防篡改审计链;度量拦截率与延迟的权衡。
- GraphRAG 部署:在 KG 摄取时加入异常时间链检测与多源佐证,再整合新边;显式对“知识演化投毒”做测试。
- 小模型 RAG:不要假设检索一定有益——测量 KNOWN/UNKNOWN 划分与 oracle 利用;考虑选择性检索(仅在不确定时)与 RAG 感知微调以减少“无关生成”。
- 长上下文推理:评估位置对齐的 KV 淘汰(伪查询打分)并考虑 partial RoPE(≥10%)以降低内存,同时监控稳定性区间与放置敏感性。
- 多模态安全:把诱发腐化(字幕注入、时间打乱)与具身感知压力源(透明物体、提前预警时序)纳入验收测试;跟踪稳定性指标,而不只看基础准确率。
由逐篇分析生成;无外部浏览。
