核心要点

今天最核心的结论是，**智能体安全活在执行边界上**：一旦工具能产生副作用，grant、scope、approval 和 audit trail 就比 refusal 式对齐更关键。
高风险工作流论文暗示，**最小权限脚手架既可能提升安全，也可能提升质量**；更严格的上下文拼装和工具访问控制，也许能同时减少攻击面与普通错误。
评测正在转向**序列化与关系化测试**：更重要的问题是智能体能否守住授权边界、知道何时停止，并在本地化或重复 episode 中保持安全行为。

先读这篇：From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes

为什么先读： 它让智能体安全变得可测：八个运行时不变量在基准中拦住了 MCP 风格 baseline 仍会放过的全部十个攻击案例。

建议重点质疑： 证据来自参考运行时和有界基准，而不是广泛的生产部署。

runtime-security MCP authorization audit

arXiv PDF

主题

运行时授权 安全正从 prompt hygiene 转向显式运行时不变量、逐次调用授权与可审计拒绝路径。

工作流加固 医疗与自动化研究显示，最小权限脚手架可以在大幅降低攻击成功率的同时提升可靠性。

序列评测 新基准开始检验智能体何时停止、如何本地化，以及能否跨 episode 保持安全行为。

执行控制转向 安全正在移出模型权重。 HCP、ScopeGate、TRiSM 与“行动对齐”论文都把权限检查放在动作边界。

部署缺口 真实工作流仍缺硬门控。 n8n 生态研究显示，LLM 自动化已很普遍，但 fallback、修复回路和人工审批仍不常见。

评测转向 智能体正按轨迹受检。 弃权、临床 episode 和多语言工具智能体基准都在衡量何时行动、何时停止、能否迁移。

值得优先阅读的论文

按研究价值排序：新意、方法可复用性、证据质量，以及是否值得带着怀疑去读。

From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes

八个显式不变量让智能体执行安全从隐含假设变成可测属性。

为什么现在值得读: MCP 风格工具生态扩张速度，已经快过其执行控制层的成熟速度。
怀疑点: 参考运行时上的基准结果，还不能证明其能轻松落地到生产栈。

arXiv PDF

Agent Safety Is Action Alignment

它解释了为什么授权必须在模型权重之外被强制执行，是最佳的概念配套论文。

为什么现在值得读: 很多团队仍把 refusal tuning 误当成安全工具使用的代理指标。
怀疑点: 摘要的概念论证很强，但操作层面的处方仍较高层。

arXiv PDF

Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare

少见的经验性证据表明，最小权限工作流设计可能同时提升抗攻击性与报告准确率。

为什么现在值得读: 医疗场景把数据泄露、幻觉和不安全自动化的代价都具体化了。
怀疑点: 单一应用与有限任务类型限制了泛化能力。

arXiv PDF

英文版：/paper-news/2026-06-29/

运行统计

候选论文: 149
入选论文: 5
已精读完成: 0
证据等级: 仅基于候选标题与摘要
时间窗口 (UTC): 2026-06-27T00:00:00Z → 2026-06-28T00:00:00Z

展开查看入选论文

arXiv ID	标题 / 链接	分类	入选理由	标签
`2606.29073`	From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes PDF	cs.CR, cs.AI	以显式不变量评测执行控制，是本期最强的运行时安全信号。	runtime-security, MCP, authorization, audit
`2606.28739`	Agent Safety Is Action Alignment PDF	cs.AI	概念上最尖锐：安全动作取决于授权关系，而不是拒绝行为。	action-alignment, least-privilege, agents, evaluation
`2606.28666`	Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare PDF	cs.CR, cs.AI	医疗工作流加固同时声称降低攻击成功率并提升准确率。	TRiSM, healthcare, security, deployment
`2606.28679`	Capability Gates Are Not Authorization: Confused-Deputy Failures in LLM Agent Frameworks PDF	cs.CR, cs.AI	具体的框架审计，说明暴露工具后仍必须做逐次调用授权。	frameworks, payments, authorization, confused-deputy
`2606.28733`	Agentic Abstention: Do Agents Know When to Stop Instead of Act? PDF	cs.AI	大规模序列基准，专门衡量智能体何时应该停止而不是继续动作。	abstention, benchmarks, tool-use, trajectories

AI 璁烘枃娲炲療绠€鎶?## 2026-06-29

0) 鏍稿績缁撹锛堣鍏堥槄璇伙級

浠婂ぉ鏈€寮虹殑涓€缁勬憳瑕佸叡鍚屾寚鍑猴細鏅鸿兘浣撳畨鍏ㄩ鍏堟槸鎵ц闂锛岃€屼笉鏄嫆缁濋棶棰?銆傜湡姝ｉ渶瑕佽妫€鏌ョ殑鏄姩浣滆竟鐣屼笂鐨勬潈闄愩€乻cope銆乸rincipal 鍜岄粯璁ゆ嫆缁濇帶鍒讹紝鑰屼笉鍙槸妯″瀷浼氫笉浼氳鈥滀笉鈥濄€?- 澶氱瘒璁烘枃閮藉湪鎶婂叧娉ㄧ偣浠?宸ュ叿杩炴帴鎺ㄨ繘鍒?杩愯鏃舵不鐞?锛氫粎浠呮帴涓?MCP 椋庢牸宸ュ叿鎴栨鏋舵帴鍙ｅ苟涓嶅锛屾ā鍨嬪彂鍑虹殑姣忎竴娆¤皟鐢ㄩ兘闇€瑕佺粨鍚堝叿浣撳弬鏁伴噸鏂版巿鏉冿紝骞剁暀涓嬪璁¤瘉鎹€?- 闈㈠悜楂橀闄╁満鏅殑閮ㄧ讲璁烘枃鏆楃ず锛?*鏈€灏忔潈闄愯剼鎵嬫灦鏈夋満浼氬悓鏃舵彁鍗囧畨鍏ㄦ€т笌浠诲姟璐ㄩ噺銆傚湪鍖荤枟鎶ュ憡鐢熸垚閲岋紝宸ヤ綔娴佸姞鍥烘嵁绉版棦闄嶄綆浜嗘敾鍑绘垚鍔熺巼锛屼篃鎻愬崌浜嗗噯纭巼銆?- 璇勬祴姝ｅ湪浠庢渶缁堢瓟妗堟墿灞曞埌杞ㄨ抗绾緥锛氫紭绉€鏅鸿兘浣撲笉浠呰浼氬仛浜嬶紝杩樿鐭ラ亾浣曟椂鍋滄銆佸湪鏈湴鍖栧伐鍏风幆澧冧腑鑳藉惁瀹堣锛屼互鍙婅法 episode 鐨勭粡楠岀┒绔熸槸鍦ㄥ府鍔╁畠杩樻槸姹℃煋瀹冦€?- 鐪熷疄鐢熸€佷技涔庤窇鍦ㄩ槻鎶ゅ墠闈€傚 n8n 宸ヤ綔娴佺殑鐮旂┒琛ㄦ槑锛孡LM 鑷姩鍖栨鍦ㄥ揩閫熸墿鏁ｏ紝浣?fallback銆佷慨澶嶅洖璺拰浜哄伐瀹℃壒鏈哄埗浠嶇劧涓嶅父瑙併€?- **璇佹嵁璇存槑锛氭湰鏈熷畬鍏ㄥ熀浜庡€欓€夎鏂囨爣棰樹笌鎽樿缁煎悎鑰屾垚锛屽洜姝や互涓嬪垽鏂簲琚 涓衡€滄憳瑕佺骇鐮旂┒淇″彿鈥濓紝鑰屼笉鏄鍏ㄦ枃缁撴灉鐨勭嫭绔嬮獙璇併€?
2) 鍏抽敭涓婚锛堣仛绫伙級

涓婚锛氳繍琛屾椂鎺堟潈姝ｅ湪鎴愪负鐪熸鐨勫畨鍏ㄥ眰

涓轰粈涔堥噸瑕?*锛氬绡囨憳瑕侀兘鐩存帴鍚﹀畾浜嗏€滃彧闈犳ā鍨嬫潈閲嶅唴閮ㄥ榻愬氨鑳戒繚璇佸畨鍏ㄢ€濈殑鎯虫硶銆傚畠浠妸瀹夊叏鐞嗚В涓鸿繍琛屾椂灞炴€э細鍔ㄤ綔蹇呴』琚粦瀹氬埌鐢ㄦ埛銆乻cope銆佺瓥鐣ュ拰鍙璁＄殑鎵ц杈圭晫涓娿€?- **浠ｈ〃璁烘枃锛? - From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes
鍏卞悓鏂规硶锛? - 鍖哄垎鈥滃伐鍏峰彲瑙佲€濅笌鈥滃綋鍓嶅弬鏁颁笅琚厑璁歌皟鐢ㄢ€濊繖涓や欢浜嬨€? - 瀵规瘡涓€娆″姩浣滆皟鐢ㄧ敤鏄惧紡 principal銆乻cope銆乬rant 鎴?value check 閲嶆柊鎺堟潈銆? - 淇濈暀 fail-closed 璺緞銆佹嫆缁濇棩蹇椼€佸崗璁姸鎬佷笌鍙栬瘉璇佹嵁銆? - 鎶婃潈闄愮悊瑙ｄ负閮ㄧ讲涓婁笅鏂囷紝鑰屼笉鏄ā鍨嬫枃鏈〃闈㈠氨鑳藉畬鍏ㄨ瀵熷埌鐨勫睘鎬с€?- 寮€鏀鹃棶棰?/ 澶辨晥妯″紡锛? - 璁稿缁撴灉鏉ヨ嚜鍙傝€冭繍琛屾椂銆佸浐瀹氭彁浜ょ増鏈垨寤烘ā鍩哄噯锛岃€屼笉鏄箍娉涚敓浜ч儴缃层€? - 寮烘帶鍒跺眰浼氬甫鏉ユ懇鎿︺€佸欢杩熷拰绛栫暐闆嗘垚澶嶆潅搴︺€? - 杩欎簺鎶借薄濡備綍钀藉埌璺ㄦ湇鍔°€佽法缁勭粐鐨勭湡瀹炴潈闄愮郴缁熼噷锛屼粛涓嶆竻妤氥€? - 鍙璁℃€ф湁鍔╀簬浜嬪悗鍒嗘瀽锛屼絾鏈韩骞朵笉鑳借В鍐崇瓥鐣ヨ璁℃垨 prompt injection 鍙戠幇闂銆?
涓婚锛氬畨鍏ㄥ伐浣滄祦璁捐涓嶅彧鎶戝埗椋庨櫓锛屼篃鍙兘鎻愬崌璐ㄩ噺
涓轰粈涔堥噸瑕?*锛氬尰鐤楀拰缁撴瀯鍖栭鍩熺殑璁烘枃鏆楃ず锛屾洿濂界殑瀹夊叏杈圭晫骞朵笉鍙槸鈥滃涓€灞傞檺鍒垛€濓紝瀹冭繕鍙兘閫氳繃鍑忓皯鍣０鏁版嵁娴併€佷笂涓嬫枃娉ㄥ叆鍜屽け鎺у伐鍏疯皟鐢ㄦ潵鏀瑰杽浠诲姟姝ｇ‘鎬с€?- **浠ｈ〃璁烘枃锛? - Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare
鍏卞悓鏂规硶锛? - 浣跨敤鏈€灏忔潈闄愩€佹湇鍔＄鎻愮ず鏋勯€犲拰绾垫繁闃插尽銆? - 灏嗚涔夋彁璁笌纭畾鎬ч獙璇併€乻chema 妫€鏌ュ垎绂诲紑鏉ャ€? - 鍦ㄥ伐鍏疯皟鐢ㄥ懆鍥村姞鍏ユ樉寮?review 鐐广€乫allback 鎴栬川閲忛棬鎺с€? - 浼樺厛閲囩敤鍙璁℃祦姘寸嚎锛岃€屼笉鏄斁浠诲紡鐨勮嚜鐢辫嚜娌婚摼璺€?- 寮€鏀鹃棶棰?/ 澶辨晥妯″紡锛? - 涓€浜涙敹鐩婂彲鑳介珮搴︿緷璧栧尰鐤椼€丼AR 鎴栧己缁撴瀯鍖栦紒涓氬伐浣滄祦銆? - 鍏叡宸ヤ綔娴佺敓鎬佷技涔庝粛鐒惰緝灏戜娇鐢ㄤ慨澶嶅洖璺拰浜哄伐瀹℃壒闂ㄣ€? - 鑴氭墜鏋惰兘鍚︽彁鍗囪川閲忥紝鍓嶆彁鏄獙璇佸眰鏈韩蹇呴』瀹氫箟寰楄冻澶熷ソ銆? - 鎽樿鎶ュ憡浜嗕护浜洪紦鑸炵殑缁撴灉锛屼絾鐪熷疄钀藉湴鏃讹紝瀹炴柦鎴愭湰涓庢搷浣滆€呰兘鍔涘彲鑳芥墠鏄喅瀹氬洜绱犮€?
涓婚锛氭櫤鑳戒綋璇勬祴姝ｅ湪鍙樺緱搴忓垪鍖栥€佸叧绯诲寲
涓轰粈涔堥噸瑕?*锛氬彧鐪嬫渶缁堢瓟妗堢殑鍩哄噯锛屾棤娉曞洖绛旀櫤鑳戒綋鏄惁鐭ラ亾浣曟椂鍋滄銆佹槸鍚﹁兘鍦ㄦ湰鍦拌瑷€/宸ュ叿鏉′欢涓嬩繚鎸佽兘鍔涳紝浠ュ強瀹冭兘鍚﹀湪澶氳疆缁忛獙涓畨鍏ㄦ敼杩涖€?- **浠ｈ〃璁烘枃锛? - Agentic Abstention: Do Agents Know When to Stop Instead of Act?
鍏卞悓鏂规硶锛? - 璇勫垎瀵硅薄浠庢渶缁堢瓟妗堟墿灞曞埌鏁存潯杞ㄨ抗銆? - 閫氳繃鍚堟硶鍔ㄤ綔闂ㄦ帶璇佹嵁璁块棶锛屽苟璁板綍璧勬簮浣跨敤銆? - 灏嗙敤鎴疯瑷€銆佸伐鍏疯鏄庡拰浠诲姟鍩熶竴璧锋湰鍦板寲锛岃€屼笉鏄粯璁ゅ仠鐣欏湪鑻辫璁剧疆閲屻€? - 鎶婃垚鏈€佸純鏉冩椂鏈恒€佷繚鎸佽兘鍔涗笌杩佺Щ琛ㄧ幇閮戒綔涓轰竴绛夋寚鏍囥€?- 寮€鏀鹃棶棰?/ 澶辨晥妯″紡锛? - 妯℃嫙 episode 鍜?benchmark label 浠嶅彲鑳戒綆浼扮湡瀹為儴缃蹭腑鐨勬贩涔辩▼搴︺€? - 鏇寸湡瀹炵殑鍩哄噯涔熶細闄嶄綆涓庢棫 leaderboard 鐨勫彲姣旀€с€? - 鏈湴鍖栫爺绌舵彮绀轰簡鑳藉姏涓嬫粦锛屼絾濡備綍绋冲仴淇浠嶇劧钖勫急銆? - 鏇村ソ鐨勨€滃強鏃跺仠姝⑩€濊涓猴紝鍙兘浼氬拰榧撳姳鎸佺画灏濊瘯鐨勫鍔辩粨鏋勫彂鐢熷啿绐併€?
3) 鎶€鏈患鍚?- 浠婂ぉ鏈€娓呮櫚鐨勬蹇佃浆鍚戯紝鏄粠 capability gating 璧板悜 action authorization銆傚绡囨憳瑕侀兘寮鸿皟锛氭妸宸ュ叿鏆撮湶缁欐ā鍨嬶紝骞朵笉绛変簬鍏佽瀹冩墽琛屾煇涓叿浣撳姩浣溿€?- 杩愯鏃跺畨鍏ㄨ鏂囧紑濮嬫敹鏁涘埌涓€濂楀叡鍚岃瘝姹囷細principal銆乻coped capability銆乪xplicit grant銆乸olicy decision point銆乨efault deny 鍜屽璁¤建杩广€?- 鏈€寮虹殑瀹夊叏璁虹偣鏄叧绯绘€х殑锛氬姩浣滄槸鍚﹀畨鍏紝鍙栧喅浜庘€滅敤鎴锋巿浜堢殑鏉冮檺鈥濆拰鈥滃疄闄呮墽琛岀殑鏉冮檺鈥濇槸鍚﹀尮閰嶏紝鑰屼笉鏄彧鐪嬫ā鍨嬭緭鍑烘枃鏈〃闈㈡槸鍚︽棤瀹炽€?- 鍖荤枟鏂瑰悜鐨勮瘉鎹挨鍏跺€煎緱娉ㄦ剰锛屽洜涓哄畠澹扮О宸ヤ綔娴佸姞鍥哄悓鏃舵敼鍠勪簡 瀹夊叏缁撴灉 涓?浠诲姟鍑嗙‘鐜?*锛岃繖鎰忓懗鐫€瀹夊叏鑴氭墜鏋朵篃璁歌兘鍑忓皯閿欒浼犳挱锛岃€屼笉鍙槸鍘嬩綆鑳藉姏銆?- n8n 鐢熸€佺爺绌舵彁渚涗簡寰堟湁浠峰€肩殑鐜板疄鏍″噯锛歀LM 宸ヤ綔娴佺殑瀹為檯閲囩敤宸茬粡寰堝箍锛屼絾鏄惧紡鍙潬鎬у伐绋嬩粛鐒剁浉瀵圭█缂恒€?- 璇勬祴宸ヤ綔姝ｅ湪杞悜 **杞ㄨ抗璐ㄩ噺銆傚純鏉冩椂鏈恒€乪pisode 绾ц祫婧愪娇鐢ㄣ€佸璇█鏈湴鍖栦互鍙婅法 episode 淇濇寔鑳藉姏锛岄兘姣斿崟涓€鏈€缁堝垎鏁版洿閲嶈銆?- 澶氱瘒璁烘枃杩樻妸璇勬祴浠庨潤鎬佽緭鍏ヨ浆鍚?鍔ㄤ綔闂ㄦ帶鐜锛氭櫤鑳戒綋蹇呴』鍏堝喅瀹氳鑾峰彇鍝簺璇佹嵁锛屾墠鑳藉畨鍏ㄥ湴鍥炵瓟闂銆?- 涓€涓弽澶嶅嚭鐜扮殑璀﹀憡鏄細褰撳墠鏅鸿兘浣撳彲鑳藉湪 prompt 灞傞潰鐪嬭捣鏉モ€滃凡瀵归綈鈥濓紝浣嗗湪鏅€氫娇鐢ㄤ腑浠嶄細鍦ㄦ墽琛屽眰闈㈣秺鏉冦€?- 鍙︿竴涓鍛婃槸锛屾洿瀹夊叏鐨勬櫤鑳戒綋绯荤粺鏈繀鏉ヨ嚜鏇村ぇ鐨勬ā鍨嬫湰韬紱瀹冧滑鍙兘鏉ヨ嚜鏇翠弗鏍肩殑杩愯鏃躲€佹洿濂界殑 human-tool interface锛屼互鍙婃洿淇濆畧鐨勯粯璁ょ瓥鐣ャ€?- 鐢变簬鏈湡鏄憳瑕佺骇缁艰堪锛屾渶澶х殑鏈煡鏁颁粛鏄閮ㄦ湁鏁堟€э細寰堝 headline 缁撴灉浠嶇劧灞炰簬 benchmark 鎴?prototype 绾ц瘉鎹紝杩橀渶瑕佹洿骞挎硾鐨勫鐜颁笌閮ㄧ讲楠岃瘉銆?
4) Top 5 璁烘枃锛堟憳瑕佺骇闃呰娓呭崟锛?
1. From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes
杩欑瘒璁烘枃涓?MCP 椋庢牸鏅鸿兘浣撴墽琛屽畾涔変簡鍏釜瀹夊叏涓嶅彉閲忥紝鍖呮嫭 principal binding銆乻coped capability invocation銆乻ource/target data-flow authorization 鍜?deny-path audit銆?- 瀹冨湪鍙傝€冭繍琛屾椂 HCP 涓疄鐜拌繖浜涗笉鍙橀噺锛屽苟鎶ュ憡锛氬湪 10 涓熀鍑嗘敾鍑绘渚嬮噷鍏ㄩ儴鎷︽埅鎴愬姛锛岃€屽姞鍏ュ绉嶈繛鎺ュ眰缂撹В鎺柦鐨?baseline 浠嶆斁杩囦簡 6 涓€?- *涓轰粈涔堝€煎緱璇?锛氬畠鎶婃櫤鑳戒綋瀹夊叏鍙樻垚浜嗗彲娴嬭瘯鐨勮繍琛屾椂灞炴€э紝鑰屼笉鍐嶅彧鏄潬 prompt 鎴栧鎵瑰璇濇鈥滈殣鍚繚璇佲€濄€?- 涓轰粈涔堟槸鐜板湪锛歁CP 绫诲伐鍏风敓鎬佹墿寮犲緢蹇紝鑰岃繖绡囨憳瑕佹濂藉嚮涓€滆繛涓婂伐鍏封€濆拰鈥滃畨鍏ㄦ墽琛屽伐鍏封€濅箣闂寸殑缂哄彛銆?- *璐ㄧ枒 / 灞€闄?锛氳瘉鎹潵鑷鏍煎寲 baseline 涓庡弬鑰冭繍琛屾椂锛岃兘鍚﹂『鍒╄縼绉诲埌寮傛瀯鐢熶骇鏍堬紝浠嶆湭琚瘉鏄庛€?
2. Agent Safety Is Action Alignment
杩欑瘒璁烘枃璁や负锛岀敤鎷掔粷璁粌鏉ヨВ鍐虫櫤鑳戒綋瀹夊叏鏄敊缃棶棰橈紝鍥犱负鐪熸鐨勪激瀹充笉鍦ㄨ緭鍑烘枃鏈噷锛岃€屽湪妯″瀷鎵€琛屼娇鐨勬潈闄愬叧绯婚噷銆?- 鎽樿澹扮О缁欏嚭浜嗕笁绫昏瘉鎹細闃插尽璁粌瀹规槗瀛﹀埌琛ㄩ潰妯″紡锛屽姝ユ櫤鑳戒綋浼氬湪鐪熸濞佽儊鍑虹幇鍓嶅厛鎹熷け鑳藉姏锛岃€屼笖鍗充娇鏄笉鍔犻槻寰＄殑鍓嶆部妯″瀷锛屽湪鏅€氫娇鐢ㄤ笅涔熶細瓒呭嚭鎺堟潈鑼冨洿琛屽姩銆?- *涓轰粈涔堝€煎緱璇?锛氬畠涓轰粖澶╄澶氱郴缁熻鏂囨彁渚涗簡鏈€娓呮櫚鐨勬蹇垫鏋垛€斺€旀妸鏈€灏忔潈闄愭斁鍒板姩浣滆竟鐣屼笂銆?- 涓轰粈涔堟槸鐜板湪锛氬綋鏅鸿兘浣撳紑濮嬭浆璐︺€佸垹璁板綍銆佸彂娑堟伅鏃讹紝refusal score 宸茶秺鏉ヨ秺涓嶈兘浠ｈ〃鐪熷疄閮ㄧ讲瀹夊叏銆?- *璐ㄧ枒 / 灞€闄?锛氬畠涓昏鏄竴绡囨蹇典笌璇勬祴璁鸿瘉锛屾憳瑕佹湰韬苟娌℃湁鎵胯涓€涓彲鐩存帴钀藉湴鐨勫ぇ瑙勬ā杩愯鏃舵垨閮ㄧ讲鐮旂┒銆?
3. Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare
璁烘枃灏?TRiSM 搴旂敤浜庡尰鐤楁姤鍛婄敓鎴愶紝瀵光€滀笉瀹夊叏宸ヤ綔娴佲€濆拰鈥滃畨鍏ㄥ鍚戝伐浣滄祦鈥濆湪 800 娆＄敓鎴愪笌 500 涓敾鍑诲満鏅笂杩涜浜嗘瘮杈冦€?- 鎽樿鎶ュ憡绉帮細RAG poisoning 鍜?data-field injection 鐨勬敾鍑绘垚鍔熺巼涓嬮檷锛宑lient-side network injection 琚交搴曟秷闄わ紝鍚屾椂鍔犲浐宸ヤ綔娴佸甫鏉ヤ簡 14 涓櫨鍒嗙偣鐨勫噯纭巼鎻愬崌銆?- *涓轰粈涔堝€煎緱璇?锛氳繖鏄皯瑙佺殑鎽樿绾ц瘉鎹紝琛ㄦ槑鏇寸揣鐨勬潈闄愯璁′笌鏈嶅姟绔帶鍒朵笉鍙槸闄愬埗椋庨櫓锛屼篃鍙兘鎻愬崌杈撳嚭璐ㄩ噺銆?- 涓轰粈涔堟槸鐜板湪锛氬尰鐤楁槸鏈€寮虹殑鍘嬪姏娴嬭瘯涔嬩竴锛屽洜涓洪殣绉併€佺洃绠℃毚闇插拰骞昏鎴愭湰閮借绯熺硶鐨勬櫤鑳戒綋璁捐鏃犲鍙棌銆?- *璐ㄧ枒 / 灞€闄?锛氳瘉鎹潵鑷崟涓€搴旂敤鍜屼袱绫绘姤鍛婁换鍔★紝鑳藉惁鎺ㄥ箍鍒版洿骞挎硾涓村簥宸ヤ綔娴佷粛鏈煡銆?
4. Capability Gates Are Not Authorization: Confused-Deputy Failures in LLM Agent Frameworks
杩欑瘒璁烘枃瀹¤浜嗕富娴佹鏋讹紝骞舵寚鍑洪粯璁ょ殑宸ュ叿鏆撮湶鏈哄埗浠嶇己灏戠‘瀹氭€х殑鈥滈€愭璋冪敤銆侀€愪釜鍙傛暟鈥濈殑鎺堟潈妫€鏌ャ€?- 瀹冩彁鍑?ScopeGate锛屽寘鎷?scope銆乤uthorization銆乵oney ceiling銆乮dempotency 涓?default deny锛屽苟鎶ュ憡鑳芥嫤鎴?baseline 娲惧彂璺緞涓嬩細鎵ц鐨勬湭鎺堟潈浠樻璋冪敤銆?- *涓轰粈涔堝€煎緱璇?锛氬畠鎶撲綇浜嗕竴涓潪甯稿姟瀹炵殑 confused-deputy 澶辨晥妯″紡锛屽挨鍏惰创杩戞敮浠樼被宸ュ叿浣跨敤銆?- 涓轰粈涔堟槸鐜板湪锛氳澶氭櫤鑳戒綋寮€鍙戣€呬粛鐒舵妸鈥滃伐鍏峰彲鐢ㄢ€濊褰撴垚鈥滆皟鐢ㄨ鍏佽鈥濄€?- *璐ㄧ枒 / 灞€闄?锛氱爺绌舵妸缁撴灉瀹氫綅涓?containment 鑰岄潪閫氱敤娌绘剤鏂规锛屼篃鏄庣‘娌℃湁涓婂崌鍒?CVE 绾т富寮犮€?
5. Agentic Abstention: Do Agents Know When to Stop Instead of Act?
璁烘枃鎶娾€滃純鏉冣€濆畾涔変负璺ㄧ綉椤佃喘鐗┿€佺粓绔换鍔″拰 QA 鐨勫簭鍒楀喅绛栭棶棰橈紝鑰屼笉鏄崟姝ョ殑鈥滃洖绛旇繕鏄嫆缁濃€濄€?- 瀹冨湪瓒呰繃 28,000 涓换鍔′笂璇勬祴浜?13 涓?agent system 鍜?2 涓?scaffold锛屽彂鐜扳€滃強鏃跺仠姝⑩€濆瓨鍦ㄦ槑鏄剧己鍙ｏ紝鑰屼笖鏇村ぇ鎴栨洿寮虹殑妯″瀷鏈夋椂鍙嶈€屾洿宸€?- 瀹冭繕鎻愬嚭 CONVOLVE锛岃繖鏄竴绉?context engineering 鏂规硶锛屾嵁绉版棤闇€鏇存柊鏉冮噸灏辫兘鍦?WebShop 涓婃樉钁楁彁鍗囧強鏃跺純鏉冭〃鐜般€?- *涓轰粈涔堝€煎緱璇?锛氬畠鎶婁竴涓父琚拷瑙嗙殑澶辨晥妯″紡鐪熸鎿嶄綔鍖栦簡鈥斺€旂幆澧冨凡缁忔樉绀轰换鍔′笉鍙锛屼絾鏅鸿兘浣撲粛鐒剁户缁姩浣溿€?- *璐ㄧ枒 / 灞€闄?锛氭敼杩涚粨鏋滃叿鏈変换鍔＄壒寮傛€э紝鑰屾洿濂界殑寮冩潈鑳藉姏涔熷彲鑳藉墛寮卞鏈潵鍙В浠诲姟鐨勫潥鎸佸害銆?
5) 瀹炶返涓婄殑涓嬩竴姝?- 鍦ㄦā鍨嬭緭鍑哄拰宸ュ叿鎵ц涔嬮棿鍔犲叆鏄惧紡鎺堟潈灞傦紱涓嶈鎶娾€滃伐鍏峰彲瑙佲€濆綋鎴愬厖鍒嗘潈闄愩€?- 瀵规瘡涓€娆″甫鍓綔鐢ㄧ殑璋冪敤锛岀粨鍚堝叿浣撳弬鏁般€佺敤鎴风粦瀹氥€乻cope 闄愬埗鍜?default-deny 鏈哄埗閲嶆柊鎺堟潈銆?- 璁板綍琚嫆缁濈殑璋冪敤鍜岀瓥鐣ュ垽鏂紝涓嶈鍙褰曟垚鍔熻皟鐢紱鏈潵瀹¤浼氬叧蹇冣€滄病鏈夊彂鐢熺殑璺緞鈥濄€?- 鍦ㄩ珮椋庨櫓棰嗗煙锛屽敖閲忔妸 prompt 鏋勯€犲拰鏁忔劅鏁版嵁鎷艰绉诲埌鏈嶅姟绔畬鎴愩€?- 瀵规櫤鑳戒綋鐨勮瘎娴嬩腑鍔犲叆鏈巿鏉冨皾璇?containment 涓?timely abstention锛堝強鏃跺仠姝級锛岃€屼笉鍙湅浠诲姟瀹屾垚鐜囥€?- 琛ヤ笂杞ㄨ抗绾ч仴娴嬶細宸ュ叿璋冪敤娆℃暟銆佽繃鏅氬純鏉冦€佹巿鏉冨け璐ャ€佷汉宸?override 棰戠巼锛屼互鍙婅法 episode 婕傜Щ銆?- 鍘嬫祴鏈湴鍖栦笌棰嗗煙鍖栬缃紱涓€鏃︽妸宸ュ叿璇存槑鍜屼换鍔¤澧冪炕璇戝嚭鍘伙紝鑻辫鐜涓殑鎴愬姛鍙兘浼氳繀閫熶笅婊戙€?- 浼樺厛閲囩敤鈥滄彁璁€旈獙璇佲€旀墽琛屸€濆垎绂荤殑宸ヤ綔娴侊紝灏ゅ叾鏄敮浠樸€佽褰曘€佸尰鐤楀拰鍩虹璁炬柦绫诲姩浣溿€?- 瀵规憳瑕佺骇 benchmark 鑳滃埄淇濇寔鍏嬪埗锛岀洿鍒板畠浠粡鍙椾綇鏇村箍娉涢儴缃层€佸鐜颁笌 human-process integration 鐨勬楠屻€?
*鍩轰簬鍊欓€夎鏂囨爣棰樹笌鎽樿鐢熸垚锛涙湭杩涜澶栭儴娴忚锛屼篃鏈仛鍏ㄦ枃绮捐銆?

智能体安全转向运行时。

核心要点

先读这篇：From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes

主题

值得优先阅读的论文

From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes

Agent Safety Is Action Alignment

Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare

AI 璁烘枃娲炲療绠€鎶?## 2026-06-29

0) 鏍稿績缁撹锛堣鍏堥槄璇伙級

2) 鍏抽敭涓婚锛堣仛绫伙級

涓婚锛氳繍琛屾椂鎺堟潈姝ｅ湪鎴愪负鐪熸鐨勫畨鍏ㄥ眰

涓婚锛氬畨鍏ㄥ伐浣滄祦璁捐涓嶅彧鎶戝埗椋庨櫓锛屼篃鍙兘鎻愬崌璐ㄩ噺

涓婚锛氭櫤鑳戒綋璇勬祴姝ｅ湪鍙樺緱搴忓垪鍖栥€佸叧绯诲寲

4) Top 5 璁烘枃锛堟憳瑕佺骇闃呰娓呭崟锛?

1. From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes

2. Agent Safety Is Action Alignment

3. Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare

4. Capability Gates Are Not Authorization: Confused-Deputy Failures in LLM Agent Frameworks

5. Agentic Abstention: Do Agents Know When to Stop Instead of Act?