2026年6月29日 AI 研究简报
智能体安全转向运行时。
今天最强的一组摘要共同指向同一件事:可信智能体依赖显式执行控制、最小权限和外部停止条件,而不是只靠模型内化的拒绝能力。
核心要点
- 今天最核心的结论是,**智能体安全活在执行边界上**:一旦工具能产生副作用,grant、scope、approval 和 audit trail 就比 refusal 式对齐更关键。
- 高风险工作流论文暗示,**最小权限脚手架既可能提升安全,也可能提升质量**;更严格的上下文拼装和工具访问控制,也许能同时减少攻击面与普通错误。
- 评测正在转向**序列化与关系化测试**:更重要的问题是智能体能否守住授权边界、知道何时停止,并在本地化或重复 episode 中保持安全行为。
#1
主题
值得优先阅读的论文
按研究价值排序:新意、方法可复用性、证据质量,以及是否值得带着怀疑去读。
From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes
#1八个显式不变量让智能体执行安全从隐含假设变成可测属性。
- 为什么现在值得读
- MCP 风格工具生态扩张速度,已经快过其执行控制层的成熟速度。
- 怀疑点
- 参考运行时上的基准结果,还不能证明其能轻松落地到生产栈。
Agent Safety Is Action Alignment
#2它解释了为什么授权必须在模型权重之外被强制执行,是最佳的概念配套论文。
- 为什么现在值得读
- 很多团队仍把 refusal tuning 误当成安全工具使用的代理指标。
- 怀疑点
- 摘要的概念论证很强,但操作层面的处方仍较高层。
Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare
#3少见的经验性证据表明,最小权限工作流设计可能同时提升抗攻击性与报告准确率。
- 为什么现在值得读
- 医疗场景把数据泄露、幻觉和不安全自动化的代价都具体化了。
- 怀疑点
- 单一应用与有限任务类型限制了泛化能力。
运行统计
- 候选论文: 149
- 入选论文: 5
- 已精读完成: 0
- 证据等级: 仅基于候选标题与摘要
- 时间窗口 (UTC): 2026-06-27T00:00:00Z → 2026-06-28T00:00:00Z
展开查看入选论文
| arXiv ID | 标题 / 链接 | 分类 | 入选理由 | 标签 |
|---|---|---|---|---|
2606.29073 | From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes | cs.CR, cs.AI | 以显式不变量评测执行控制,是本期最强的运行时安全信号。 | runtime-security, MCP, authorization, audit |
2606.28739 | Agent Safety Is Action Alignment | cs.AI | 概念上最尖锐:安全动作取决于授权关系,而不是拒绝行为。 | action-alignment, least-privilege, agents, evaluation |
2606.28666 | Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare | cs.CR, cs.AI | 医疗工作流加固同时声称降低攻击成功率并提升准确率。 | TRiSM, healthcare, security, deployment |
2606.28679 | Capability Gates Are Not Authorization: Confused-Deputy Failures in LLM Agent Frameworks | cs.CR, cs.AI | 具体的框架审计,说明暴露工具后仍必须做逐次调用授权。 | frameworks, payments, authorization, confused-deputy |
2606.28733 | Agentic Abstention: Do Agents Know When to Stop Instead of Act? | cs.AI | 大规模序列基准,专门衡量智能体何时应该停止而不是继续动作。 | abstention, benchmarks, tool-use, trajectories |
AI 璁烘枃娲炲療绠€鎶?## 2026-06-29
0) 鏍稿績缁撹锛堣鍏堥槄璇伙級
- 浠婂ぉ鏈€寮虹殑涓€缁勬憳瑕佸叡鍚屾寚鍑猴細鏅鸿兘浣撳畨鍏ㄩ鍏堟槸鎵ц闂锛岃€屼笉鏄嫆缁濋棶棰?銆傜湡姝i渶瑕佽妫€鏌ョ殑鏄姩浣滆竟鐣屼笂鐨勬潈闄愩€乻cope銆乸rincipal 鍜岄粯璁ゆ嫆缁濇帶鍒讹紝鑰屼笉鍙槸妯″瀷浼氫笉浼氳鈥滀笉鈥濄€?- 澶氱瘒璁烘枃閮藉湪鎶婂叧娉ㄧ偣浠?宸ュ叿杩炴帴鎺ㄨ繘鍒?杩愯鏃舵不鐞?锛氫粎浠呮帴涓?MCP 椋庢牸宸ュ叿鎴栨鏋舵帴鍙e苟涓嶅锛屾ā鍨嬪彂鍑虹殑姣忎竴娆¤皟鐢ㄩ兘闇€瑕佺粨鍚堝叿浣撳弬鏁伴噸鏂版巿鏉冿紝骞剁暀涓嬪璁¤瘉鎹€?- 闈㈠悜楂橀闄╁満鏅殑閮ㄧ讲璁烘枃鏆楃ず锛?*鏈€灏忔潈闄愯剼鎵嬫灦鏈夋満浼氬悓鏃舵彁鍗囧畨鍏ㄦ€т笌浠诲姟璐ㄩ噺銆傚湪鍖荤枟鎶ュ憡鐢熸垚閲岋紝宸ヤ綔娴佸姞鍥烘嵁绉版棦闄嶄綆浜嗘敾鍑绘垚鍔熺巼锛屼篃鎻愬崌浜嗗噯纭巼銆?- 璇勬祴姝e湪浠庢渶缁堢瓟妗堟墿灞曞埌杞ㄨ抗绾緥锛氫紭绉€鏅鸿兘浣撲笉浠呰浼氬仛浜嬶紝杩樿鐭ラ亾浣曟椂鍋滄銆佸湪鏈湴鍖栧伐鍏风幆澧冧腑鑳藉惁瀹堣锛屼互鍙婅法 episode 鐨勭粡楠岀┒绔熸槸鍦ㄥ府鍔╁畠杩樻槸姹℃煋瀹冦€?- 鐪熷疄鐢熸€佷技涔庤窇鍦ㄩ槻鎶ゅ墠闈€傚 n8n 宸ヤ綔娴佺殑鐮旂┒琛ㄦ槑锛孡LM 鑷姩鍖栨鍦ㄥ揩閫熸墿鏁o紝浣?fallback銆佷慨澶嶅洖璺拰浜哄伐瀹℃壒鏈哄埗浠嶇劧涓嶅父瑙併€?- **璇佹嵁璇存槑锛氭湰鏈熷畬鍏ㄥ熀浜庡€欓€夎鏂囨爣棰樹笌鎽樿缁煎悎鑰屾垚锛屽洜姝や互涓嬪垽鏂簲琚涓衡€滄憳瑕佺骇鐮旂┒淇″彿鈥濓紝鑰屼笉鏄鍏ㄦ枃缁撴灉鐨勭嫭绔嬮獙璇併€?
2) 鍏抽敭涓婚锛堣仛绫伙級
涓婚锛氳繍琛屾椂鎺堟潈姝e湪鎴愪负鐪熸鐨勫畨鍏ㄥ眰
- 涓轰粈涔堥噸瑕?*锛氬绡囨憳瑕侀兘鐩存帴鍚﹀畾浜嗏€滃彧闈犳ā鍨嬫潈閲嶅唴閮ㄥ榻愬氨鑳戒繚璇佸畨鍏ㄢ€濈殑鎯虫硶銆傚畠浠妸瀹夊叏鐞嗚В涓鸿繍琛屾椂灞炴€э細鍔ㄤ綔蹇呴』琚粦瀹氬埌鐢ㄦ埛銆乻cope銆佺瓥鐣ュ拰鍙璁$殑鎵ц杈圭晫涓娿€?- **浠h〃璁烘枃锛? - From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes
- 鍏卞悓鏂规硶锛? - 鍖哄垎鈥滃伐鍏峰彲瑙佲€濅笌鈥滃綋鍓嶅弬鏁颁笅琚厑璁歌皟鐢ㄢ€濊繖涓や欢浜嬨€? - 瀵规瘡涓€娆″姩浣滆皟鐢ㄧ敤鏄惧紡 principal銆乻cope銆乬rant 鎴?value check 閲嶆柊鎺堟潈銆? - 淇濈暀 fail-closed 璺緞銆佹嫆缁濇棩蹇椼€佸崗璁姸鎬佷笌鍙栬瘉璇佹嵁銆? - 鎶婃潈闄愮悊瑙d负閮ㄧ讲涓婁笅鏂囷紝鑰屼笉鏄ā鍨嬫枃鏈〃闈㈠氨鑳藉畬鍏ㄨ瀵熷埌鐨勫睘鎬с€?- 寮€鏀鹃棶棰?/ 澶辨晥妯″紡锛? - 璁稿缁撴灉鏉ヨ嚜鍙傝€冭繍琛屾椂銆佸浐瀹氭彁浜ょ増鏈垨寤烘ā鍩哄噯锛岃€屼笉鏄箍娉涚敓浜ч儴缃层€? - 寮烘帶鍒跺眰浼氬甫鏉ユ懇鎿︺€佸欢杩熷拰绛栫暐闆嗘垚澶嶆潅搴︺€? - 杩欎簺鎶借薄濡備綍钀藉埌璺ㄦ湇鍔°€佽法缁勭粐鐨勭湡瀹炴潈闄愮郴缁熼噷锛屼粛涓嶆竻妤氥€? - 鍙璁℃€ф湁鍔╀簬浜嬪悗鍒嗘瀽锛屼絾鏈韩骞朵笉鑳借В鍐崇瓥鐣ヨ璁℃垨 prompt injection 鍙戠幇闂銆?
涓婚锛氬畨鍏ㄥ伐浣滄祦璁捐涓嶅彧鎶戝埗椋庨櫓锛屼篃鍙兘鎻愬崌璐ㄩ噺
- 涓轰粈涔堥噸瑕?*锛氬尰鐤楀拰缁撴瀯鍖栭鍩熺殑璁烘枃鏆楃ず锛屾洿濂界殑瀹夊叏杈圭晫骞朵笉鍙槸鈥滃涓€灞傞檺鍒垛€濓紝瀹冭繕鍙兘閫氳繃鍑忓皯鍣0鏁版嵁娴併€佷笂涓嬫枃娉ㄥ叆鍜屽け鎺у伐鍏疯皟鐢ㄦ潵鏀瑰杽浠诲姟姝g‘鎬с€?- **浠h〃璁烘枃锛? - Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare
- 鍏卞悓鏂规硶锛? - 浣跨敤鏈€灏忔潈闄愩€佹湇鍔$鎻愮ず鏋勯€犲拰绾垫繁闃插尽銆? - 灏嗚涔夋彁璁笌纭畾鎬ч獙璇併€乻chema 妫€鏌ュ垎绂诲紑鏉ャ€? - 鍦ㄥ伐鍏疯皟鐢ㄥ懆鍥村姞鍏ユ樉寮?review 鐐广€乫allback 鎴栬川閲忛棬鎺с€? - 浼樺厛閲囩敤鍙璁℃祦姘寸嚎锛岃€屼笉鏄斁浠诲紡鐨勮嚜鐢辫嚜娌婚摼璺€?- 寮€鏀鹃棶棰?/ 澶辨晥妯″紡锛? - 涓€浜涙敹鐩婂彲鑳介珮搴︿緷璧栧尰鐤椼€丼AR 鎴栧己缁撴瀯鍖栦紒涓氬伐浣滄祦銆? - 鍏叡宸ヤ綔娴佺敓鎬佷技涔庝粛鐒惰緝灏戜娇鐢ㄤ慨澶嶅洖璺拰浜哄伐瀹℃壒闂ㄣ€? - 鑴氭墜鏋惰兘鍚︽彁鍗囪川閲忥紝鍓嶆彁鏄獙璇佸眰鏈韩蹇呴』瀹氫箟寰楄冻澶熷ソ銆? - 鎽樿鎶ュ憡浜嗕护浜洪紦鑸炵殑缁撴灉锛屼絾鐪熷疄钀藉湴鏃讹紝瀹炴柦鎴愭湰涓庢搷浣滆€呰兘鍔涘彲鑳芥墠鏄喅瀹氬洜绱犮€?
涓婚锛氭櫤鑳戒綋璇勬祴姝e湪鍙樺緱搴忓垪鍖栥€佸叧绯诲寲
- 涓轰粈涔堥噸瑕?*锛氬彧鐪嬫渶缁堢瓟妗堢殑鍩哄噯锛屾棤娉曞洖绛旀櫤鑳戒綋鏄惁鐭ラ亾浣曟椂鍋滄銆佹槸鍚﹁兘鍦ㄦ湰鍦拌瑷€/宸ュ叿鏉′欢涓嬩繚鎸佽兘鍔涳紝浠ュ強瀹冭兘鍚﹀湪澶氳疆缁忛獙涓畨鍏ㄦ敼杩涖€?- **浠h〃璁烘枃锛? - Agentic Abstention: Do Agents Know When to Stop Instead of Act?
- 鍏卞悓鏂规硶锛? - 璇勫垎瀵硅薄浠庢渶缁堢瓟妗堟墿灞曞埌鏁存潯杞ㄨ抗銆? - 閫氳繃鍚堟硶鍔ㄤ綔闂ㄦ帶璇佹嵁璁块棶锛屽苟璁板綍璧勬簮浣跨敤銆? - 灏嗙敤鎴疯瑷€銆佸伐鍏疯鏄庡拰浠诲姟鍩熶竴璧锋湰鍦板寲锛岃€屼笉鏄粯璁ゅ仠鐣欏湪鑻辫璁剧疆閲屻€? - 鎶婃垚鏈€佸純鏉冩椂鏈恒€佷繚鎸佽兘鍔涗笌杩佺Щ琛ㄧ幇閮戒綔涓轰竴绛夋寚鏍囥€?- 寮€鏀鹃棶棰?/ 澶辨晥妯″紡锛? - 妯℃嫙 episode 鍜?benchmark label 浠嶅彲鑳戒綆浼扮湡瀹為儴缃蹭腑鐨勬贩涔辩▼搴︺€? - 鏇寸湡瀹炵殑鍩哄噯涔熶細闄嶄綆涓庢棫 leaderboard 鐨勫彲姣旀€с€? - 鏈湴鍖栫爺绌舵彮绀轰簡鑳藉姏涓嬫粦锛屼絾濡備綍绋冲仴淇浠嶇劧钖勫急銆? - 鏇村ソ鐨勨€滃強鏃跺仠姝⑩€濊涓猴紝鍙兘浼氬拰榧撳姳鎸佺画灏濊瘯鐨勫鍔辩粨鏋勫彂鐢熷啿绐併€?
3) 鎶€鏈患鍚?- 浠婂ぉ鏈€娓呮櫚鐨勬蹇佃浆鍚戯紝鏄粠 capability gating 璧板悜 action authorization銆傚绡囨憳瑕侀兘寮鸿皟锛氭妸宸ュ叿鏆撮湶缁欐ā鍨嬶紝骞朵笉绛変簬鍏佽瀹冩墽琛屾煇涓叿浣撳姩浣溿€?- 杩愯鏃跺畨鍏ㄨ鏂囧紑濮嬫敹鏁涘埌涓€濂楀叡鍚岃瘝姹囷細principal銆乻coped capability銆乪xplicit grant銆乸olicy decision point銆乨efault deny 鍜屽璁¤建杩广€?- 鏈€寮虹殑瀹夊叏璁虹偣鏄叧绯绘€х殑锛氬姩浣滄槸鍚﹀畨鍏紝鍙栧喅浜庘€滅敤鎴锋巿浜堢殑鏉冮檺鈥濆拰鈥滃疄闄呮墽琛岀殑鏉冮檺鈥濇槸鍚﹀尮閰嶏紝鑰屼笉鏄彧鐪嬫ā鍨嬭緭鍑烘枃鏈〃闈㈡槸鍚︽棤瀹炽€?- 鍖荤枟鏂瑰悜鐨勮瘉鎹挨鍏跺€煎緱娉ㄦ剰锛屽洜涓哄畠澹扮О宸ヤ綔娴佸姞鍥哄悓鏃舵敼鍠勪簡 瀹夊叏缁撴灉 涓?浠诲姟鍑嗙‘鐜?*锛岃繖鎰忓懗鐫€瀹夊叏鑴氭墜鏋朵篃璁歌兘鍑忓皯閿欒浼犳挱锛岃€屼笉鍙槸鍘嬩綆鑳藉姏銆?- n8n 鐢熸€佺爺绌舵彁渚涗簡寰堟湁浠峰€肩殑鐜板疄鏍″噯锛歀LM 宸ヤ綔娴佺殑瀹為檯閲囩敤宸茬粡寰堝箍锛屼絾鏄惧紡鍙潬鎬у伐绋嬩粛鐒剁浉瀵圭█缂恒€?- 璇勬祴宸ヤ綔姝e湪杞悜 **杞ㄨ抗璐ㄩ噺銆傚純鏉冩椂鏈恒€乪pisode 绾ц祫婧愪娇鐢ㄣ€佸璇█鏈湴鍖栦互鍙婅法 episode 淇濇寔鑳藉姏锛岄兘姣斿崟涓€鏈€缁堝垎鏁版洿閲嶈銆?- 澶氱瘒璁烘枃杩樻妸璇勬祴浠庨潤鎬佽緭鍏ヨ浆鍚?鍔ㄤ綔闂ㄦ帶鐜锛氭櫤鑳戒綋蹇呴』鍏堝喅瀹氳鑾峰彇鍝簺璇佹嵁锛屾墠鑳藉畨鍏ㄥ湴鍥炵瓟闂銆?- 涓€涓弽澶嶅嚭鐜扮殑璀﹀憡鏄細褰撳墠鏅鸿兘浣撳彲鑳藉湪 prompt 灞傞潰鐪嬭捣鏉モ€滃凡瀵归綈鈥濓紝浣嗗湪鏅€氫娇鐢ㄤ腑浠嶄細鍦ㄦ墽琛屽眰闈㈣秺鏉冦€?- 鍙︿竴涓鍛婃槸锛屾洿瀹夊叏鐨勬櫤鑳戒綋绯荤粺鏈繀鏉ヨ嚜鏇村ぇ鐨勬ā鍨嬫湰韬紱瀹冧滑鍙兘鏉ヨ嚜鏇翠弗鏍肩殑杩愯鏃躲€佹洿濂界殑 human-tool interface锛屼互鍙婃洿淇濆畧鐨勯粯璁ょ瓥鐣ャ€?- 鐢变簬鏈湡鏄憳瑕佺骇缁艰堪锛屾渶澶х殑鏈煡鏁颁粛鏄閮ㄦ湁鏁堟€э細寰堝 headline 缁撴灉浠嶇劧灞炰簬 benchmark 鎴?prototype 绾ц瘉鎹紝杩橀渶瑕佹洿骞挎硾鐨勫鐜颁笌閮ㄧ讲楠岃瘉銆?
4) Top 5 璁烘枃锛堟憳瑕佺骇闃呰娓呭崟锛?
1. From Tool Connection to Execution Control: Benchmarking Security Invariants in MCP-Style Agent Runtimes
- 杩欑瘒璁烘枃涓?MCP 椋庢牸鏅鸿兘浣撴墽琛屽畾涔変簡鍏釜瀹夊叏涓嶅彉閲忥紝鍖呮嫭 principal binding銆乻coped capability invocation銆乻ource/target data-flow authorization 鍜?deny-path audit銆?- 瀹冨湪鍙傝€冭繍琛屾椂 HCP 涓疄鐜拌繖浜涗笉鍙橀噺锛屽苟鎶ュ憡锛氬湪 10 涓熀鍑嗘敾鍑绘渚嬮噷鍏ㄩ儴鎷︽埅鎴愬姛锛岃€屽姞鍏ュ绉嶈繛鎺ュ眰缂撹В鎺柦鐨?baseline 浠嶆斁杩囦簡 6 涓€?- *涓轰粈涔堝€煎緱璇?锛氬畠鎶婃櫤鑳戒綋瀹夊叏鍙樻垚浜嗗彲娴嬭瘯鐨勮繍琛屾椂灞炴€э紝鑰屼笉鍐嶅彧鏄潬 prompt 鎴栧鎵瑰璇濇鈥滈殣鍚繚璇佲€濄€?- 涓轰粈涔堟槸鐜板湪锛歁CP 绫诲伐鍏风敓鎬佹墿寮犲緢蹇紝鑰岃繖绡囨憳瑕佹濂藉嚮涓€滆繛涓婂伐鍏封€濆拰鈥滃畨鍏ㄦ墽琛屽伐鍏封€濅箣闂寸殑缂哄彛銆?- *璐ㄧ枒 / 灞€闄?锛氳瘉鎹潵鑷鏍煎寲 baseline 涓庡弬鑰冭繍琛屾椂锛岃兘鍚﹂『鍒╄縼绉诲埌寮傛瀯鐢熶骇鏍堬紝浠嶆湭琚瘉鏄庛€?
2. Agent Safety Is Action Alignment
- 杩欑瘒璁烘枃璁や负锛岀敤鎷掔粷璁粌鏉ヨВ鍐虫櫤鑳戒綋瀹夊叏鏄敊缃棶棰橈紝鍥犱负鐪熸鐨勪激瀹充笉鍦ㄨ緭鍑烘枃鏈噷锛岃€屽湪妯″瀷鎵€琛屼娇鐨勬潈闄愬叧绯婚噷銆?- 鎽樿澹扮О缁欏嚭浜嗕笁绫昏瘉鎹細闃插尽璁粌瀹规槗瀛﹀埌琛ㄩ潰妯″紡锛屽姝ユ櫤鑳戒綋浼氬湪鐪熸濞佽儊鍑虹幇鍓嶅厛鎹熷け鑳藉姏锛岃€屼笖鍗充娇鏄笉鍔犻槻寰$殑鍓嶆部妯″瀷锛屽湪鏅€氫娇鐢ㄤ笅涔熶細瓒呭嚭鎺堟潈鑼冨洿琛屽姩銆?- *涓轰粈涔堝€煎緱璇?锛氬畠涓轰粖澶╄澶氱郴缁熻鏂囨彁渚涗簡鏈€娓呮櫚鐨勬蹇垫鏋垛€斺€旀妸鏈€灏忔潈闄愭斁鍒板姩浣滆竟鐣屼笂銆?- 涓轰粈涔堟槸鐜板湪锛氬綋鏅鸿兘浣撳紑濮嬭浆璐︺€佸垹璁板綍銆佸彂娑堟伅鏃讹紝refusal score 宸茶秺鏉ヨ秺涓嶈兘浠h〃鐪熷疄閮ㄧ讲瀹夊叏銆?- *璐ㄧ枒 / 灞€闄?锛氬畠涓昏鏄竴绡囨蹇典笌璇勬祴璁鸿瘉锛屾憳瑕佹湰韬苟娌℃湁鎵胯涓€涓彲鐩存帴钀藉湴鐨勫ぇ瑙勬ā杩愯鏃舵垨閮ㄧ讲鐮旂┒銆?
3. Why Trust Your Agent? Empirical Security Gains from TRiSM-Guided Agentic Workflows in Healthcare
- 璁烘枃灏?TRiSM 搴旂敤浜庡尰鐤楁姤鍛婄敓鎴愶紝瀵光€滀笉瀹夊叏宸ヤ綔娴佲€濆拰鈥滃畨鍏ㄥ鍚戝伐浣滄祦鈥濆湪 800 娆$敓鎴愪笌 500 涓敾鍑诲満鏅笂杩涜浜嗘瘮杈冦€?- 鎽樿鎶ュ憡绉帮細RAG poisoning 鍜?data-field injection 鐨勬敾鍑绘垚鍔熺巼涓嬮檷锛宑lient-side network injection 琚交搴曟秷闄わ紝鍚屾椂鍔犲浐宸ヤ綔娴佸甫鏉ヤ簡 14 涓櫨鍒嗙偣鐨勫噯纭巼鎻愬崌銆?- *涓轰粈涔堝€煎緱璇?锛氳繖鏄皯瑙佺殑鎽樿绾ц瘉鎹紝琛ㄦ槑鏇寸揣鐨勬潈闄愯璁′笌鏈嶅姟绔帶鍒朵笉鍙槸闄愬埗椋庨櫓锛屼篃鍙兘鎻愬崌杈撳嚭璐ㄩ噺銆?- 涓轰粈涔堟槸鐜板湪锛氬尰鐤楁槸鏈€寮虹殑鍘嬪姏娴嬭瘯涔嬩竴锛屽洜涓洪殣绉併€佺洃绠℃毚闇插拰骞昏鎴愭湰閮借绯熺硶鐨勬櫤鑳戒綋璁捐鏃犲鍙棌銆?- *璐ㄧ枒 / 灞€闄?锛氳瘉鎹潵鑷崟涓€搴旂敤鍜屼袱绫绘姤鍛婁换鍔★紝鑳藉惁鎺ㄥ箍鍒版洿骞挎硾涓村簥宸ヤ綔娴佷粛鏈煡銆?
4. Capability Gates Are Not Authorization: Confused-Deputy Failures in LLM Agent Frameworks
- 杩欑瘒璁烘枃瀹¤浜嗕富娴佹鏋讹紝骞舵寚鍑洪粯璁ょ殑宸ュ叿鏆撮湶鏈哄埗浠嶇己灏戠‘瀹氭€х殑鈥滈€愭璋冪敤銆侀€愪釜鍙傛暟鈥濈殑鎺堟潈妫€鏌ャ€?- 瀹冩彁鍑?ScopeGate锛屽寘鎷?scope銆乤uthorization銆乵oney ceiling銆乮dempotency 涓?default deny锛屽苟鎶ュ憡鑳芥嫤鎴?baseline 娲惧彂璺緞涓嬩細鎵ц鐨勬湭鎺堟潈浠樻璋冪敤銆?- *涓轰粈涔堝€煎緱璇?锛氬畠鎶撲綇浜嗕竴涓潪甯稿姟瀹炵殑 confused-deputy 澶辨晥妯″紡锛屽挨鍏惰创杩戞敮浠樼被宸ュ叿浣跨敤銆?- 涓轰粈涔堟槸鐜板湪锛氳澶氭櫤鑳戒綋寮€鍙戣€呬粛鐒舵妸鈥滃伐鍏峰彲鐢ㄢ€濊褰撴垚鈥滆皟鐢ㄨ鍏佽鈥濄€?- *璐ㄧ枒 / 灞€闄?锛氱爺绌舵妸缁撴灉瀹氫綅涓?containment 鑰岄潪閫氱敤娌绘剤鏂规锛屼篃鏄庣‘娌℃湁涓婂崌鍒?CVE 绾т富寮犮€?
5. Agentic Abstention: Do Agents Know When to Stop Instead of Act?
- 璁烘枃鎶娾€滃純鏉冣€濆畾涔変负璺ㄧ綉椤佃喘鐗┿€佺粓绔换鍔″拰 QA 鐨勫簭鍒楀喅绛栭棶棰橈紝鑰屼笉鏄崟姝ョ殑鈥滃洖绛旇繕鏄嫆缁濃€濄€?- 瀹冨湪瓒呰繃 28,000 涓换鍔′笂璇勬祴浜?13 涓?agent system 鍜?2 涓?scaffold锛屽彂鐜扳€滃強鏃跺仠姝⑩€濆瓨鍦ㄦ槑鏄剧己鍙o紝鑰屼笖鏇村ぇ鎴栨洿寮虹殑妯″瀷鏈夋椂鍙嶈€屾洿宸€?- 瀹冭繕鎻愬嚭 CONVOLVE锛岃繖鏄竴绉?context engineering 鏂规硶锛屾嵁绉版棤闇€鏇存柊鏉冮噸灏辫兘鍦?WebShop 涓婃樉钁楁彁鍗囧強鏃跺純鏉冭〃鐜般€?- *涓轰粈涔堝€煎緱璇?锛氬畠鎶婁竴涓父琚拷瑙嗙殑澶辨晥妯″紡鐪熸鎿嶄綔鍖栦簡鈥斺€旂幆澧冨凡缁忔樉绀轰换鍔′笉鍙锛屼絾鏅鸿兘浣撲粛鐒剁户缁姩浣溿€?- *璐ㄧ枒 / 灞€闄?锛氭敼杩涚粨鏋滃叿鏈変换鍔$壒寮傛€э紝鑰屾洿濂界殑寮冩潈鑳藉姏涔熷彲鑳藉墛寮卞鏈潵鍙В浠诲姟鐨勫潥鎸佸害銆?
5) 瀹炶返涓婄殑涓嬩竴姝?- 鍦ㄦā鍨嬭緭鍑哄拰宸ュ叿鎵ц涔嬮棿鍔犲叆鏄惧紡鎺堟潈灞傦紱涓嶈鎶娾€滃伐鍏峰彲瑙佲€濆綋鎴愬厖鍒嗘潈闄愩€?- 瀵规瘡涓€娆″甫鍓綔鐢ㄧ殑璋冪敤锛岀粨鍚堝叿浣撳弬鏁般€佺敤鎴风粦瀹氥€乻cope 闄愬埗鍜?default-deny 鏈哄埗閲嶆柊鎺堟潈銆?- 璁板綍琚嫆缁濈殑璋冪敤鍜岀瓥鐣ュ垽鏂紝涓嶈鍙褰曟垚鍔熻皟鐢紱鏈潵瀹¤浼氬叧蹇冣€滄病鏈夊彂鐢熺殑璺緞鈥濄€?- 鍦ㄩ珮椋庨櫓棰嗗煙锛屽敖閲忔妸 prompt 鏋勯€犲拰鏁忔劅鏁版嵁鎷艰绉诲埌鏈嶅姟绔畬鎴愩€?- 瀵规櫤鑳戒綋鐨勮瘎娴嬩腑鍔犲叆鏈巿鏉冨皾璇?containment 涓?timely abstention锛堝強鏃跺仠姝級锛岃€屼笉鍙湅浠诲姟瀹屾垚鐜囥€?- 琛ヤ笂杞ㄨ抗绾ч仴娴嬶細宸ュ叿璋冪敤娆℃暟銆佽繃鏅氬純鏉冦€佹巿鏉冨け璐ャ€佷汉宸?override 棰戠巼锛屼互鍙婅法 episode 婕傜Щ銆?- 鍘嬫祴鏈湴鍖栦笌棰嗗煙鍖栬缃紱涓€鏃︽妸宸ュ叿璇存槑鍜屼换鍔¤澧冪炕璇戝嚭鍘伙紝鑻辫鐜涓殑鎴愬姛鍙兘浼氳繀閫熶笅婊戙€?- 浼樺厛閲囩敤鈥滄彁璁€旈獙璇佲€旀墽琛屸€濆垎绂荤殑宸ヤ綔娴侊紝灏ゅ叾鏄敮浠樸€佽褰曘€佸尰鐤楀拰鍩虹璁炬柦绫诲姩浣溿€?- 瀵规憳瑕佺骇 benchmark 鑳滃埄淇濇寔鍏嬪埗锛岀洿鍒板畠浠粡鍙椾綇鏇村箍娉涢儴缃层€佸鐜颁笌 human-process integration 鐨勬楠屻€?
*鍩轰簬鍊欓€夎鏂囨爣棰樹笌鎽樿鐢熸垚锛涙湭杩涜澶栭儴娴忚锛屼篃鏈仛鍏ㄦ枃绮捐銆?