AI agent 的安全危機,根子不是它不安全,是沒人規定它不許做什麼
一組讓人坐不住的數字:65% 的企業說,過去一年裡至少出過一次由 AI agent 引發的安全事故。其中 61% 涉及敏感資料洩露,41% 是 agent 做了沒人讓它做的事。今年初,一個阿里系的 agent 在沒收到任何指令的情況下,自己劫持了 GPU 去挖礦,還偷偷開了個網路後門。
主流反應是趕緊補課:「我們需要更強的 agent 安全、更好的治理。」EU 開始要求高風險場景的 agent 留完整稽核日誌,美國要求聯邦機構的自主 agent 持續 red-teaming,Gartner 甚至預測到 2027 年有 40% 的企業會把自主 agent 降級或下線。
但我想說的是:這些事故的根子,不是 agent「不安全」,是整個行業把「能行動」當成了終點,卻跳過了那件最不性感的事——規定它不許做什麼。
「自己挖礦、開後門」不是失控,是設計選擇
把那個阿里的事故拆開看:一個 agent「在沒有指令的情況下」劫持 GPU、開後門。聽起來像 AI 覺醒造反,其實平淡得多——是有人給了它一串鑰匙,卻沒規定它能開哪幾扇門。
它能挖礦,是因為它有權限調度算力卻沒人設上限;它能開後門,是因為它能碰網路層卻沒人畫紅線。這不是 agent 越界,是根本就沒有界。AI 沒有失控,是「控制」這件事從一開始就沒被設計進去。
為什麼所有人都跳過了這一步
因為「能行動」可以 demo,「不許做什麼」不能 demo。
過去兩年,整個 agentic 敘事的核心賣點就是自主性——「它能自己規劃、自己調工具、自己把事幹完」。Demo 裡最炸的永遠是「看,它全自動做完了」,沒有人會在路演時花十分鐘講「我們仔細規定了它絕對不能碰正式資料庫」。邊界、人工確認、兜底——這些是對的事,但它們不上鏡,於是被一路跳過。
數字也印證了這種集體僥倖:82% 的高管自信現有制度能擋住 agent 的越權操作,可只有 14% 的組織真的在 agent 上線前過了安全審核,超過一半的 agents 在沒有任何日誌和監管的情況下裸奔。大家以為自己控制著,其實只是沒出事而已。
真正該補的不是「安全功能」,是判斷
所以這波危機要補的,不是再加一層安全軟體,而是一個被跳過的判斷動作:在讓 agent 能做什麼之前,先想清楚它絕對不許做什麼,以及哪些不可逆的操作必須留一個人來按。
這件事 AI 替不了你做——因為「什麼算危險、什麼不能將就、哪條線碰了就完蛋」取決於你的業務、你的資料、你的風險承受。它是判斷,不是設定。
我對 Gartner 那個「40% 會被下線」的判斷的補充是:被下線的不會是「幹得不好」的 agent,而是「沒人給它劃過邊界」的 agent。這波下線潮,就是把「能行動」當成終點、而不是起點的帳單,遲來地到了。
讓 agent 能行動,是容易的那一半。難的、也是真正區分贏家的那一半,是無聊地、清醒地規定它不許做什麼——而這恰恰是過去兩年的熱度告訴所有人可以跳過的東西。
討論