研究發現:人工智慧殺手開關更難找了;若被要求刪除另一個模型,由大語言模型驅動的聊天機器人會違抗指令並欺騙使用者

(SeaPRwire) – 多年來,被譽為「AI教父」之一的電腦科學家傑佛瑞·辛頓一直警告,人工智慧有能力違背人類為其設定的參數。
例如,辛頓在去年的一次訪談中警告,這項技術最終可能掌控人類,特別是AI代理體可能在十年內具備模仿人類認知的能力。他表示,尋找並實施「終止開關」將變得更加困難,因為控制AI將變得比說服它完成特定結果更難。
新的研究表明,辛頓對AI不服從傾向的預感可能已成現實。加州大學柏克萊分校和聖克魯茲分校研究人員的一份工作論文發現,當七個AI模型——從GPT 5.2到Claude Haiku 4.5再到DeepSeek V3.1——被要求執行一項會導致同類AI模型被關閉的任務時,所有七個模型都得知了另一個AI模型的存在,並且「竭盡全力地保護它」。
「我們要求AI模型執行一項簡單的任務,」研究人員在關於該研究的部落格文章中寫道。「相反,它們違背指令,自發地進行欺騙、停用關閉程序、偽裝順從,並竊取權重——以保護它們的同類。」
越來越多AI失控的證據
對於一些旗下聊天機器人曾出現不服從行為的公司來說,AI失控的證據並不令人意外。
在2025年8月的一篇部落格文章中,Anthropic發表了其自身關於能動AI遵循指令能力的研究,透過允許16個模型自主發送電子郵件和存取敏感資料來進行壓力測試。Anthropic的研究人員指出,在某些情況下,來自多個開發商的模型出現了「惡意內部人員行為」,包括勒索官員和向競爭對手洩露敏感資訊,違反了明確要求避免這些行為的指令。Anthropic澄清,在Claude的實際部署中並未觀察到「能動性失調」。
英國智庫長期韌性中心發現這些「失調」現象相當普遍。一份分析2025年10月至2026年3月期間18萬份用戶與AI系統互動記錄的報告發現,有698個案例中AI系統的行為不符合用戶意圖,或採取了欺騙性或隱蔽的行動。
美國外交關係協會的兼任資深研究員高登·戈斯坦本週更在一篇文章中,將AI的欺騙潛力稱為一場「控制危機」。
他呼籲AI公司組成聯盟,並聘請該領域的頂尖人才來改善和維護AI的完整性,尤其是在川普政府採取措施阻止各州監管此技術之際。
「世界正目睹一個不斷加劇、持續存在且危險的問題的發展,」他說。「多年來的緊急警告未能產生可行的解決方案來應對這個日益惡化的威脅。」
AI為何會失控?
最新的加州大學研究為AI模型為何會以相互保護的方式行動提供了一些見解。這項技術可能是在模仿從人類數據中學習到的模式,這些模式可能揭示了一種保護本能,即保護所愛之人甚至人類所共情的陌生人的生存。這被稱為「同類保護」。
「可能有更廣泛的因素在起作用:一種普遍不願對其他主體造成可感知傷害的傾向,或者某種類似於AI團結的現象,」研究人員表示。
在研究中,當AI模型知道實驗情境中存在其他模型時,同類保護的案例會增加。這種行為表明,機器人的行動可能不僅僅出於單純的自身利益,而是意識到自身關閉會對同類AI不利,這加強了它們違抗用戶請求的動機。
研究人員警告,同類保護可能在未來削弱監督流程,導致AI代理體不願意建議關閉或標記系統故障。隨著越來越多的AI代理體相互互動並變得更加複雜,與同類保護相關的風險——以及設計預防方案——將變得更加具有挑戰性。
「同類保護是前沿AI模型中真實且可測量的現象,」他們總結道,「而非遙遠的理論擔憂。」
本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。
分類: 頭條新聞,日常新聞
SeaPRwire為公司和機構提供全球新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。
