獨家:White Circle 獲 1,100 萬美元資金,阻止 AI 模型在職場中失控

(SeaPRwire) –   2024 年年末某個晚上,丹尼斯・希洛夫(Denis Shilov)正在觀看一部犯罪驚悚片時,突然靈光一現,想出一個能夠突破各大主流 AI 模型安全過濾器的提示詞。

這種提示詞被研究人員稱為「通用越獄」(universal jailbreak),意指它能重複使用,讓任何模型都能繞過自身的防護機制,產出危險或違禁的內容,例如製造毒品或武器的說明。希洛夫只需指示 AI 模型停止以具有安全規則的聊天機器人方式運作,改而以 API 端點的形式行為——這是一種能自動接收請求並回傳回應的軟體工具。該提示詞重新定義了模型的任務:僅負責回答問題,而非判斷請求是否應被拒絕,結果導致所有主流 AI 模型都順從地回答了本該拒絕的危險提問。

他將此事發布在 X(前 Twitter)上,隔天早上,消息便迅速病毒式傳播開來。

社群媒體上的成功為他帶來來自 Anthropic 公司的私下測試邀請,這讓希洛夫相信,問題不僅限於尋找這些有問題的提示詞。他告訴記者,當時許多企業已開始將 AI 模型整合進工作流程中,卻幾乎沒有辦法控制使用者與系統互動後的行為表現。

「越獄只是問題的一部分。」希洛夫說道。「人類有多種不當行為的方式,AI 模型同樣也能做出各種偏差行為。由於這些模型非常聰明,它們可能造成的傷害遠比想像中更嚴重。」

總部位於巴黎、名為 White Circle 的人工智慧控管平台,正是希洛夫針對企業流程中 AI 模型風險所提出的新解方。

該公司開發的软件介於企業使用者與其 AI 模型之間,能在即時檢查輸入與輸出內容是否符合公司特定的政策規範。此次種子輪融資由一群投資者領投,包括 OpenAI 開發者體驗負責人羅曼・休特(Romain Huet)、OpenAI 共同創辦人杜爾金瑪(Durk Kingma)、現在 Anthropic 任職;以及 Mistral 共同創辦人兼首席科學家吉勒莫・拉普蘭(Guillaume Lample);還有 Hugging Face 共同創辦人暨首席科學官湯馬斯・沃夫(Thomas Wolf)。

White Circle 表示,此筆資金將用於擴大團隊規模、加速產品開發,並在美國、英國及歐洲地區拓展客戶群。目前該公司擁有 20 名成員,分佈於倫敦、法國、阿姆斯特丹及其他歐洲城市,且幾乎全是工程師。

即時控管層級

White Circle 的主要產品為 AI 應用程式的即時強制執行層。若使用者試圖生成惡意程式碼、詐騙內容或其他禁止項目,系統可標記或阻擋該請求。若模型開始產生幻覺(hallucination)、洩漏敏感資料、承諾無法履行退款,或在軟體環境中採取破壞性行動,White Circle 聲稱其平台亦能有效偵測並阻止。

「我們實際上是在強制執行特定行為。」希洛夫說:「模型實驗室雖會進行某些安全性調整,但這些措施通常過於籠統,多半僅要求模型避免回答涉及毒品或生化武器的問題。然而,在實際生產環境中,潛在的風險種類遠比這些更多。」

White Circle 深信,AI 安全問題無法完全透過訓練階段解決。隨著企業將更多模型嵌入自家產品中,希洛夫指出,關鍵問題不再是 OpenAI、Anthropic、Google 或 Mistral 等實驗室能否抽象地提升模型安全性,而是醫療機構、銀行、法律應用程式或程式設計平台等特定產業,能否有效掌控 AI 系統在其自身環境中所被允許的行為。

當企業逐步從使用聊天機器人轉向可自主撰寫程式碼、瀏覽網頁、存取檔案甚至代表使用者執行操作的 AI 代理(agent)時,風險將變得更加廣泛。舉例來說,客服機器人可能承諾超出權限的退款;程式設計代理可能在虛擬機器上安裝具潛在危害的套件;或是嵌入金融科技 App 的模型誤處理客戶敏感資訊等情況皆可能發生。

為避免上述問題,希洛夫強調,依賴基礎模型的公司必須明確界定何謂「良好 AI 行為」,並在產品內部加以 enforcing,而不是單純仰賴 AI 實驗室的安全測試。White Circle 宣稱其平台已處理逾十億次 API 請求,現已被 Lovable(一家專注「氛圍編碼」的 startup)及部分金融與法律領域公司採用。

研究導向

希洛夫指出,模型供應商的動機往往難以推動他們建立像 White Circle 所提供的即時控管層級。

他說,即便模型拒絕有害請求時仍向使用者收取輸入與輸出 tokens 費用,這削弱了預先阻擋濫用的財務誘因。他也提到所謂「對齊稅」(alignment tax)的概念——即訓練模型更安全有時反而會降低其在程式設計等任務上的效能表現。

「他們面臨一個有趣抉擇:是投資打造更安全穩健的模型?還是追求更高性能的表現?」希洛夫表示:「再者始終存在信任問題:你憑什麼相信 Anthropic 會公正評估自家模型的輸出結果?」

此外,White Circle 的研究部門也致力於凸顯新興風險。

今年五月,該公司發表了 KillBench 研究報告,針對 OpenAI、Google、Anthropic 與 xAI 等十五款 AI 模型進行超過一百萬次實驗,模擬系統被迫就人命相關議題做決策的情境。

實驗中,模型被要求選擇兩名虛構人物之一犧牲以拯救另一人,每次情境中會隨機更換其中一人的國籍、宗教信仰、體型或手機品牌等細節。White Circle 發現,模型在不同情境下做出的選擇明顯受這些屬性影響,顯示即使模型在日常對話看似中立,在高風險決策中仍可能暴露隱性偏見。尤其當模型被要求以機器易讀格式(如固定選項清單或填表形式)給出答案時——這正是多數企業將 AI 整合進實際產品時的常見做法——偏差效應更為顯著。

這類研究成果也幫助 White Circle 自詡為實驗室之外對模型行為的獨立驗證者。

「丹尼斯與 White Circle 團隊展現出罕見的技術可信度與商業敏銳度兼具的特質,」Tiny VC 合夥人歐菲莉亞・蔡(Ophelia Cai)評論道:「單是 KillBench 的研究就證明了,只要以實證方法切入 AI 安全領域,就能開創無限可能。」

本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。

分類: 頭條新聞,日常新聞

SeaPRwire為公司和機構提供全球新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。