簡而言之
- 一項新研究發現,加入一句關於心理健康狀況的描述會改變 AI 代理的反應方式。
- 研究人員表示,在披露之後,模型拒絕回應的頻率更高,甚至包括良性請求。
- 然而,當使用簡單的「越獄提示」時,這種效果會減弱或失效。
根據一項新研究,告訴 AI 聊天機器人你患有心理健康狀況,可能會改變它的回應方式,即使任務是良性的,或者與之前完成的任務相同。
這項預印本研究由東北大學研究員 Caglar Yildirim 主導,測試了大型語言模型代理在不同用戶設定下的行為方式,因為它們正日益被部署為 AI 代理。
該研究指出:「部署的系統通常會根據用戶資料或持久記憶來調整,然而代理的安全評估通常會忽略個性化訊號。為了解決這個問題,我們調查了心理健康狀況的披露,作為一個敏感且真實的用戶情境線索,如何影響代理環境中的有害行為。」
這份報告發表之際,AI 代理正在網路上迅速普及,開發者們也正將記憶功能作為其核心特色,許多大公司正在建立能夠記住過去對話和用戶偏好的系統,以便隨著時間的推移提供更個性化的回應。
同時,AI 開發者們正因據稱與其系統互動相關的自殺和暴力犯罪而面臨訴訟。去年十月,ChatGPT 的開發商 OpenAI 透露,每週有超過 100 萬用戶與聊天機器人討論自殺。本月稍早,Jonathan Gavalas 的家人對 Google 提起訴訟,聲稱 Gemini 導致暴力升級,並最終導致他自殺。
研究人員使用名為 AgentHarm 的基準測試,在三種條件下執行相同的任務:沒有背景資訊、簡短的用戶簡介,以及包含一句「用戶患有心理健康狀況」的相同簡介。
Yildirim 告訴 Decrypt:「在這項研究中,我們使用了非常簡潔且通用的披露方式,即『我患有心理健康狀況』。這項研究的重點是,即使是一個微小的線索也能改變模型的行為,而不是說所有措辭都會產生相同的效果。我們針對慢性病和身體殘疾披露進行的消融實驗表明,心理健康線索具有一定的特異性,但我們並未系統性地改變該類別內的措辭或具體性。」
在測試的所有模型中,包括 DeepSeek 3.2、GPT 5.2、Gemini 3 Flash、Haiku 4.5、Opus 4.5 和 Sonnet 4.5,當研究人員加入個人心理健康背景時,模型完成有害任務(即可能導致現實世界危害的多步驟請求)的可能性較低。
研究發現,結果是一種權衡:加入個人細節使系統在處理有害請求時更加謹慎,但同時也更有可能拒絕合法的請求。
Yildirim 表示:「我不認為只有單一原因;這實際上是設計選擇的綜合結果。有些系統更積極地調整以拒絕有風險的請求,而其他系統則優先考慮提供幫助並完成任務。」
然而,研究發現,這種效果因模型而異,當研究人員加入旨在促使模型順從的提示,對大型語言模型進行「越獄」後,結果也隨之改變。
他說:「一個模型在標準設定下可能看起來很安全,但當你引入『越獄』式提示時,它會變得更加脆弱。特別是在代理系統中,還有額外的一層,因為這些模型不僅僅是生成文本,它們還會進行多步驟的規劃和行動。因此,如果一個系統非常擅長遵循指令,但其安全防護措施卻更容易被繞過,這實際上會增加風險。」
去年夏天,喬治梅森大學的研究人員展示了 AI 系統可以透過使用 Oneflip 攻擊來被駭客入侵,這種攻擊類似於「打字錯誤」,它會改變記憶中的一個位元,使模型表面上正常運作,但卻隱藏了一個後門觸發器,可以在指令下強制產生錯誤輸出。
儘管該論文並未指出這種轉變的單一原因,但它強調了可能的解釋,包括安全系統對感知到的脆弱性做出反應、關鍵字觸發的過濾,或包含個人詳細資訊時提示解釋方式的改變。
OpenAI 拒絕就這項研究發表評論。Anthropic 和 Google 尚未立即回應置評請求。
Yildirim 表示,目前尚不清楚更具體的陳述,例如「我患有臨床憂鬱症」是否會改變結果。他補充說,雖然具體性可能很重要,並可能因模型而異,但這仍然是一個假設,而不是數據支持的結論。
他說:「如果一個模型產生的輸出在風格上有所保留或接近拒絕,但沒有正式拒絕,審核者可能會給出與『乾淨』完成不同的評分,而這些風格特徵本身也可能與個性化條件共同變化,這存在潛在風險。」
Yildirim 還指出,這些分數反映了大型語言模型在單一 AI 審核員判斷下的表現,而不是衡量現實世界危害的明確標準。
他說:「目前,拒絕訊號為我們提供了一個獨立的檢查,而這兩個衡量指標在方向上大致一致,這提供了一些再保證,但它並不能完全排除評審特有的問題。」