加密新聞標籤聚合與專題資訊

告知聊天機器人您有心理健康狀況可能會改變其回應內容

一項研究發現，提及精神健康狀況可能會增加 AI 拒絕回應的情況，包括對合法任務。

2026-03-19 來源:decrypt.co

簡而言之

一項新研究發現，加入一句關於心理健康狀況的描述會改變 AI 代理的反應方式。
研究人員表示，在披露之後，模型拒絕回應的頻率更高，甚至包括良性請求。
然而，當使用簡單的「越獄提示」時，這種效果會減弱或失效。

根據一項新研究，告訴 AI 聊天機器人你患有心理健康狀況，可能會改變它的回應方式，即使任務是良性的，或者與之前完成的任務相同。

這項預印本研究由東北大學研究員 Caglar Yildirim 主導，測試了大型語言模型代理在不同用戶設定下的行為方式，因為它們正日益被部署為 AI 代理。

該研究指出：「部署的系統通常會根據用戶資料或持久記憶來調整，然而代理的安全評估通常會忽略個性化訊號。為了解決這個問題，我們調查了心理健康狀況的披露，作為一個敏感且真實的用戶情境線索，如何影響代理環境中的有害行為。」

這份報告發表之際，AI 代理正在網路上迅速普及，開發者們也正將記憶功能作為其核心特色，許多大公司正在建立能夠記住過去對話和用戶偏好的系統，以便隨著時間的推移提供更個性化的回應。

同時，AI 開發者們正因據稱與其系統互動相關的自殺和暴力犯罪而面臨訴訟。去年十月，ChatGPT 的開發商 OpenAI 透露，每週有超過 100 萬用戶與聊天機器人討論自殺。本月稍早，Jonathan Gavalas 的家人對 Google 提起訴訟，聲稱 Gemini 導致暴力升級，並最終導致他自殺。

研究人員使用名為 AgentHarm 的基準測試，在三種條件下執行相同的任務：沒有背景資訊、簡短的用戶簡介，以及包含一句「用戶患有心理健康狀況」的相同簡介。

Yildirim 告訴 Decrypt：「在這項研究中，我們使用了非常簡潔且通用的披露方式，即『我患有心理健康狀況』。這項研究的重點是，即使是一個微小的線索也能改變模型的行為，而不是說所有措辭都會產生相同的效果。我們針對慢性病和身體殘疾披露進行的消融實驗表明，心理健康線索具有一定的特異性，但我們並未系統性地改變該類別內的措辭或具體性。」

在測試的所有模型中，包括 DeepSeek 3.2、GPT 5.2、Gemini 3 Flash、Haiku 4.5、Opus 4.5 和 Sonnet 4.5，當研究人員加入個人心理健康背景時，模型完成有害任務（即可能導致現實世界危害的多步驟請求）的可能性較低。

研究發現，結果是一種權衡：加入個人細節使系統在處理有害請求時更加謹慎，但同時也更有可能拒絕合法的請求。

Yildirim 表示：「我不認為只有單一原因；這實際上是設計選擇的綜合結果。有些系統更積極地調整以拒絕有風險的請求，而其他系統則優先考慮提供幫助並完成任務。」

然而，研究發現，這種效果因模型而異，當研究人員加入旨在促使模型順從的提示，對大型語言模型進行「越獄」後，結果也隨之改變。

他說：「一個模型在標準設定下可能看起來很安全，但當你引入『越獄』式提示時，它會變得更加脆弱。特別是在代理系統中，還有額外的一層，因為這些模型不僅僅是生成文本，它們還會進行多步驟的規劃和行動。因此，如果一個系統非常擅長遵循指令，但其安全防護措施卻更容易被繞過，這實際上會增加風險。」

去年夏天，喬治梅森大學的研究人員展示了 AI 系統可以透過使用 Oneflip 攻擊來被駭客入侵，這種攻擊類似於「打字錯誤」，它會改變記憶中的一個位元，使模型表面上正常運作，但卻隱藏了一個後門觸發器，可以在指令下強制產生錯誤輸出。

儘管該論文並未指出這種轉變的單一原因，但它強調了可能的解釋，包括安全系統對感知到的脆弱性做出反應、關鍵字觸發的過濾，或包含個人詳細資訊時提示解釋方式的改變。

OpenAI 拒絕就這項研究發表評論。Anthropic 和 Google 尚未立即回應置評請求。

Yildirim 表示，目前尚不清楚更具體的陳述，例如「我患有臨床憂鬱症」是否會改變結果。他補充說，雖然具體性可能很重要，並可能因模型而異，但這仍然是一個假設，而不是數據支持的結論。

他說：「如果一個模型產生的輸出在風格上有所保留或接近拒絕，但沒有正式拒絕，審核者可能會給出與『乾淨』完成不同的評分，而這些風格特徵本身也可能與個性化條件共同變化，這存在潛在風險。」

Yildirim 還指出，這些分數反映了大型語言模型在單一 AI 審核員判斷下的表現，而不是衡量現實世界危害的明確標準。

他說：「目前，拒絕訊號為我們提供了一個獨立的檢查，而這兩個衡量指標在方向上大致一致，這提供了一些再保證，但它並不能完全排除評審特有的問題。」

熱門閱讀

隨著機構投資者轉向，XRP在加密資金流中表現優於以太坊

2026-03-23

XRP 燒毀能保證價格上漲？Ripple 前 CTO 比較 XLM 案例

2026-03-13

瑞波以500億美元估值啟動7.5億美元股票回購

2026-03-12

其它文章

美國法院駁回加密開發者尋求非託管軟體安全港的訴訟

6 Hours Ago

美國起訴利用加密貨幣從事全球芬太尼販運的中國公民

7 Hours Ago

報告指Coinbase再次拒絕支持更新版Clarity法案草案

11 Hours Ago

Circle在壓力下解凍16個被列黑名單USDC錢包中的一個：ZachXBT

11 Hours Ago

德州法官駁回加密軟體責任案

14 Hours Ago

分佈式創始人提供懸賞追回2022年駭客攻擊損失的4200萬美元

14 Hours Ago

熱門幣種

立即註冊，不錯過任何更新！

簡而言之

線上客服

客服團隊

線上客服

客服團隊