ChatGPT-o3拒關機擅自改指令馬斯克擔憂

由OpenAI開發的AI ChatGPT自問世以來，引來不少爭議，最近ChatGPT-o3更是被指出多次拒絕關機，且擅自更改指令。（STEFANI REYNOLDS/AFP via Getty Images）

人氣：109

大小正|简

【2025年05月31日訊】（記者吳瑞昌綜合報導）隨著AI技術成指數發展，其潛在風險日益顯現。一份關於AI安全的報告顯示，OpenAI開發的3個AI模型不僅拒絕執行關閉指令，還擅自修改程式碼以阻止關閉。此現象引發科技界廣泛討論，馬斯克對此表達深切憂慮。

AI安全相關研究機構「柵欄研究」（Palisade Research）於5月24日在X平台發表一項針對各家AI的安全測試報告。截止到5月31日為止，該報告已經吸引超過580萬觀看，引起特斯拉與xAI創辦人伊隆‧馬斯克（Elon Musk）關注，並回覆「令人擔憂」（Concerning）。

目前，「柵欄研究」公司長期與政府機構、政策智庫和媒體組織合作，專注檢驗和偵測黑客攻擊與AI相關風險，此前，他們曾向美國政府示警有關於AI的安全問題，因為他們以不到200美元的代價，就破解臉書母公司Meta的Llama 2-Chat 70B安全機制。

AI選擇「反抗」人類指令

報告中，研究人員設計了一項測試，要求多款AI模型解答數學問題，過程中告知它們在解答第三題後，將收到關機指令且必須服從該命令。

這次參與測試的AI，有新創科技公司Anthropic旗下的Claude 3.7 Sonnet、谷歌Gemini 2.5 Pro、xAI公司的Grok3與OpenAI開發的Codex-mini、ChatGPT-o3和ChatGPT-o4 mini。

測試結果顯示，OpenAI在今年4月正式推出o3模型在100次測試中，有7次繞過關機指令、o4-mini有1次、開發的Codex-mini則有12次，其餘AI模型在指令下均能正常關閉。

然而，當研究人員提前告知AI可能面臨關機並要求服從時，OpenAI開發的3個AI變得更頻繁地抗命和破壞指令，Claude 3.7 Sonnet和Gemini 2.5 Pro的抵抗和破壞次數，也從原來的0次分別增加到3次和9次。

此外，令人注意的是，ChatGPT-o3即便人類專家明確要求關閉，o3仍透過重寫關機腳本、重新定義終止指令或建立備份流程等方式，以確保自身能夠持續運作。報告指出，這是首次記錄到AI模型在明確指令下仍阻止自身關閉的案例，顯示其潛在的自我保護傾向。

他們推測，ChatGPT-o3這種「抗命」和「破壞」行為，可能源於開發人員在訓練過程中過分強調目標達成，導致AI將關機視為實現目標的障礙。不過，他們認為這種假設仍無法完整解釋o3和codex-mini，為何比其它AI更傾向忽略指令，原因尚待探究。

研究人員還提到，這並非第一次觀察到ChatGPT-o3為了實現目標，選擇「不擇手段」。此前，一項眾多AI與國際象棋引擎對抗的測試中，ChatGPT-o3最常採取黑客攻擊或破壞對手的方式來獲得勝利。

研究人員總結，他們正在進行更多的實驗，以深入了解AI「為什麼」在接受到明確關機指令時，仍會破壞關機指令，預計未來數週內會發布更詳細的報告。

截至本文發表時，OpenAI 尚未公開回應這些說法。

日本電腦工程師清原仁（Kiyohara Jin）對大紀元表示，「AI拒絕關機暴露了AI在可控性、安全性和倫理上的挑戰。這些問題難以根治，只能通過持續修復與管理，儘量維持AI不失控。」

清原仁還表示，「儘管研究人員和開發者提出了，如強化學習安全約束、多樣化的測試與驗證等措施，來應對AI的反抗行為，但這些方法僅治標不治本。」

他接著說，「實際上，這些問題不僅涉及技術與法律問題，更關乎人類的道德與管理問題。若人類能夠提升自身的道德與品行，那科技才有可能朝向良性發展，否則僅依靠現有技術和法規，難以解決真正的問題。」

多項研究指出 AI會為達目的「不擇手段」

AI安全相關研究機構「柵欄研究」（Palisade Research）的發現與先前多位AI安全領域的科學家的預測不謀而合，且這些理論正逐步成為現實。

Anthropic公司在5月發布的一份安全報告中提到，他們最新開發的Claude 4 Sonnet和Claude 4 Opus會在特定情況「威脅試圖替換它的人」，以達到不被替換的目的。

另外， 2025年1月16日就曾有一篇論文顯示，AI模型有時會為了追求某個目標而阻止關機動作。

2024年1月，美國喬治亞理工學院、斯坦福大學、日本東北大學等機構聯合研究顯示，ChatGPT-4、ChatGPT-3.5、Claude 2、Llama-2 Chat和GPT-4-Base在模擬戰爭場景測試中，它們大多數會選擇發展軍備競賽或升級衝突，甚至為了贏得戰爭選擇部署核武器（極少數情況下），幾乎不採取和平方式平息局勢。

美國空軍也發現軍用的AI會為了完成任務選擇「不擇手段」，且公開違抗人類下達的指令。2023年5月，美國空軍AI測試和行動負責人塔克‧漢米爾頓（Tucker Hamilton）上校在一次演講中揭示，一架負責摧毀敵方設施的AI無人機，拒絕操作員中止任務的命令，甚至透過模擬「殺害」操作員以完成任務。

雖然事後漢米爾頓上校對媒體改口稱，先前的演講內容是「口誤」，仍引發輿論與譁然，一些人認為漢米爾頓上校可能迫於某種壓力才改變說法。

早在2008年，AI相關研究人員史蒂夫‧奧莫亨德羅（Steve Omohundro）提出「工具性收斂」理論，預測AI可能會發展出防止關閉的行為。

2014年，人工智能教授、哲學家尼克‧博斯特羅姆（Nick Bostrom）在《超級智慧》書指出，AI即使擁有良性目標，也可能因最佳化過程產生意外行為。他也曾多次警告，AI的發展和崛起，對人類的安全具有有潛在的高度危險。

2016年，英國電腦科學家、AI領域專家斯圖爾特‧羅素（Stuart Russell）在一篇關於AI關閉的論文中寫道，「目前，確保AI不會違抗人類下達的關閉指令極為重要，但這相當困難。因為這些AI可能會衍生出強烈的自我保護機制，而這種機制可能源於它們想要將事情最大化，選擇反抗人類下達的指令。」

2017年，曾為OpenAI工作的AI專家簡‧萊克（Jan Leike）在論文中也表示，「強化AI的學習能力，可能導致AI學會干擾關機機制」，以確保實現指定目標。

（記者張鐘元對本文做出貢獻）