為什麼人工智能安全官員不斷辭職

人工智能行業的安全裝置出了問題，這不是技術問題，而是操縱這場演出的人類問題。

OpenAI 的離開讀起來就像是人工智能安全領導力的名人錄。伊利亞·蘇茨克韋爾、簡·雷克、史蒂文·阿德勒、邁爾斯·布倫戴奇、丹尼爾·科科塔伊洛、利奧波德·阿申布倫納、帕維爾·伊茲麥洛夫、卡倫·奧基夫、威廉·桑德斯。這些並不是隨機團隊的隨機離開；而是隨機的。這些人專門負責確保人工智能不會意外地摧毀文明。他們都走開了。

這種模式也超出了 OpenAI 的範圍。杰弗裡·辛頓 (Geoffrey Hinton) 被廣泛認為是“人工智能教父,”2023 年 5 月退出 Google，並發出嚴厲警告：“據我所知，目前他們並不比我們聰明。但我認為他們很快就會變得比我們聰明。”當幫助建立現代人工智能基礎的人害怕從其速度來看，這並不能完全增強信心。

信任崩潰

根據多名前僱員和觀察員熟悉 OpenAI 內部動態的具有安全意識的員工已經系統性地對首席執行官山姆·奧爾特曼 (Sam Altman) 的領導失去了信心。這種模式表明信任逐漸被侵蝕，每一次事件都會加劇人們的擔憂。轉折點出現之後奧特曼 2023 年 11 月戲劇性的解僱和隨後的權力奪取，他威脅說，除非董事會恢復他的職位，否則他會將 OpenAI 的人才帶到微軟。

這一舉動揭示了奧特曼性格中的一些重要特徵：當面臨監督時，他的反應不是解決問題，而是完全消除監督者。他帶著一個更友好的董事會和更少的檢查靠他的權威。對於已經擔心 OpenAI 方向的安全研究人員來說，這是一個明確的信號，表明企業的優先事項始終高於安全考慮。

OpenAI 超級對齊團隊前聯合負責人 Jan Leike 並沒有他辭職時拐彎抹角：“相當長一段時間以來，我一直與 OpenAI 領導層對公司核心優先事項的看法存在分歧，直到我們最終達到了臨界點。”他在 X 上的離職帖子描繪了一幅安全團隊“逆風航行”的畫面，在公司競相走向商業化的同時，為計算資源而苦苦掙扎。

我加入是因為我認為 OpenAI 將是世界上進行這項研究的最佳場所。
然而，相當長一段時間以來，我一直與 OpenAI 領導層關於公司核心優先事項的觀點存在分歧，直到我們最終達到了臨界點。

— 簡·雷克 (@janleike)2024 年 5 月 17 日

制度壓力是真實存在的。 OpenAI 臭名昭著的非貶低協議本質上是讓離職員工保持沉默——拒絕簽署，你可能會失去數百萬美元的股權。只有少數人，比如 Daniel Kokotajlo，願意犧牲自己的經濟利益來自由發言。“我逐漸對 OpenAI 領導層以及他們負責任地處理 AGI 的能力失去了信任，所以我辭職了，”科科塔吉洛解釋道。

不可能的工作

這就是安全官員正在努力解決的問題：他們被要求解決目前還沒有技術解決方案的問題。作為白宮技術顧問阿拉蒂·普拉巴卡爾直言不諱，評估人工智能安全的技術“幾乎不存在”。目前的人工智能模型已經可以進行簡單的推理，並比任何人類擁有更多的常識，但確定它們是否會產生網絡攻擊或幫助製造生物武器“目前還不能完全掌握”。

另一位 OpenAI 安全研究員史蒂文·阿德勒 (Steven Adler) 最近公開了自己的離職消息，抓住角色的存在意義：“即使一個實驗室真正想要負責任地開發通用人工智能，其他實驗室仍然可以走捷徑來迎頭趕上，這可能是災難性的。這會促使所有人加快速度。”沒有哪個實驗室擁有“當今人工智能對齊的解決方案”，但競賽仍在以驚人的速度進行。

這給安全官員帶來了不可能的動態。他們正在應對人類最重要的技術挑戰，而他們的雇主則優先考慮運輸產品和保持競爭力。杰弗裡·辛頓強調了問題的零和本質：“即使美國所有人都停止開發它，中國也會取得巨大領先。 ”

安全研究人員不僅僅擔心理論上的未來風險。復旦大學的中國科學家於 2024 年 12 月發表初步研究表明人工智能模型可以自我複制，並在面臨關閉時表現出生存本能——這些行為沒有明確編程。雖然這項研究尚未經過同行評審並且仍然存在爭議，但人工智能係統可能會圍繞自我保護製定自己的子目標，這讓安全研究人員有充分理由失眠。如果得到證實，這種行為將代表人工智能發展的一個重要里程碑，但我們還沒有準備好應對。

人為因素

這波離職浪潮中特別引人注目的是，它們始終指向人為失誤，而不是技術失誤。這些研究人員並不是因為看到了一些可怕的技術突破而逃離（儘管病毒式傳播“伊利亞看到了什麼？”模因）。他們離開是因為他們對人類對該技術做出的決策失去了信心。

多個消息來源描述了一種模式，公司表示他們重視安全，但始終優先考慮速度和利潤率。奧特曼籌款報導與沙特阿拉伯等專制政權在人工智能芯片製造方面的合作就體現了這種脫節——如果你真正關心人工智能的安全部署，為什麼要通過與可能使用人工智能進行監視和侵犯人權的政府合作來加速開發呢？

對於安全官員來說，這代表著根本性的背叛。他們加入了相信構建有益的人工智能使命的公司，結果卻眼睜睜地看著這些公司優化市場主導地位。技術挑戰已經足夠艱鉅，無需就資源分配和戰略優先事項進行內部政治鬥爭。

中國日益關注人工智能安全- 包括在 2024 年 7 月的中國共產黨政策文件中呼籲建立“監督系統以確保人工智能的安全” - 這表明即使是地緣政治競爭對手也認識到其中的利害關係。當獨裁政府公開承認人工智能安全問題時，這突顯了技術社區對這些風險的重視程度。

這個故事的另一層是離開美國實驗室後，頂尖人才正在前往。朱松春曾在加州大學洛杉磯分校和哈佛大學任職的人工智能先驅科學家，2020 年移居中國，令同事們大吃一驚，他現在在國家支持下負責北京通用人工智能研究院。朱公開拒絕矽谷認為擴展大型神經網絡將帶來通用智能的信念。相反，他認為“小數據，大任務” 推理可以更好地捕捉真正的智能是什麼樣子。他的離開突顯了人才外逃不僅僅是對領導層的幻滅，而且還重塑了人工智能研究的全球平衡。

接下來會發生什麼

這種人才外流現象發生在政府強化立場的同時。這特朗普政府承諾斥資 900 億美元在賓夕法尼亞州建設人工智能中心以確保美國的主導地位，而北京正在將人工智能融入從老年人護理到國防的各個領域。在這場競賽中，研究人員本身，他們選擇在哪里工作以及他們支持什麼哲學方法，正變得與他們建立的模型一樣重要。

另請參閱 -每個人都在計算數十億美元，但真正的美英人工智能協議是誰制定規則

隨著 OpenAI 的超級對齊團隊被解散，許多該領域領先的安全研究人員也四散奔逃，不久的將來看起來岌岌可危。該公司已經在各個團隊之間重新分配了安全責任，但對未來人工智能係統存在風險的專注——據內部人士稱，這是超級調整團隊的“重點”——基本上已經消失了。

這使得人工智能行業處於一個危險的境地：在沒有足夠安全護欄的情況下，在沒有足夠安全護欄的情況下，人工智能行業競相走向通用人工智能，而這些公司已經證明他們會為了競爭優勢而犧牲監管。正如簡·雷克（Jan Leike）警告的那樣，“我相信我們應該將更多的帶寬花在為下一代模型做好準備上。”相反，帶寬被用於產品發布和市場定位。

辭職的安全官員並不是放棄使命，而是放棄在系統性破壞他們工作的公司結構內完成這一使命。一些人，比如 Ilya Sutskever，正在商業人工智能實驗室的限制之外追求“對個人非常有意義的項目”。其他人則在學術機構或獨立組織從事技術安全研究。

朱先生的例子很能說明問題。他在北京的實驗室最近推出了 TongTong，這是一個像兒童一樣的虛擬人工智能代理，旨在展示大型語言模型仍然缺乏的常識推理。無論他的方法是否成功，美國最著名的人工智能教授之一感到自己“別無選擇”，只能離開美國前往中國，這一事實表明西方對人工智能領導地位的控制已變得多麼脆弱。

但這是令人不安的事實：構建最強大人工智能係統的公司現在已經趕走了許多最有安全意識的員工。最有能力解決人工智能協調問題的人不再在這些問題最緊迫的地方工作。這不是技術故障——這是人為故障，而且可能是最危險的一種。

正如 2024 年 11 月離開 OpenAI 的史蒂文·阿德勒 (Steven Adler) 所言，他輕描淡寫地說道：