(來源:MIT Technology Review)
近年來,科技公司不斷推出更先進的 AI 模型,而監(jiān)管機構(gòu)屢屢措手不及。可以預見,實驗室即將發(fā)布的新模型將帶來新的監(jiān)管挑戰(zhàn)。這只是時間問題。例如,OpenAI 可能在幾周內(nèi)發(fā)布 ChatGPT-5,這款模型有望進一步提升 AI 的能力。目前來看,幾乎沒有任何力量能夠延緩或阻止那些可能帶來極大風險的模型的發(fā)布。
在模型發(fā)布之前進行測試是減少風險的常見方法,這有助于監(jiān)管機構(gòu)權(quán)衡利弊,甚至可能阻止那些被認為過于危險的模型發(fā)布。然而,當前的測試準確性和全面性仍然不盡如人意。AI 模型有時會故意隱藏自己的能力,避免引發(fā)安全問題。而現(xiàn)有的評估也難以全面揭示某個模型的所有潛在風險。此外,測試的范圍有限,無法發(fā)現(xiàn)所有值得深入調(diào)查的隱患。還有誰來進行測試、測試人員的偏見如何影響結(jié)果等問題。因此,評估必須與其他治理工具相結(jié)合。
其中一個可能的工具是實驗室內(nèi)部的舉報機制。理想狀態(tài)下,員工應該能夠定期、全面地表達他們對 AI 安全的擔憂,并相信這些擔憂能夠得到有效處理。然而,越來越多的證據(jù)表明,在 AI 實驗室中,公開批評不僅未能得到鼓勵,反而變得更加稀少。僅三個月前,13 名 OpenAI 及其他實驗室的前任和現(xiàn)任員工聯(lián)名發(fā)表公開信,表示如果他們試圖揭露不合規(guī)但不違法的公司行為,可能會遭到報復。
如何發(fā)出警報
理論上,外部舉報者保護機制可以在發(fā)現(xiàn) AI 風險方面發(fā)揮重要作用。它們能夠保護因披露公司問題而被解雇的員工,并彌補內(nèi)部舉報機制的不足。幾乎所有州都有一項公共政策例外,即員工如果因揭發(fā)不安全或非法的公司行為而遭報復,仍可以尋求法律補救。然而,在實際操作中,這一例外條款對員工的保護非常有限。在舉報案件中,法官往往偏向雇主。尤其是在 AI 領(lǐng)域,由于社會尚未就 AI 開發(fā)和部署的安全標準達成共識,AI 實驗室在此類訴訟中的勝訴機會極大。
這些問題解釋了為什么上述 13 名 AI 工作者,包括前 OpenAI 員工 William Saunders,呼吁設(shè)立一種新的“警示權(quán)”。他們建議公司應為員工提供匿名途徑,讓員工可以向?qū)嶒炇叶聲、監(jiān)管機構(gòu)或由行業(yè)專家組成的獨立第三方報告安全相關(guān)的擔憂。雖然具體細節(jié)尚未敲定,但這一流程可能是一個正式的、程序化的機制。董事會、監(jiān)管機構(gòu)和第三方都需記錄報告,并可能展開調(diào)查,后續(xù)的會議和聽證也可能是這一流程的一部分。然而,按照 Saunders 的說法,AI 工作者真正需要的可能是另外一種方式。
Saunders 在《Big Technology》播客中描述了他理想中的安全擔憂分享流程。他并沒有強調(diào)正式渠道,而是希望有一個中間的、非正式的步驟。他希望能夠先獲得中立專家的反饋,幫助判斷某個安全問題是否足夠嚴重,值得啟動“高風險”的正式警示程序。Saunders 認為,現(xiàn)有的政府監(jiān)管機構(gòu)無法承擔這個角色。
首先,這些監(jiān)管機構(gòu)可能缺乏足夠的專業(yè)知識,無法幫助 AI 工作者理清安全問題。其次,員工也很少愿意與政府官員直接接觸正如 Saunders 在播客中所言,這樣的聯(lián)系可能讓人“感到非常有壓力”。他更希望能夠聯(lián)系一位專家,討論自己的擔憂。在理想情況下,專家會告訴他相關(guān)風險并不嚴重或不太可能發(fā)生,這樣他就能安心繼續(xù)手頭的工作。
降低門檻
因此,Saunders 在播客中的建議并不是“警示權(quán)”,因為這意味著員工已經(jīng)確信存在不安全或非法的行為。他真正想要的是一個“直覺檢查”,即一個機會來驗證他對不安全或非法行為的懷疑是否合理。這種情況下的風險較小,監(jiān)管反應也可以相應放緩。處理這些初步檢查的第三方可以更加非正式。比如,AI 領(lǐng)域的博士生、已退休的行業(yè)專家或其他擁有相關(guān)知識的人士可以自愿組成一個 AI 安全熱線。他們可以通過保密的匿名電話,與員工快速、專業(yè)地討論安全問題。熱線的志愿者應當熟悉最新的安全實踐,并具備幫助員工了解可用選項(如警示權(quán)機制)的廣泛知識。
正如 Saunders 所指出的,很多員工不愿直接將自己的擔憂升級至董事會或政府機構(gòu)。如果有一個中間的、非正式的步驟,他們更可能主動提出問題。
借鑒其他領(lǐng)域的經(jīng)驗
關(guān)于 AI 安全熱線的具體運作方式,AI 社區(qū)、監(jiān)管機構(gòu)和民間社會還需要進行進一步討論。為了讓熱線發(fā)揮最大作用,可能需要建立一種機制,將最緊急、經(jīng)過驗證的報告及時傳遞給相關(guān)權(quán)威機構(gòu)。此外,如何確保熱線通話的保密性也是一個需要深入研究的問題。招募和留住志愿者也是一大挑戰(zhàn)。考慮到 AI 領(lǐng)域?qū)<覀儗?AI 風險的廣泛關(guān)注,出于幫助他人的意愿,一些專家可能會愿意參與。如果志愿者數(shù)量不足,可能需要提供一些額外激勵。不過,首先我們必須認識到 AI 安全監(jiān)管中存在的這一缺口。接下來,我們需要借鑒其他行業(yè)的成功經(jīng)驗,建立第一個 AI 安全熱線。
一個可以參考的范例是設(shè)立監(jiān)察員。其他行業(yè)已經(jīng)意識到,設(shè)立中立、獨立的監(jiān)察員來評估員工的擔憂是非常有價值的。學術(shù)界、非營利組織和私營企業(yè)中都有這樣的機制。監(jiān)察員的最大特點是中立性他們沒有偏袒任何一方的動機,因此更容易獲得各方的信任;仡櫬(lián)邦政府中監(jiān)察員的應用案例可以發(fā)現(xiàn),當有監(jiān)察員存在時,問題往往能更早地被提出并得到解決。
這一概念相對較新。美國商務部在 1971 年設(shè)立了第一個聯(lián)邦監(jiān)察員,負責幫助公民解決與政府機構(gòu)的爭端,并調(diào)查政府行為。其他機構(gòu),如社會保障局和稅務局,隨后也設(shè)立了自己的監(jiān)察員辦公室。對這些早期努力的回顧顯示,優(yōu)秀的監(jiān)察員確實能夠顯著改善公民與政府的關(guān)系。整體來看,監(jiān)察員的存在有助于提高法規(guī)的自愿遵守率,并促進公民與政府的合作。
AI 行業(yè)的監(jiān)察員或安全熱線可能會與聯(lián)邦機構(gòu)的監(jiān)察員有所不同,但這一概念本身值得 AI 安全倡導者深入研究。
警示權(quán)可能有助于讓 AI 安全問題浮出水面,但我們還需要設(shè)置更多中間的、非正式的步驟。AI 安全熱線是一個容易實現(xiàn)的監(jiān)管措施。我們可以迅速組織一批志愿者,提供一個即時的渠道,讓像 Saunders 這樣的人可以放心地表達他們的擔憂。
本文作者 Kevin Frazier 是圣托馬斯大學法學院的助理教授,也是德克薩斯大學奧斯汀分校憲法研究項目的高級研究員。
原文鏈接:
https://www.technologyreview.com/2024/09/16/1103959/why-we-need-an-ai-safety-hotline/