曹建峰騰訊研究院高級(jí)研究員
原文標(biāo)題為《大模型背景下的人機(jī)對(duì)齊》,刊發(fā)在《中國社會(huì)科學(xué)報(bào)》
隨著人工智能大模型的能力日益強(qiáng)大,如何讓其行為和目標(biāo)同人類的價(jià)值、偏好、意圖之間實(shí)現(xiàn)協(xié)調(diào)一致,即人機(jī)對(duì)齊(human-AI alignment)問題,變得越發(fā)重要。
目前,人機(jī)對(duì)齊已成為人工智能領(lǐng)域的重要發(fā)展方向。在大模型加速發(fā)展引發(fā)了有效加速(e/acc)還是有效對(duì)齊(e/a)的發(fā)展理念之爭的背景下,人們需要更加負(fù)責(zé)任地發(fā)展與應(yīng)用人工智能技術(shù),而人機(jī)對(duì)齊(包括人工智能價(jià)值對(duì)齊)方面的技術(shù)演進(jìn)和治理探索,將推動(dòng)人工智能領(lǐng)域的負(fù)責(zé)任創(chuàng)新,使人類與人工智能走向和諧共存、有效協(xié)作的美好未來。
重要性與必要性近年來,隨著大模型的加速發(fā)展,相關(guān)的人工智能安全風(fēng)險(xiǎn)和控制問題引發(fā)了全球關(guān)注。以大模型為代表的新興技術(shù),不斷推動(dòng)人工智能邁向新的前沿。但這也在一定程度上引發(fā)了人們對(duì)人工智能未來可能導(dǎo)致極端風(fēng)險(xiǎn)的擔(dān)憂。除了重要數(shù)據(jù)及隱私泄露、算法歧視及不透明、虛假信息等倫理問題,未來更加強(qiáng)大且通用的人工智能模型是否可能導(dǎo)致災(zāi)難性風(fēng)險(xiǎn)或極端風(fēng)險(xiǎn)的問題也受到了更多關(guān)注。具體而言,不同于以往的任何技術(shù),當(dāng)前以及未來的人工智能技術(shù)主要會(huì)在三個(gè)核心維度給個(gè)人和社會(huì)帶來新的風(fēng)險(xiǎn)與挑戰(zhàn)。
一是決策讓渡風(fēng)險(xiǎn)。在經(jīng)濟(jì)社會(huì)活動(dòng)維度,人工智能和機(jī)器人會(huì)在越來越多的人類事務(wù)中輔助甚至替代人類進(jìn)行決策,這種決策讓渡會(huì)帶來新的風(fēng)險(xiǎn),如技術(shù)性失業(yè)、人工智能安全等。甚至還需要考慮有一些決策和人類事務(wù)是否應(yīng)外包給人工智能。
二是情感替代風(fēng)險(xiǎn)。在人際/人機(jī)關(guān)系維度,人工智能和機(jī)器人已經(jīng)并將持續(xù)深度介入人類情感領(lǐng)域,給人們提供情感陪伴價(jià)值,但卻可能影響到人際交往,產(chǎn)生情感替代風(fēng)險(xiǎn),導(dǎo)致人與人之間的真實(shí)聯(lián)系被削弱甚至被取代。這種新型人機(jī)關(guān)系的倫理邊界應(yīng)如何確定?一個(gè)重要的原則是,人機(jī)交互必須促進(jìn)人類聯(lián)系和社會(huì)團(tuán)結(jié)真實(shí)的人類聯(lián)系在智能時(shí)代將是彌足珍貴的。
三是人類增強(qiáng)風(fēng)險(xiǎn)。在人類自身發(fā)展維度,人工智能、腦機(jī)接口等技術(shù)可能推動(dòng)人類社會(huì)進(jìn)入所謂的“后人類時(shí)代”。此類技術(shù)或被用于增強(qiáng)、改造人類自身,未來人機(jī)深度融合后,人的身體、大腦、智力等都有可能被人工智能改造,屆時(shí)人會(huì)變成什么?這種人類增強(qiáng)是否會(huì)帶來新形式的人類不平等?在這幾個(gè)維度之外,還有技術(shù)濫用、惡用的風(fēng)險(xiǎn)(如深度偽造技術(shù)的惡性使用),人工智能消耗大量能源對(duì)環(huán)境和可持續(xù)發(fā)展的挑戰(zhàn),人工智能技術(shù)失控、威脅人類生存等災(zāi)難性風(fēng)險(xiǎn)(以及由此引發(fā)的加速派與對(duì)齊派的發(fā)展理念分歧),等等。因此,人工智能領(lǐng)域的負(fù)責(zé)任創(chuàng)新變得越發(fā)重要且必要。
在此背景下,隨著大模型能力的持續(xù)提升以及日益通用化,如何讓大模型的行為和目標(biāo)與人類的價(jià)值、偏好、倫理道德、意圖和目標(biāo)等相一致,成為大模型發(fā)展的重要內(nèi)容。人機(jī)對(duì)齊是人工智能安全和倫理領(lǐng)域的一個(gè)新概念,其主要目的是將人工智能大模型打造成安全、真誠、有用、無害的智能助手,避免在與人的交互過程中造成潛在的負(fù)面影響或危害,如輸出有害內(nèi)容、帶來幻覺、造成歧視等。要而言之,人機(jī)對(duì)齊包含雙重含義,一方面是人工智能對(duì)齊人類,主要涉及創(chuàng)建安全、符合倫理的人工智能系統(tǒng);另一方面是人類對(duì)齊人工智能,核心是確保人們負(fù)責(zé)任地使用、部署人工智能系統(tǒng)。
在大模型背景下,人機(jī)對(duì)齊對(duì)于確保人類與人工智能交互過程中的安全與信任至關(guān)重要,F(xiàn)在的聊天機(jī)器人等大模型應(yīng)用之所以能夠游刃有余地應(yīng)對(duì)用戶的各種提問,而不至于產(chǎn)生太大負(fù)面影響,在很大程度上歸功于人機(jī)對(duì)齊方面的技術(shù)和治理實(shí)踐。可以說,人機(jī)對(duì)齊是大模型可用性和安全性的重要基礎(chǔ)和必要保障。
實(shí)現(xiàn)路徑在實(shí)踐中,目前產(chǎn)業(yè)界將人機(jī)對(duì)齊作為人工智能大模型安全治理的重要思路,并在技術(shù)上取得了可觀的效果,很大程度上保障了大模型開發(fā)、部署和使用中的安全與信任。人機(jī)對(duì)齊是大模型開發(fā)和訓(xùn)練過程中的一個(gè)重要環(huán)節(jié),在技術(shù)上目前主要有兩種人機(jī)對(duì)齊方法:
一種是自下而上的思路,即人類反饋強(qiáng)化學(xué)習(xí)的對(duì)齊方法,需要用價(jià)值對(duì)齊的數(shù)據(jù)集對(duì)模型進(jìn)行精調(diào),并由人類訓(xùn)練員對(duì)模型的輸出進(jìn)行評(píng)分,以便通過強(qiáng)化學(xué)習(xí)讓模型學(xué)習(xí)人類的價(jià)值和偏好。在技術(shù)上,人類反饋的強(qiáng)化學(xué)習(xí)包括初始模型訓(xùn)練、收集人類反饋、強(qiáng)化學(xué)習(xí)、迭代過程等步驟。
另一種是自上而下的思路,即原則型人工智能的對(duì)齊方法,核心是把一套倫理原則輸入給模型,并通過技術(shù)方法讓模型對(duì)自己的輸出進(jìn)行判斷或評(píng)分,以使其輸出符合這些原則。例如,OpenAI公司采取了人類反饋強(qiáng)化學(xué)習(xí)的對(duì)齊方法,Anthropic公司采取了原則型人工智能的對(duì)齊方法。這些人機(jī)對(duì)齊方法殊途同歸,都致力于將大模型打造成為安全、真誠、有用、無害的智能助手。
此外,產(chǎn)業(yè)界還在探索對(duì)抗測試(如紅隊(duì)測試)、模型安全評(píng)估、可解釋人工智能方法、倫理審查、第三方服務(wù)等多元化的安全和治理措施,共同保障人工智能領(lǐng)域的負(fù)責(zé)任創(chuàng)新。此外,值得一提的是,對(duì)于可能具有災(zāi)難性風(fēng)險(xiǎn)的人工智能模型和將來可能出現(xiàn)的超級(jí)人工智能,一些人工智能企業(yè)在探索專門的安全機(jī)制(如OpenAI的“預(yù)備”團(tuán)隊(duì)、Anthropic公司的負(fù)責(zé)任擴(kuò)展政策),其核心思路是對(duì)新研發(fā)的更先進(jìn)模型進(jìn)行系統(tǒng)性評(píng)估,只有在模型的風(fēng)險(xiǎn)低于一定的安全風(fēng)險(xiǎn)閾值時(shí)才會(huì)對(duì)外推出,否則將暫緩?fù)瞥鲋敝涟踩L(fēng)險(xiǎn)得到緩解。人工智能企業(yè)通過在人機(jī)對(duì)齊上的相關(guān)探索和舉措,可以建立起人工智能產(chǎn)品的市場競爭力,同時(shí)這些企業(yè)將人機(jī)對(duì)齊作為保障未來更強(qiáng)大的人工智能模型安全、有益的核心要素,積極開展前沿探索。
可以說,包括人工智能價(jià)值對(duì)齊在內(nèi)的人機(jī)對(duì)齊理念和實(shí)踐,是當(dāng)前人工智能大模型發(fā)展應(yīng)用的必由之路,可以幫助解決人工智能大模型商業(yè)應(yīng)用過程中面臨的很多難題。通過人機(jī)對(duì)齊的理念和實(shí)踐,人工智能開發(fā)者可以構(gòu)建更加安全、有用、可信且符合倫理的人工智能系統(tǒng)?梢灶A(yù)見,未來人工智能大模型會(huì)在更多場景中輔助人類甚至替代人類,人機(jī)對(duì)齊將是當(dāng)前和未來的人工智能大模型以及未來可能出現(xiàn)的通用人工智能的必由之路。這既關(guān)乎信任,也關(guān)乎控制,更關(guān)乎未來人工智能的安全發(fā)展,因?yàn)槿藱C(jī)對(duì)齊對(duì)于應(yīng)對(duì)未來更加強(qiáng)大的人工智能模型的涌現(xiàn)風(fēng)險(xiǎn)至關(guān)重要。
總之,考慮到人機(jī)對(duì)齊在解決大模型的安全和信任問題上所扮演的重要角色實(shí)現(xiàn)安全與創(chuàng)新的有效平衡,人工智能領(lǐng)域的相關(guān)政策需要積極支持與鼓勵(lì)探索大模型領(lǐng)域人機(jī)對(duì)齊的技術(shù)手段和管理措施,推動(dòng)形成政策指南、行業(yè)標(biāo)準(zhǔn)、技術(shù)規(guī)范等,以保障人工智能的向善發(fā)展。