當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 人機(jī)對(duì)齊，通用人工智能的必由之路

人機(jī)對(duì)齊，通用人工智能的必由之路
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-01 15:26:27 瀏覽：112次

導(dǎo)讀：曹建峰騰訊研究院高級(jí)研究員原文標(biāo)題為《大模型背景下的人機(jī)對(duì)齊》，刊發(fā)在《中國(guó)社會(huì)科學(xué)報(bào)》隨著人工智能大模型的能力日益強(qiáng)大，如何讓其行為和目標(biāo)同人類(lèi)的價(jià)值、偏好、意圖之間實(shí)現(xiàn)協(xié)調(diào)一致，即人機(jī)對(duì)齊（human-AI alignment）問(wèn)題，變得越發(fā)重要。目前，人機(jī)對(duì)齊已成為人工智能領(lǐng)域的重要發(fā)展方向。在大模型加速發(fā)展引發(fā)了有效加速（e/acc）還是有效對(duì)齊（e/a）的發(fā)展理念 ......

人機(jī)對(duì)齊，通用人工智能的必由之路

曹建峰騰訊研究院高級(jí)研究員

原文標(biāo)題為《大模型背景下的人機(jī)對(duì)齊》，刊發(fā)在《中國(guó)社會(huì)科學(xué)報(bào)》

隨著人工智能大模型的能力日益強(qiáng)大，如何讓其行為和目標(biāo)同人類(lèi)的價(jià)值、偏好、意圖之間實(shí)現(xiàn)協(xié)調(diào)一致，即人機(jī)對(duì)齊（human-AI alignment）問(wèn)題，變得越發(fā)重要。

目前，人機(jī)對(duì)齊已成為人工智能領(lǐng)域的重要發(fā)展方向。在大模型加速發(fā)展引發(fā)了有效加速（e/acc）還是有效對(duì)齊（e/a）的發(fā)展理念之爭(zhēng)的背景下，人們需要更加負(fù)責(zé)任地發(fā)展與應(yīng)用人工智能技術(shù)，而人機(jī)對(duì)齊（包括人工智能價(jià)值對(duì)齊）方面的技術(shù)演進(jìn)和治理探索，將推動(dòng)人工智能領(lǐng)域的負(fù)責(zé)任創(chuàng)新，使人類(lèi)與人工智能走向和諧共存、有效協(xié)作的美好未來(lái)。

重要性與必要性近年來(lái)，隨著大模型的加速發(fā)展，相關(guān)的人工智能安全風(fēng)險(xiǎn)和控制問(wèn)題引發(fā)了全球關(guān)注。以大模型為代表的新興技術(shù)，不斷推動(dòng)人工智能邁向新的前沿。但這也在一定程度上引發(fā)了人們對(duì)人工智能未來(lái)可能導(dǎo)致極端風(fēng)險(xiǎn)的擔(dān)憂。除了重要數(shù)據(jù)及隱私泄露、算法歧視及不透明、虛假信息等倫理問(wèn)題，未來(lái)更加強(qiáng)大且通用的人工智能模型是否可能導(dǎo)致災(zāi)難性風(fēng)險(xiǎn)或極端風(fēng)險(xiǎn)的問(wèn)題也受到了更多關(guān)注。具體而言，不同于以往的任何技術(shù)，當(dāng)前以及未來(lái)的人工智能技術(shù)主要會(huì)在三個(gè)核心維度給個(gè)人和社會(huì)帶來(lái)新的風(fēng)險(xiǎn)與挑戰(zhàn)。

一是決策讓渡風(fēng)險(xiǎn)。在經(jīng)濟(jì)社會(huì)活動(dòng)維度，人工智能和機(jī)器人會(huì)在越來(lái)越多的人類(lèi)事務(wù)中輔助甚至替代人類(lèi)進(jìn)行決策，這種決策讓渡會(huì)帶來(lái)新的風(fēng)險(xiǎn)，如技術(shù)性失業(yè)、人工智能安全等。甚至還需要考慮有一些決策和人類(lèi)事務(wù)是否應(yīng)外包給人工智能。

二是情感替代風(fēng)險(xiǎn)。在人際/人機(jī)關(guān)系維度，人工智能和機(jī)器人已經(jīng)并將持續(xù)深度介入人類(lèi)情感領(lǐng)域，給人們提供情感陪伴價(jià)值，但卻可能影響到人際交往，產(chǎn)生情感替代風(fēng)險(xiǎn)，導(dǎo)致人與人之間的真實(shí)聯(lián)系被削弱甚至被取代。這種新型人機(jī)關(guān)系的倫理邊界應(yīng)如何確定？一個(gè)重要的原則是，人機(jī)交互必須促進(jìn)人類(lèi)聯(lián)系和社會(huì)團(tuán)結(jié)真實(shí)的人類(lèi)聯(lián)系在智能時(shí)代將是彌足珍貴的。

三是人類(lèi)增強(qiáng)風(fēng)險(xiǎn)。在人類(lèi)自身發(fā)展維度，人工智能、腦機(jī)接口等技術(shù)可能推動(dòng)人類(lèi)社會(huì)進(jìn)入所謂的“后人類(lèi)時(shí)代”。此類(lèi)技術(shù)或被用于增強(qiáng)、改造人類(lèi)自身，未來(lái)人機(jī)深度融合后，人的身體、大腦、智力等都有可能被人工智能改造，屆時(shí)人會(huì)變成什么？這種人類(lèi)增強(qiáng)是否會(huì)帶來(lái)新形式的人類(lèi)不平等？在這幾個(gè)維度之外，還有技術(shù)濫用、惡用的風(fēng)險(xiǎn)（如深度偽造技術(shù)的惡性使用），人工智能消耗大量能源對(duì)環(huán)境和可持續(xù)發(fā)展的挑戰(zhàn)，人工智能技術(shù)失控、威脅人類(lèi)生存等災(zāi)難性風(fēng)險(xiǎn)（以及由此引發(fā)的加速派與對(duì)齊派的發(fā)展理念分歧），等等。因此，人工智能領(lǐng)域的負(fù)責(zé)任創(chuàng)新變得越發(fā)重要且必要。

在此背景下，隨著大模型能力的持續(xù)提升以及日益通用化，如何讓大模型的行為和目標(biāo)與人類(lèi)的價(jià)值、偏好、倫理道德、意圖和目標(biāo)等相一致，成為大模型發(fā)展的重要內(nèi)容。人機(jī)對(duì)齊是人工智能安全和倫理領(lǐng)域的一個(gè)新概念，其主要目的是將人工智能大模型打造成安全、真誠(chéng)、有用、無(wú)害的智能助手，避免在與人的交互過(guò)程中造成潛在的負(fù)面影響或危害，如輸出有害內(nèi)容、帶來(lái)幻覺(jué)、造成歧視等。要而言之，人機(jī)對(duì)齊包含雙重含義，一方面是人工智能對(duì)齊人類(lèi)，主要涉及創(chuàng)建安全、符合倫理的人工智能系統(tǒng)；另一方面是人類(lèi)對(duì)齊人工智能，核心是確保人們負(fù)責(zé)任地使用、部署人工智能系統(tǒng)。

在大模型背景下，人機(jī)對(duì)齊對(duì)于確保人類(lèi)與人工智能交互過(guò)程中的安全與信任至關(guān)重要。現(xiàn)在的聊天機(jī)器人等大模型應(yīng)用之所以能夠游刃有余地應(yīng)對(duì)用戶的各種提問(wèn)，而不至于產(chǎn)生太大負(fù)面影響，在很大程度上歸功于人機(jī)對(duì)齊方面的技術(shù)和治理實(shí)踐�？梢哉f(shuō)，人機(jī)對(duì)齊是大模型可用性和安全性的重要基礎(chǔ)和必要保障。

實(shí)現(xiàn)路徑在實(shí)踐中，目前產(chǎn)業(yè)界將人機(jī)對(duì)齊作為人工智能大模型安全治理的重要思路，并在技術(shù)上取得了可觀的效果，很大程度上保障了大模型開(kāi)發(fā)、部署和使用中的安全與信任。人機(jī)對(duì)齊是大模型開(kāi)發(fā)和訓(xùn)練過(guò)程中的一個(gè)重要環(huán)節(jié)，在技術(shù)上目前主要有兩種人機(jī)對(duì)齊方法:

一種是自下而上的思路，即人類(lèi)反饋強(qiáng)化學(xué)習(xí)的對(duì)齊方法，需要用價(jià)值對(duì)齊的數(shù)據(jù)集對(duì)模型進(jìn)行精調(diào)，并由人類(lèi)訓(xùn)練員對(duì)模型的輸出進(jìn)行評(píng)分，以便通過(guò)強(qiáng)化學(xué)習(xí)讓模型學(xué)習(xí)人類(lèi)的價(jià)值和偏好。在技術(shù)上，人類(lèi)反饋的強(qiáng)化學(xué)習(xí)包括初始模型訓(xùn)練、收集人類(lèi)反饋、強(qiáng)化學(xué)習(xí)、迭代過(guò)程等步驟。

另一種是自上而下的思路，即原則型人工智能的對(duì)齊方法，核心是把一套倫理原則輸入給模型，并通過(guò)技術(shù)方法讓模型對(duì)自己的輸出進(jìn)行判斷或評(píng)分，以使其輸出符合這些原則。例如，OpenAI公司采取了人類(lèi)反饋強(qiáng)化學(xué)習(xí)的對(duì)齊方法，Anthropic公司采取了原則型人工智能的對(duì)齊方法。這些人機(jī)對(duì)齊方法殊途同歸，都致力于將大模型打造成為安全、真誠(chéng)、有用、無(wú)害的智能助手。

此外，產(chǎn)業(yè)界還在探索對(duì)抗測(cè)試（如紅隊(duì)測(cè)試）、模型安全評(píng)估、可解釋人工智能方法、倫理審查、第三方服務(wù)等多元化的安全和治理措施，共同保障人工智能領(lǐng)域的負(fù)責(zé)任創(chuàng)新。此外，值得一提的是，對(duì)于可能具有災(zāi)難性風(fēng)險(xiǎn)的人工智能模型和將來(lái)可能出現(xiàn)的超級(jí)人工智能，一些人工智能企業(yè)在探索專(zhuān)門(mén)的安全機(jī)制（如OpenAI的“預(yù)備”團(tuán)隊(duì)、Anthropic公司的負(fù)責(zé)任擴(kuò)展政策），其核心思路是對(duì)新研發(fā)的更先進(jìn)模型進(jìn)行系統(tǒng)性評(píng)估，只有在模型的風(fēng)險(xiǎn)低于一定的安全風(fēng)險(xiǎn)閾值時(shí)才會(huì)對(duì)外推出，否則將暫緩?fù)瞥鲋敝涟踩L(fēng)險(xiǎn)得到緩解。人工智能企業(yè)通過(guò)在人機(jī)對(duì)齊上的相關(guān)探索和舉措，可以建立起人工智能產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力，同時(shí)這些企業(yè)將人機(jī)對(duì)齊作為保障未來(lái)更強(qiáng)大的人工智能模型安全、有益的核心要素，積極開(kāi)展前沿探索。

可以說(shuō)，包括人工智能價(jià)值對(duì)齊在內(nèi)的人機(jī)對(duì)齊理念和實(shí)踐，是當(dāng)前人工智能大模型發(fā)展應(yīng)用的必由之路，可以幫助解決人工智能大模型商業(yè)應(yīng)用過(guò)程中面臨的很多難題。通過(guò)人機(jī)對(duì)齊的理念和實(shí)踐，人工智能開(kāi)發(fā)者可以構(gòu)建更加安全、有用、可信且符合倫理的人工智能系統(tǒng)。可以預(yù)見(jiàn)，未來(lái)人工智能大模型會(huì)在更多場(chǎng)景中輔助人類(lèi)甚至替代人類(lèi)，人機(jī)對(duì)齊將是當(dāng)前和未來(lái)的人工智能大模型以及未來(lái)可能出現(xiàn)的通用人工智能的必由之路。這既關(guān)乎信任，也關(guān)乎控制，更關(guān)乎未來(lái)人工智能的安全發(fā)展，因?yàn)槿藱C(jī)對(duì)齊對(duì)于應(yīng)對(duì)未來(lái)更加強(qiáng)大的人工智能模型的涌現(xiàn)風(fēng)險(xiǎn)至關(guān)重要。

總之，考慮到人機(jī)對(duì)齊在解決大模型的安全和信任問(wèn)題上所扮演的重要角色實(shí)現(xiàn)安全與創(chuàng)新的有效平衡，人工智能領(lǐng)域的相關(guān)政策需要積極支持與鼓勵(lì)探索大模型領(lǐng)域人機(jī)對(duì)齊的技術(shù)手段和管理措施，推動(dòng)形成政策指南、行業(yè)標(biāo)準(zhǔn)、技術(shù)規(guī)范等，以保障人工智能的向善發(fā)展。

相關(guān)熱詞： 通用人工智能人機(jī) 機(jī)器人通用模型

上一篇：“世界模型”究竟是什么？會(huì)成為人工智能的下一個(gè)前沿領(lǐng)域嗎？

下一篇：澳媒：西方可以從中國(guó)人工智能經(jīng)濟(jì)政策中學(xué)到三個(gè)經(jīng)驗(yàn)