展會(huì)信息港展會(huì)大全

Nature刊文:“open”AI的實(shí)際作用非常有限
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-02 14:41:44   瀏覽:245次  

導(dǎo)讀:一貫堅(jiān)持開源的 Meta 也會(huì)被業(yè)內(nèi)人士狂噴。開放源代碼促進(jìn)會(huì)負(fù)責(zé)人 Stefano Maffulli 就曾公開斥責(zé) Meta,稱用“open”描述Llama模型,是在混淆用戶和污染“open”。在大眾的認(rèn)知中,“open”通常意味著透明、共享和合作,尤其是在開源軟件領(lǐng)域。然而,在人工智能(AI)領(lǐng)域,“open”一詞卻帶來了許多模糊性和爭(zhēng)議。事實(shí)上,AI 行業(yè)資源高度集中,“open”的真正意義和影響值 ......

Nature刊文:“open”AI的實(shí)際作用非常有限

一貫堅(jiān)持開源的 Meta 也會(huì)被業(yè)內(nèi)人士狂噴。

開放源代碼促進(jìn)會(huì)負(fù)責(zé)人 Stefano Maffulli 就曾公開斥責(zé) Meta,稱用“open”描述Llama模型,是在混淆用戶和污染“open”。

在大眾的認(rèn)知中,“open”通常意味著透明、共享和合作,尤其是在開源軟件領(lǐng)域。然而,在人工智能(AI)領(lǐng)域,“open”一詞卻帶來了許多模糊性和爭(zhēng)議。事實(shí)上,AI 行業(yè)資源高度集中,“open”的真正意義和影響值得深入探討。

那么,我們究竟該如何理解“open”呢?

在一篇發(fā)表在權(quán)威科學(xué)期刊 Nature 上的文章中,科學(xué)家們系統(tǒng)地剖析了“open” AI 的定義、實(shí)質(zhì)特征與局限性。

Nature刊文:“open”AI的實(shí)際作用非常有限

“‘open’ AI 這個(gè)術(shù)語被廣泛使用,但其實(shí)際涵義并不明確。我們發(fā)現(xiàn),當(dāng)代 AI 系統(tǒng)的開發(fā)和應(yīng)用依賴于高度集中的資源,即便標(biāo)榜“open”的 AI,其透明性、可重用性和可擴(kuò)展性仍然受到資源壟斷的限制。”研究人員在文章中寫道。

他們通過分析“open” AI 的當(dāng)前生態(tài),探討了其對(duì)資源共享、技術(shù)創(chuàng)新和市場(chǎng)競(jìng)爭(zhēng)等的深遠(yuǎn)影響,同時(shí)呼吁對(duì)其經(jīng)濟(jì)政治背景進(jìn)行更深入的反思和措施介入。

什么是“open” AI?

AI 的定義自其誕生以來就充滿爭(zhēng)議。在 70 多年的歷史中,AI 這個(gè)詞被應(yīng)用于各種不同的技術(shù)方法,與其說是一個(gè)嚴(yán)謹(jǐn)?shù)募夹g(shù)術(shù)語,不如說是一種營銷概念和對(duì)未來愿景的表達(dá)

近年來,AI 的定義傾向于描述基于概率的大型機(jī)器學(xué)習(xí)系統(tǒng),尤其是生成式 AI,如大語言模型(LLM)。這些系統(tǒng)因其生成自然語言文本或圖像的能力而廣受關(guān)注。

類似的,“open”這一概念也在 AI 領(lǐng)域被頻繁誤用和擴(kuò)展。傳統(tǒng)意義上的“open”源于開源軟件運(yùn)動(dòng),具有透明性、可重用性、公平性的理念特征,但將這些理念直接應(yīng)用于現(xiàn)代 AI,特別是生成式 AI 時(shí),面臨著以下挑戰(zhàn):

模型復(fù)雜性與黑箱性:現(xiàn)代 AI 系統(tǒng)由龐大的神經(jīng)網(wǎng)絡(luò)組成,僅公開模型權(quán)重和代碼,不足以完全揭示其運(yùn)作機(jī)制。

資源依賴性:這些模型的開發(fā)和訓(xùn)練需要昂貴的計(jì)算力和數(shù)據(jù),這些資源通常由少數(shù)大公司控制。

技術(shù)應(yīng)用的不對(duì)等性:“open”的模型可能會(huì)被濫用,而原開發(fā)者在這些問題上難以施加影響。

文章指出,當(dāng)前一些所謂的“open AI”模型僅提供部分模型權(quán)重或受限制的 API,這種做法更接近“開放洗白”(openwashing),與真正的 open 相去甚遠(yuǎn)。

同時(shí),文章強(qiáng)調(diào),即便 AI 系統(tǒng)實(shí)現(xiàn)了更大的透明性或可用性,也不意味著行業(yè)權(quán)力格局會(huì)因此發(fā)生顯著變化。AI 開發(fā)的資源成本(如計(jì)算力和數(shù)據(jù)獲。┤约杏谏贁(shù)大企業(yè)手中,使得市場(chǎng)競(jìng)爭(zhēng)更加不均衡。

“open”AI 的優(yōu)勢(shì)與局限

文章作者也對(duì)“open”AI 帶來的三個(gè)關(guān)鍵優(yōu)勢(shì)進(jìn)行了逐一剖析,并客觀闡明了其潛力與局限性,指明盡管“open”AI 提供了關(guān)鍵優(yōu)勢(shì),特別是在資源共享、技術(shù)創(chuàng)新和數(shù)據(jù)使用方面,但這些優(yōu)勢(shì)并未能真正打破由少數(shù)大公司主導(dǎo)的行業(yè)格局。

1. 透明性

透明性是“open”AI 最受關(guān)注的特性之一。一些 AI 模型會(huì)公開訓(xùn)練數(shù)據(jù)、權(quán)重或相關(guān)文檔,允許研究人員驗(yàn)證系統(tǒng)行為,但透明性本身無法完全解答系統(tǒng)的復(fù)雜行為。例如,大模型的“涌現(xiàn)”(emergent)往往難以預(yù)測(cè),僅僅知道模型權(quán)重或代碼并不能全面理解其運(yùn)行原理。因此,文章呼吁理性看待透明性的價(jià)值,特別是在 AI 系統(tǒng)的行為責(zé)任問題上。

2. 可重用性

“open”AI 通常允許第三方在已有的模型或數(shù)據(jù)基礎(chǔ)上進(jìn)行再利用。公開許可的數(shù)據(jù)和模型權(quán)重,以及經(jīng)常使用傳統(tǒng)的開源許可來提供這些數(shù)據(jù),為“open”AI 將對(duì)市場(chǎng)競(jìng)爭(zhēng)產(chǎn)生固有積極影響的說法提供了依據(jù)。

然而,市場(chǎng)訪問仍然是一種受限制的資源。即使是有資源的參與者,他們擁有創(chuàng)建大規(guī)模模型的資金、人才和數(shù)據(jù),也不總是有明確的方法來部署這些模型或確保投資回報(bào),這是由于市場(chǎng)訪問存在重大瓶頸。

3. 可擴(kuò)展性

“open”AI 的可擴(kuò)展性表現(xiàn)在其支持用戶基于基礎(chǔ)模型進(jìn)行微調(diào),從而將模型適配于特定領(lǐng)域或任務(wù)。這是公司支持“open”AI 的關(guān)鍵特征,在很大程度上是因?yàn),“擴(kuò)展”現(xiàn)成模型的工作也為那些可能想要重新利用微調(diào)模型的人提供了免費(fèi)的產(chǎn)品開發(fā)。

擴(kuò)展“open”AI 模型意味著從事這項(xiàng)工作的人不會(huì)從一張白紙開始。他們采用了一個(gè)已經(jīng)經(jīng)過艱苦且昂貴的訓(xùn)練的大模型,并調(diào)整其參數(shù),通常在進(jìn)一步的數(shù)據(jù)上進(jìn)行訓(xùn)練,通常是專門的數(shù)據(jù),以適應(yīng)特定領(lǐng)域或任務(wù)的性能。

資源與權(quán)力分配問題

盡管“open”AI 這個(gè)概念聽起來充滿潛力,但 AI 系統(tǒng)的開發(fā)和應(yīng)用依賴于一系列高度集中的關(guān)鍵資源,包括模型、數(shù)據(jù)、勞動(dòng)力、算力和開發(fā)框架。這些資源不僅決定了技術(shù)的可用性,也深刻影響著市場(chǎng)競(jìng)爭(zhēng)和權(quán)力分配的格局。

具體而言,在“open”AI 的討論中,AI 模型是最直觀的焦點(diǎn)。近年來,像 Meta 的 Llama 3 和 BigScience 的 BLOOM 等 AI 模型雖一直在標(biāo)榜自身“open”,但這些“open”模型的實(shí)際作用卻非常有限。許多模型僅提供 API 接口,并不能讓用戶真正了解其內(nèi)部機(jī)制或進(jìn)行修改。即便是那些較為透明的模型,也依賴于企業(yè)獨(dú)占的訓(xùn)練資源,其他開發(fā)者難以復(fù)制這些資源,從而無法平等參與競(jìng)爭(zhēng)。

在 AI 系統(tǒng)中訓(xùn)練數(shù)據(jù)同樣至關(guān)重要,但許多開源模型并未完全公開其訓(xùn)練數(shù)據(jù)的來源和處理方式,這一不透明極大限制了外界對(duì)模型的驗(yàn)證。此外,采集高質(zhì)量數(shù)據(jù)往往需要巨大的成本和資源,而這通常只有少數(shù)大型企業(yè)能夠承擔(dān),這進(jìn)一步鞏固了它們?cè)谛袠I(yè)中的主導(dǎo)地位。

在 AI 領(lǐng)域,除了模型與數(shù)據(jù)外,勞動(dòng)力同樣是關(guān)鍵資源之一,尤其是訓(xùn)練和開發(fā)這些復(fù)雜模型的高技能人才。然而大型科技公司不僅掌握著計(jì)算能力和數(shù)據(jù)資源,同時(shí)也主導(dǎo)著 AI 研究和開發(fā)所需的頂級(jí)人才市場(chǎng)。

與此同時(shí),算力也是一項(xiàng)受壟斷的關(guān)鍵資源。AI 訓(xùn)練需要大量的計(jì)算資源,而像英偉達(dá)這樣的企業(yè)幾乎壟斷了高性能 GPU 市場(chǎng)。即使模型或代碼被公開,運(yùn)行這些模型的計(jì)算成本依然高昂,導(dǎo)致中小型開發(fā)者無法參與競(jìng)爭(zhēng)。一些計(jì)算框架(如英偉達(dá)的 CUDA)也進(jìn)一步強(qiáng)化了技術(shù)壟斷,使得開源模型仍然依賴于特定的計(jì)算生態(tài),限制了其實(shí)際應(yīng)用范圍。

此外,在開發(fā)框架方面,一些開發(fā)框架諸如 Meta 的 PyTorch 和 Google 的 TensorFlow 雖然是開源的,但它們的設(shè)計(jì)和控制權(quán)掌握在少數(shù)大公司手中,這些公司不僅定義了技術(shù)標(biāo)準(zhǔn),還通過構(gòu)建自己的生態(tài)系統(tǒng)進(jìn)一步鞏固了市場(chǎng)主導(dǎo)地位。

總而言之,“open”AI 雖然在透明度與共享方面具有一定價(jià)值,但無法單獨(dú)解決 AI 領(lǐng)域權(quán)力集中與資源不平等的問題。當(dāng)前的開放性討論更多地被大公司用作規(guī)避監(jiān)管和爭(zhēng)奪市場(chǎng)的工具,如果想要真正改變現(xiàn)狀則需要有更強(qiáng)有力的措施介入,包括反壟斷執(zhí)法和數(shù)據(jù)隱私保護(hù),否則僅僅追求開放性不太可能帶來多大益處。

未來,各方應(yīng)更加關(guān)注 AI 的實(shí)際影響,而非僅局限于開放與封閉的概念之間,只有開展多維度的政策和技術(shù)實(shí)踐才能構(gòu)建出更公平、更負(fù)責(zé)任的 AI 生態(tài)系統(tǒng)。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港