只需敲幾下鍵盤,任何人都可以要求ChatGPT等人工智能(AI)程序?qū)懸黄撐、?chuàng)作一首歌曲或一部戲劇,但不要指望它具有威廉莎士比亞的獨創(chuàng)性。一項新研究發(fā)現(xiàn),這種AI產(chǎn)出的作品仍然是衍生品至少目前是這樣。
圖片來源:COREDESIGN/SHUTTERSTOCK為了找到答案,研究人員設(shè)計了一個能夠衡量AI創(chuàng)造力的程序。英國倫敦大學學院研究AI創(chuàng)造力的計算機科學家Mirco Musolesi沒有參與該研究,但他表示,衡量創(chuàng)造力是“一個困難但非常有趣的問題”,新方法非常好地解決了至少一個創(chuàng)造性問題語言的新穎性。
ChatGPT等程序自誕生以來,科學家一直對其持懷疑態(tài)度。盡管運行這種生成式人工智能和大型語言模型(LLM)可以瞬間生成看起來非常像人類描述的文字,但一些研究人員認為LLM并沒有產(chǎn)生任何新東西。批評者說,它們只是“隨機鸚鵡”,盲目地將它們訓練過的單詞混合在一起。
但客觀地測試這種創(chuàng)造力一直很棘手。科學家通常采取兩種策略。一種是使用另一個計算機程序來搜索抄襲的跡象盡管沒有抄襲并不一定等于有創(chuàng)造力。另一種是讓人類自己判斷AI的輸出,對流暢性和原創(chuàng)性等因素進行評分,但這種策略是主觀和耗時的。
因此,美國華盛頓大學的計算機科學家陸錫明(音)和同事創(chuàng)建了一個既客觀又有細微差別的程序,被稱為DJ搜索。它從AI輸出的任何內(nèi)容中收集最小長度的文本片段,并在大型在線數(shù)據(jù)庫中搜索它們。DJ搜索不僅能尋找相同的匹配,還會掃描與單詞含義相似的字符串。在刪除所有匹配項后,程序計算剩余單詞與原始文檔長度的比率,這應(yīng)該可以估計出AI輸出的新穎程度。
研究人員將已出版小說、詩歌和演講的語言新穎性與人類作品進行了比較。研究人員在OpenReview上發(fā)布的一份預印本中報告稱,人類在詩歌、小說和演講方面的得分分別比AI高出約80%、100%和150%。該報告目前正在接受同行評審。
雖然DJ 搜索是為了比較人和機器而設(shè)計的,但它也可以用于比較兩個或多個人類作品。例如,蘇珊柯林斯創(chuàng)作的小說《饑餓游戲》在語言原創(chuàng)性方面比斯蒂芬妮邁耶的熱門小說《暮光之城》高出35%。
那么,LLM僅僅是鸚鵡嗎?“他們從現(xiàn)有的文字中復制、粘貼、剪切和拼湊出一些令人驚嘆的東西。這就像一個DJ對現(xiàn)有音樂進行混音。這絕對很有價值,但它與作曲家不同!标戝a明說。
美國加州大學洛杉磯分校的計算機科學家彭楠說,接下來,研究人員應(yīng)該關(guān)注的不僅僅是短串單詞的新穎之處,而是整個敘事結(jié)構(gòu)的新穎性。彭楠已經(jīng)人工判斷出AI的敘事較差。她希望這種判斷能實現(xiàn)自動化,但這很難。
策劃制作
來源丨中國科學報
責編丨王夢如
審校丨徐來 林林
一起長知識!