IT之家 2 月 6 日消息,在最近的一次公開活動中,人工智能公司 OpenAI 的首席執(zhí)行官薩姆·阿爾特曼(Sam Altman)表示,他觀察到人工智能的“智商”在過去幾年中迅速提升。阿爾特曼稱:“大致而言,我的感覺是 這不是科學(xué)準(zhǔn)確的表述,只是一種直覺或精神層面的回答 每年我們似乎在智商上前進(jìn)了一個標(biāo)準(zhǔn)差!
IT之家注意到,阿爾特曼并非第一個用智商來衡量人工智能進(jìn)步的人。在社交媒體上,一些人工智能領(lǐng)域的意見領(lǐng)袖已經(jīng)讓各種模型接受智商測試,并對結(jié)果進(jìn)行排名。但許多專家認(rèn)為,智商并不是衡量模型能力的合適指標(biāo),甚至具有誤導(dǎo)性。
牛津大學(xué)研究技術(shù)與監(jiān)管的研究員桑德拉·瓦赫特(Sandra Wachter)在接受 TechCrunch 采訪時表示:“用人類的衡量標(biāo)準(zhǔn)來描述人工智能的能力或進(jìn)步是非常誘人的,但這就好比是在比較蘋果和橘子!智商測試是一種相對而非客觀的智力測量方式,它在邏輯和抽象推理方面被認(rèn)為是一個合理的測試指標(biāo),但它無法衡量實際智力 即知道如何讓事物運作的能力。
瓦赫特指出:“智商是一種衡量人類能力的工具 盡管它本身存在爭議 是基于科學(xué)家對人類智力的看法而設(shè)計的,但你不能用同樣的標(biāo)準(zhǔn)來衡量人工智能的能力。汽車比人類跑得快,潛水艇比人類潛得深,但這并不意味著汽車或潛水艇超越了人類的智力。不能簡單地將某一方面的性能等同于人類智力,人類智力是非常復(fù)雜的!
智商測試的起源可以追溯到優(yōu)生學(xué),優(yōu)生學(xué)是一種被廣泛駁斥的科學(xué)理論,認(rèn)為可以通過選擇性繁殖來改善人類。參加智商測試的人需要具備強(qiáng)大的工作記憶能力,并且熟悉西方文化規(guī)范,這自然為偏見留下了空間。一位心理學(xué)家甚至稱智商測試為“意識形態(tài)上可被操縱的機(jī)械智力模型”。
華盛頓大學(xué)研究倫理人工智能的博士候選人奧斯·凱斯(Os Keyes)表示,模型在智商測試中表現(xiàn)良好,更多地反映了測試本身的缺陷,而不是模型的性能!叭绻麚碛袔缀鯚o限的內(nèi)存和耐心,這些測試其實很容易被‘玩弄’。智商測試是一種非常有限的衡量認(rèn)知、意識和智力的方式,這一點在數(shù)字計算機(jī)發(fā)明之前我們就已經(jīng)知道了!
人工智能在智商測試中可能具有不公平的優(yōu)勢,因為模型擁有海量的內(nèi)存和內(nèi)化的知識。通常,模型是基于公共網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練的,而網(wǎng)絡(luò)上有大量從智商測試中提取的例題。倫敦國王學(xué)院的研究員邁克·庫克(Mike Cook)表示:“測試往往重復(fù)非常相似的模式 提高智商的一個相當(dāng)可靠的方法就是練習(xí)智商測試,而這本質(zhì)上就是每個模型都在做的事情。當(dāng)我學(xué)習(xí)某樣?xùn)|西時,我不會像 AI 那樣以完美的清晰度將其清晰地輸入我的大腦 100 萬次,我也無法像人工智能那樣毫無噪聲或信號損失地處理它!
庫克補(bǔ)充道,智商測試 盡管存在偏見 是為人類設(shè)計的,旨在評估一般性的問題解決能力,并不適合用于評估一種以與人類截然不同的方式解決問題的技術(shù)!盀貘f可能會使用工具從盒子里取出食物,但這并不意味著它可以進(jìn)入哈佛大學(xué)。當(dāng)我解決一個數(shù)學(xué)問題時,我的大腦不僅要正確閱讀頁面上的文字,還要避免去想回家路上需要購買的東西,或者房間是否太冷。換句話說,人類大腦在解決問題時 無論是智商測試還是其他任何問題 都要應(yīng)對更多的事情,而且它們在解決問題時得到的幫助也比人工智能少得多。”
AI Now 研究所的首席人工智能科學(xué)家海迪·赫拉夫(Heidy Khlaaf)在接受 TechCrunch 采訪時表示,所有這些都表明我們需要更好的人工智能測試方法。赫拉夫說:“在計算歷史中,我們從未將計算能力與人類能力進(jìn)行精確比較,因為計算的本質(zhì)意味著系統(tǒng)一直能夠完成超出人類能力范圍的任務(wù)。這種直接將系統(tǒng)性能與人類能力進(jìn)行比較的想法是一個相對較新的現(xiàn)象,且極具爭議性,圍繞著不斷擴(kuò)展和變化的用于評估人工智能系統(tǒng)的基準(zhǔn)的爭議也越來越多!