在剛剛過(guò)去的機(jī)器學(xué)習(xí)頂會(huì)神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS,Neural Information Processing Systems)上,火出圈的既有 OpenAI 前首席科學(xué)家伊爾亞蘇茨克維(Ilya Sutskever)的“預(yù)訓(xùn)練結(jié)束”言論,也有美國(guó)紐約大學(xué)教授 Kyunghyun Cho 的會(huì)后感想文章《我在 NeurIPS’24 上感受到了焦慮和挫敗》。
而一名來(lái)自德國(guó)漢堡的 00 后菲利克斯彼得森(Felix Petersen)也小小地出圈了一把。早年,彼得森在德國(guó)洪堡文理中學(xué)讀書,后來(lái)在德國(guó)康斯坦茨大學(xué)讀完本科和博士。
17 歲時(shí),他開發(fā)出一種 X 射線激光器,一度曾引起業(yè)界關(guān)注,并得到了德國(guó)媒體的報(bào)道。剛到大學(xué)時(shí),他不僅已能輔導(dǎo)別人,還管理著德國(guó)洪堡體育館的機(jī)器人小組。
圖 | 2017 年德國(guó)媒體對(duì)于菲利克斯彼得森(Felix Petersen)的報(bào)道(來(lái)源:SDKURIER)
圖 | 19 歲時(shí)的彼得森(來(lái)源:彼得森個(gè)人主頁(yè))
目前,他在美國(guó)斯坦福大學(xué)做博士后,師從于該校的斯特凡諾埃爾蒙(Stefano Ermon)教授。在本次 NeurIPS 上,彼得森展示了自己和導(dǎo)師設(shè)計(jì)的由邏輯門組成的神經(jīng)網(wǎng)絡(luò)(下稱“邏輯門網(wǎng)絡(luò)”)。
圖 | 彼得近照森(來(lái)源:https://petersen.ai/)
關(guān)于這一成果的相關(guān)論文已以《卷積可微分邏輯門網(wǎng)絡(luò)》(Convolutional Differentiable Logic Gate Networks)為題發(fā)在 arXiv 上 [1]。
圖 | 相關(guān)論文 (來(lái)源:arXiv)
讓邏輯門網(wǎng)絡(luò)變得“松弛”
那么,彼得森為何要研發(fā)邏輯門網(wǎng)絡(luò)?
這要從 GPT-4 和 Stable Diffusion 等大模型說(shuō)起,在這些大模型中神經(jīng)網(wǎng)絡(luò)是通過(guò)將感知器連接在一起而構(gòu)建的,感知器是對(duì)人類大腦神經(jīng)元的一種高度簡(jiǎn)化模擬。
盡管感知器非常強(qiáng)大,但是它們也消耗了大量能量,以至于微軟已經(jīng)達(dá)成了一項(xiàng)協(xié)議要重新啟動(dòng)三里島核電站,以便為其人工智能進(jìn)步提供動(dòng)力。
部分問(wèn)題在于感知器只是軟件層面的抽象。在圖形處理器(GPU,Graphics Processing Unit)上運(yùn)行感知器網(wǎng)絡(luò)的時(shí)候,需要將這一網(wǎng)絡(luò)轉(zhuǎn)換為硬件語(yǔ)言,而這需要時(shí)間和能量。
但是,直接使用硬件來(lái)構(gòu)建網(wǎng)絡(luò)則能省去很多成本。彼得森認(rèn)為,與支持大多數(shù)現(xiàn)代人工智能系統(tǒng)的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,直接存于計(jì)算機(jī)芯片硬件中的神經(jīng)網(wǎng)絡(luò)可以更快地識(shí)別圖像,并且消耗的能量更少。
未來(lái)某一天,直接存于計(jì)算機(jī)芯片硬件中的神經(jīng)網(wǎng)絡(luò)甚至可以直接內(nèi)置到智能手機(jī)和其他設(shè)備的芯片中,從而大大減少向服務(wù)器發(fā)送數(shù)據(jù)和從服務(wù)器發(fā)送數(shù)據(jù)的需求。
那么,該怎樣實(shí)現(xiàn)上述目標(biāo)?如前所述,彼得森設(shè)計(jì)了由邏輯門組成的神經(jīng)網(wǎng)絡(luò)。
邏輯門,是計(jì)算機(jī)芯片的基本構(gòu)建模塊。邏輯門由晶體管組成,它可以接受兩個(gè)比特(1 或 0)來(lái)作為輸入,并能根據(jù)特定晶體管模式規(guī)定的規(guī)則輸出一個(gè)比特。
就像感知器一樣,邏輯門可以鏈接成網(wǎng)絡(luò)。而運(yùn)行邏輯門網(wǎng)絡(luò)可謂既便宜、又快速、又簡(jiǎn)單。彼得森在 NeurIPS 的演講中表示,邏輯門網(wǎng)絡(luò)的能耗比感知器網(wǎng)絡(luò)低數(shù)十萬(wàn)倍。
(來(lái)源:arXiv)
目前,彼得森并沒(méi)有刻意去尋找構(gòu)建節(jié)能人工智能網(wǎng)絡(luò)的方法。他是基于對(duì)于“可微分松弛(differentiable relaxations)”的興趣,才開始研究邏輯門。
可微分松弛,指的是將某類數(shù)學(xué)問(wèn)題變成微積分可以解決的形式。讓深度學(xué)習(xí)革命成為可能的反向傳播(訓(xùn)練)算法,是應(yīng)用可微分松弛方法的一個(gè)經(jīng)典案例。
但是,由于反向傳播是基于微積分而構(gòu)建的,因此并不能直接用于訓(xùn)練邏輯門網(wǎng)絡(luò)。邏輯門只能用 0 和 1,而微積分需要得到 0 和 1 之間的所有中間值。
為此,彼得森設(shè)計(jì)了一種方法:創(chuàng)建類似于使用 0 和使用 1 的邏輯門、同時(shí)也能給出中間值答案的函數(shù),讓邏輯門網(wǎng)絡(luò)變得“松弛”,以便能夠進(jìn)行反向傳播。
通過(guò)訓(xùn)練這些門運(yùn)行模擬網(wǎng)絡(luò),可以將邏輯門網(wǎng)絡(luò)轉(zhuǎn)換回能在計(jì)算機(jī)硬件中實(shí)現(xiàn)的東西。
這種方法的一個(gè)挑戰(zhàn)是,“松弛”的網(wǎng)絡(luò)很難被訓(xùn)練。網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)最終都有可能成為 16 個(gè)不同邏輯門中的任何一個(gè),與每個(gè)邏輯門相關(guān)的 16 種概率必須被追蹤被記錄并不斷被調(diào)整。
而這需要大量的時(shí)間和能量。彼得森說(shuō),相比在 GPU 上訓(xùn)練傳統(tǒng)神經(jīng)網(wǎng)絡(luò),訓(xùn)練他所打造的邏輯門網(wǎng)絡(luò)在時(shí)間上要多出數(shù)百倍。在無(wú)法負(fù)擔(dān)數(shù)十萬(wàn) GPU 的大學(xué)里,GPU 在時(shí)間分配收納柜很難周轉(zhuǎn)得開。
因此,彼得森與合作者開發(fā)了邏輯門網(wǎng)絡(luò)。盡管開發(fā)過(guò)程無(wú)比困難,但是一旦網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練,它就會(huì)變得越來(lái)越便宜。
二進(jìn)制神經(jīng)網(wǎng)絡(luò),則是另外一種已有的超高效網(wǎng)絡(luò),在這一網(wǎng)絡(luò)中需要使用只能處理二進(jìn)制值的簡(jiǎn)化感知器。為了驗(yàn)證邏輯門網(wǎng)絡(luò)的效果,彼得森將它與二進(jìn)制神經(jīng)網(wǎng)絡(luò)進(jìn)行比較。
在做對(duì)比時(shí)他使用了 CIFAR-10 數(shù)據(jù)集,該數(shù)據(jù)集包括從“青蛙”到“卡車”等 10 種不同類別的低分辨率圖片。
他讓邏輯門網(wǎng)絡(luò)和二進(jìn)制神經(jīng)網(wǎng)絡(luò),同時(shí)針對(duì) CIFAR-10 數(shù)據(jù)集中的圖像進(jìn)行分類,借此發(fā)現(xiàn)邏輯門網(wǎng)絡(luò)與其他方法做得一樣好。
具體來(lái)說(shuō):相比其他分類神經(jīng)網(wǎng)絡(luò)所需的邏輯門數(shù)量,邏輯門網(wǎng)絡(luò)所使用的邏輯門數(shù)量不僅低于前者所需數(shù)量的十分之一,并在不到千分之一的時(shí)間內(nèi)完成了同一任務(wù)。
現(xiàn)場(chǎng)可編程門陣列(FPGA,F(xiàn)ield Programmable Gate Array),可被用于模擬邏輯門的多種不同潛在模式。
為此,彼得森使用了 FPGA 測(cè)試了邏輯門網(wǎng)絡(luò)。這是一種可編程計(jì)算機(jī)芯片,可用于模擬邏輯門的多種不同潛在模式(組合)。
事實(shí)上,也可以在專用集成電路(ASIC,Application Specific Integrated Circuit)芯片上實(shí)現(xiàn)該網(wǎng)絡(luò),這樣還能進(jìn)一步降低成本,因?yàn)?FPGA 使用了更多組件故其成本更高。
在一些資源有限的場(chǎng)景中,比如在移動(dòng)設(shè)備和嵌入式系統(tǒng)上,它們對(duì)于能量和速度的要求很高。而即使在處理能力有限的環(huán)境中,邏輯門網(wǎng)絡(luò)也能讓深度學(xué)習(xí)繼續(xù)工作。
(來(lái)源:arXiv)
或在機(jī)器學(xué)習(xí)領(lǐng)域開辟更多可能性
不過(guò),對(duì)于彼得森的研究成果,也有學(xué)者對(duì)于其應(yīng)用前景表示擔(dān)憂。美國(guó)加州大學(xué)圣地亞哥分校電氣與計(jì)算機(jī)工程教授法里納茲庫(kù)尚法爾(Farinaz Koushanfar)表示,她不相信邏輯門網(wǎng)絡(luò)在面臨更現(xiàn)實(shí)的問(wèn)題時(shí)能夠發(fā)揮作用。
她說(shuō):“這是一個(gè)有趣的想法,但我不確定它的規(guī)模有多大!彼赋觯壿嬮T網(wǎng)絡(luò)只能通過(guò) relaxation 策略進(jìn)行近似訓(xùn)練,而近似訓(xùn)練可能會(huì)失敗。
盡管目前看起來(lái)問(wèn)題不大,但是庫(kù)尚法爾表示隨著網(wǎng)絡(luò)的發(fā)展,問(wèn)題可能會(huì)越來(lái)越大。
彼得森也承認(rèn),讓邏輯門的性能媲美傳統(tǒng)神經(jīng)網(wǎng)絡(luò)并不是他的目標(biāo)。造出有效且盡可能高效的東西就足夠了!斑@不會(huì)是最好的模型!彼f(shuō),“但它應(yīng)該是最便宜的!
邏輯門網(wǎng)絡(luò)在圖像標(biāo)記等任務(wù)上的表現(xiàn)不如傳統(tǒng)神經(jīng)網(wǎng)絡(luò),但美國(guó)康奈爾大學(xué)電氣與計(jì)算機(jī)工程教授 Zhiru Zhang 表示,這種方法的速度和效率使其潛力巨大。
他說(shuō):“如果我們能縮小差距,那么這可能會(huì)在機(jī)器學(xué)習(xí)的這一領(lǐng)域開辟很多可能性!
因此,彼得森對(duì)于未來(lái)很有信心。他打算繼續(xù)改進(jìn)邏輯門網(wǎng)絡(luò)的能力,并期待最終能夠創(chuàng)建一個(gè)“硬件基礎(chǔ)模型”。
試想一下,假如一個(gè)邏輯門網(wǎng)絡(luò)不僅功能強(qiáng)大而可以實(shí)現(xiàn)通用,那么就能直接在芯片上實(shí)現(xiàn)大規(guī)模應(yīng)用,而這些芯片進(jìn)而能被集成到手機(jī)和計(jì)算機(jī)等設(shè)備中。
這樣一來(lái)就有望帶來(lái)巨大的能源效益。如果邏輯門網(wǎng)絡(luò)能從低分辨率信息中,有效地重建照片和重建視頻,那么服務(wù)器和個(gè)人設(shè)備之間所需要發(fā)送的數(shù)據(jù)就會(huì)少得多。
參考資料:
1.https://arxiv.org/abs/2411.04732
https://www.suedkurier.de/region/kreis-konstanz/konstanz/Streng-geheimes-Forschungsprojekt-17-jaehriger-Informatik-Student-entwickelt-neuartigen-Roentgenlaser;art372448,9184349
https://www.technologyreview.com/2024/12/20/1109183/the-next-generation-of-neural-networks-could-live-in-hardware/
https://www.linkedin.com/in/felix-petersen-4aa014140/
https://petersen.ai/
運(yùn)營(yíng)/排版:何晨龍