精品国产乱码久久久久久1区2区,99久久伊人精品综合

強(qiáng)化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 09:54:36 瀏覽：1950次

導(dǎo)讀：OpenAI的研究科學(xué)家布朗（Noam Brown），這兩天在他的自我介紹中，加上了一條：OpanAI o1的共同締造者。他在OpenAI主要研究多步推理、自我對(duì)弈和多智能體人工智能。之前布朗已經(jīng)取得成就可謂輝煌：他和FAIR（Meta）的團(tuán)隊(duì)開發(fā)了CICERO，這是第一個(gè)在策略游...

OpenAI的研究科學(xué)家布朗（Noam Brown），這兩天在他的自我介紹中，加上了一條：OpanAI o1的共同締造者。

他在OpenAI主要研究多步推理、自我對(duì)弈和多智能體人工智能。之前布朗已經(jīng)取得成就可謂輝煌：他和FAIR（Meta）的團(tuán)隊(duì)開發(fā)了CICERO，這是第一個(gè)在策略游戲《外交》中達(dá)到人類水平表現(xiàn)的人工智能。在卡內(nèi)基梅隆大學(xué)期間，他與導(dǎo)師一起開發(fā)了Libratus和Pluribus，在人機(jī)對(duì)抗賽中擊敗了頂級(jí)人類撲克職業(yè)選手。

他早期的職業(yè)，其實(shí)是金融交易員。布朗在美聯(lián)儲(chǔ)的國(guó)際金融市場(chǎng)部門工作，研究金融市場(chǎng)的算法交易，之前是華爾街上一名從事算法交易的工程師。

2012年，深度學(xué)習(xí)開始進(jìn)入黃金時(shí)代，他進(jìn)入卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)系，碩士和博士的專業(yè)分別是機(jī)器人和計(jì)算機(jī)科學(xué)。2017年，布朗在Deepmind實(shí)習(xí)，參與了AlphaGO Zero項(xiàng)目。

早在大模型興起之前，DeepMind用強(qiáng)化學(xué)習(xí)的方法，在游戲和博弈中，已經(jīng)取得了超人的成就，問題在于，這種在給定領(lǐng)域的超人智能，能否泛化到其他領(lǐng)域，產(chǎn)生通用的人工智能。早在OpenAI之前，AGI已經(jīng)是DeepMind的使命：解決智能，然后解決一切。

今年3月10日，布朗在X上發(fā)布了一組推文，紀(jì)念A(yù)lphaGo戰(zhàn)勝圍棋世界冠軍8周年。他實(shí)際上是在向席爾弗（David Silver）致敬。

席爾弗是 DeepMind 的首席研究科學(xué)家，他領(lǐng)導(dǎo)了 AlphaGo 項(xiàng)目，首次在圍棋比賽中擊敗頂級(jí)職業(yè)選手；之后的AlphaZero 能自我對(duì)弈學(xué)習(xí)，成為世界上最強(qiáng)大的國(guó)際象棋、將棋和圍棋程序。他還共同領(lǐng)導(dǎo)了 AlphaStar 項(xiàng)目，開發(fā)出了世界上首個(gè)達(dá)到特級(jí)大師水平的星際爭(zhēng)霸玩家。西爾弗在谷歌的研究重點(diǎn)是基于強(qiáng)化學(xué)習(xí)的人工智能代理，共同領(lǐng)導(dǎo)了將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的項(xiàng)目。

最近，西爾弗在MIT的一次演講中指出，強(qiáng)化學(xué)習(xí)，正在引領(lǐng)AI跨越大型語(yǔ)言模型（LLM）之谷。他認(rèn)為，單靠LLMs不足以取得超級(jí)人工智能。超級(jí)規(guī)模的強(qiáng)化學(xué)習(xí)展開了一條通向超人智能的明確路徑。其有效性已經(jīng)一再得到證明（如Atari, AlphaGo, AlphaZero......)。同樣的方法也適用于強(qiáng)大的LLM先驗(yàn)?zāi)Ｐ停ɡ鏏lphaProof）。而這一切“僅僅是開始”。

強(qiáng)化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記

這個(gè)大模型新時(shí)代的機(jī)會(huì)，被布朗抓住了。2023年7月，布朗從Meta跳槽到OpenAI，當(dāng)時(shí)他的想法很明確：“多年來，我一直在研究人工智能在撲克和外交等游戲中的自我博弈和推理。現(xiàn)在，我將探討如何使這些方法真正通用。如果成功，我們或許有一天會(huì)看到比 GPT-4 強(qiáng)大 1000 倍的大型語(yǔ)言模型。”

布朗認(rèn)為，AlphaGo在擊敗世界冠軍李世石時(shí)，關(guān)鍵在于每下一步棋之前一分鐘的“思考”。AlphaGoZero的學(xué)習(xí)和推理方法，相當(dāng)于預(yù)訓(xùn)練10萬倍的規(guī)模。布朗在撲克游戲中也發(fā)現(xiàn)了同樣的規(guī)律，并且用AI首次在撲克游戲中首次戰(zhàn)勝了人類頂級(jí)選手。2021年，瓊斯（Andy Jones）在六邊形游戲（Hex）的實(shí)驗(yàn)中，發(fā)現(xiàn)并總結(jié)了這一規(guī)律；他的論文《通過棋盤游戲擴(kuò)展縮放定律》展示了如何在蒙特卡羅樹搜索（MCTS）的訓(xùn)練計(jì)算和推理計(jì)算之間進(jìn)行權(quán)衡。增加 10 倍的 MCTS 步驟幾乎等同于多訓(xùn)練 10 倍。

布朗認(rèn)為，如果發(fā)現(xiàn)一種通用的方法，不僅限于游戲，會(huì)帶來巨大的好處。“是的，推理可能會(huì)慢上1000倍，而且會(huì)更昂貴，但是，為了研發(fā)一種治療癌癥的藥物，或者證明黎曼猜想，多少推理的代價(jià)我們不會(huì)付出呢？” 而且它會(huì)對(duì)AI大模型的安全對(duì)齊研究帶來新的方法。

o1在OpenAI準(zhǔn)備了很久，在2023年3月微軟發(fā)布了測(cè)評(píng)GPT-4的深度論文時(shí)，就提出解決大模型中的幻覺問題，需要開發(fā)出類似人腦的“第二系統(tǒng)”，即慢思考功能。直到去年10月份，o1的研發(fā)才開始展開，OpenAI逾百名員工參與。此時(shí)正值OpenAI董事會(huì)突然解除奧特曼的CEO職位前夕，傳得沸沸揚(yáng)揚(yáng)的OpenAI的Q*模型項(xiàng)目，主要負(fù)責(zé)人之一正是布朗。Meta的首席AI科學(xué)家楊立昆認(rèn)為布朗正在研究Q*，即強(qiáng)化學(xué)習(xí)中的Q-learning （值函數(shù)算法）。

o1預(yù)覽版和輕量版發(fā)布了，被廣泛認(rèn)可開辟了大模型研究的新方向，也是擴(kuò)展定律的新范式。布朗回憶自去年7月加入OpenAI，現(xiàn)在這一切都發(fā)生得快于預(yù)期。

隨著最初創(chuàng)始人的紛紛離去，新一代的頂級(jí)人才正在接過火炬。o1正在接管OpenAI的一些工作關(guān)于Codebase的公關(guān)稿，已經(jīng)幾乎完全由o1撰寫。

據(jù)硅谷媒體報(bào)道，為了實(shí)現(xiàn)以1500億美元的估值融資65億美元，奧特曼可能會(huì)徹底改變OpenAI的治理結(jié)構(gòu)，在2025年廢除頂層非營(yíng)利公司，讓OpenAI完全成為一家營(yíng)利性公司。

OpenAI還是原來的那家公司嗎？它的創(chuàng)始人幾乎走光了，它的治理結(jié)構(gòu)已經(jīng)改變，它所做的大模型發(fā)展方向已經(jīng)發(fā)生改變，原先從事的工作，已經(jīng)被稱為“傳統(tǒng)大模型”�，F(xiàn)在，在OpenAI內(nèi)部，有些人認(rèn)為，已經(jīng)沒有必要做出一個(gè)GPT-6級(jí)別的基礎(chǔ)模型，才能達(dá)到人類水平的推理表現(xiàn)，通向AGI，就差一個(gè)強(qiáng)化學(xué)習(xí)了。o1開啟了這一進(jìn)程，并且初步證明了這一點(diǎn)。

強(qiáng)化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記

在原聯(lián)合創(chuàng)始人兼首席科學(xué)家蘇茨克沃（Ilya Sutzkever)對(duì)于擴(kuò)展定律的信仰，成為OpenAI的靈魂。蘇茨克沃的離開，標(biāo)志著OpenAI正在進(jìn)入一個(gè)新的發(fā)展階段。

蘇茨克沃對(duì)強(qiáng)化學(xué)習(xí)的大模型不感興趣嗎？無論是當(dāng)年西爾弗關(guān)于AlphaGo的論文，還是后來OpenAI的論文Let's Verify Step by Step，蘇茨克沃都是其中的作者之一。他本人對(duì)于用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)Superman Intelligence那一套，一點(diǎn)都不陌生，而且當(dāng)年正是他把布朗招至麾下。

如果說實(shí)現(xiàn)AGI，就差一個(gè)強(qiáng)化學(xué)習(xí)，這樣的方向，蘇茨克沃在離開之前就已經(jīng)為OpenAI定下。他后來共同負(fù)責(zé)安全對(duì)齊工作，并且打算用4年時(shí)間解決”超級(jí)智能“的對(duì)齊問題。但他離開了OpenAI，創(chuàng)辦了自己的公司SSI（ Safe Superintelligence Inc）并且稱他未來推出的第一個(gè)產(chǎn)品將是安全的超級(jí)人工智能。

現(xiàn)在，我們要面對(duì)三個(gè)概念，它們之間的關(guān)系要搞清楚：

超人智能（Superhuman Intelligence），在個(gè)別特定領(lǐng)域超過人類（通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)，如AlphaGo Zero）

通用人工智能（Artificial General Intelligence), 達(dá)到通用人類智能的水平，具有廣泛的靈活性和適應(yīng)性（以為只要不停地?cái)U(kuò)展下去，通過大模型可以實(shí)現(xiàn)）

超級(jí)智能（Superintelligence），在所有方面超過人類一般智能（蘇茨克沃的新創(chuàng)業(yè)項(xiàng)目）。

o1出現(xiàn)之后，LLM+RL=AGI，AGI+Ilya=SSI或ASI ？

今年以來，OpenAI公司鬧個(gè)不停，蘇茨克沃等創(chuàng)始人及團(tuán)隊(duì)主力出走、奧特曼的領(lǐng)導(dǎo)力受到質(zhì)疑、GPT-4已經(jīng)初主要對(duì)手趕超而GPT-5遲遲沒有發(fā)布，由于出現(xiàn)高達(dá)50億美元的虧損，公司的財(cái)務(wù)可持續(xù)性也令人擔(dān)憂。所以這一切，在讓OpenAI看起來像是團(tuán)正在燃燒的“垃圾箱大火”（dumpster fire)�，F(xiàn)在，隨著o1的發(fā)布，Open AI一時(shí)又成為街上最靚的仔，對(duì)外稱不缺算力只缺人，展開了新一輪的招兵買馬。

“來吧，加入這場(chǎng)垃圾箱大火。”

強(qiáng)化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記

強(qiáng)化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 09:54:36 瀏覽：1950次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

強(qiáng)化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 09:54:36 瀏覽：1950次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

強(qiáng)化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 09:54:36 瀏覽：1950次