展會信息港展會大全

金璐瑤:AI模型已從單線程發(fā)展為多線程,這改變了人類和AI的交互過程|Alpha峰會
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-24 18:36:11   瀏覽:313次  

導(dǎo)讀:12月21日,阿里巴巴通義實驗室產(chǎn)品負責(zé)人金璐瑤做客由華爾街見聞和中歐國際工商學(xué)院聯(lián)合主辦的「Alpha峰會」,就AI應(yīng)用演進和背后的助推力做出分析、展望。以下為演講精彩觀點:上一代AI模型中,大語言模型是一個基座,生成圖像、增強搜索都是插件,應(yīng)用在大模型之上,這會局限AI模型表達的形態(tài)。所以目前,大家更傾向于把大模型作為能力的本身,這樣子AI模型包裝出來的應(yīng)用形 ......

12月21日,阿里巴巴通義實驗室產(chǎn)品負責(zé)人金璐瑤做客由華爾街見聞和中歐國際工商學(xué)院聯(lián)合主辦的「Alpha峰會」,就AI應(yīng)用演進和背后的助推力做出分析、展望。

以下為演講精彩觀點:

上一代AI模型中,大語言模型是一個基座,生成圖像、增強搜索都是插件,應(yīng)用在大模型之上,這會局限AI模型表達的形態(tài)。所以目前,大家更傾向于把大模型作為能力的本身,這樣子AI模型包裝出來的應(yīng)用形式會多種多樣。

最早的一些的模型是單線程,而現(xiàn)在已經(jīng)發(fā)展成一個多線程的過程,AI模型開始能夠舉一反三,解答從來沒有見過的問題。這改變了人類和AI交互的過程,比如做會議紀(jì)要,以前可能需要用到非常多不同模態(tài)的能力,現(xiàn)在有機會把它拼合在一起,AI可以做總結(jié)、整理郵件、列出日程計劃,成為真正的工作生活助手。

大模型時代的到來,利好充滿創(chuàng)意的人,AI模型能夠以一種高效、新穎的方式幫助人類。

金璐瑤:AI模型已從單線程發(fā)展為多線程,這改變了人類和AI的交互過程|Alpha峰會

以下為討論實錄:

大家好,我叫金路瑤,我來自于通義產(chǎn)品部,我是產(chǎn)品的負責(zé)人。那我今天跟大家分享的這個東西,也是我們差不多整個通義在跑下來以后有一些成功的經(jīng)驗,當(dāng)然去掉了一些失敗的經(jīng)驗。

我剛才聽陳老師在上一趴,也跟大家從投資人的角度其實講的特別好,就是可以跟我這趴完全完美的銜接在一起,那我們可以來看一下,到底今天什么東西是ready的,以及它背后的東西是什么。

那我回到的是說它背后的東西是什么?那我相信各位校友們應(yīng)該比我清楚的是,那經(jīng)濟背后有一個不可見的手,對吧?那我們今天AI應(yīng)用落地或者是工具落地,它其實同時也存在一個看不見的手,就是我們的模型能力。那剛才陳老師也說了,那今天在這個市場上什么是ready的?什么是不ready的?但其實很多的時候我們會發(fā)現(xiàn)尋找邊界的這個過程是非常有意思。

那舉個例子來講,那我們會發(fā)現(xiàn)上一代的模型,那它無論是從文本的一些的問答,包括說現(xiàn)在市面上有很多人在創(chuàng)業(yè)做小紅書賬號,抖音的賬號,它去做很多的一些內(nèi)容,原創(chuàng)的一些的生成。OK,做了很多的,它往往是以一個chatbot的一個形態(tài),就是你跟它去做對話,那它是一個什么樣子的過程?那慢慢的我們叫它協(xié)作畫布,那這個可能是一種更加新的一種創(chuàng)作的形式,包括說方式,那我一個個跟大家來做解析。就是說我們今天看到的這個chatbot,主要是它就是一個chat框,那包括說后面出現(xiàn)的,包括說publicity。那這個框的背后是時候每一個人在學(xué)習(xí)的過程中,他會不停的去積累他自己的所謂的知識,那知識會幫你們每次在問答問題的時候它被使用到。

今天模型也是同樣的概念,那我們在8月份的時候和奧運會,也就是我們的奧組委一起合作做了一個奧運GPT,那很多的時候就是把奧運歷史的知識給到了今天。什么意思呢?比方說原來的賽事講解員,他需要在線去搜索很多的一些東西,挑出一個最優(yōu)的結(jié)果,變成我的一個參考物,那今天對于大模型來說,它用它的知識來講是我把所有的結(jié)果讀一遍。我覺得哪幾件事情它互補在一起是一個邏輯框架,那我把它整理好像極了你的秘術(shù),那給到你一個具體的結(jié)果之后,你可以直接來用。那搜索是什么?搜索其實本質(zhì)上大家用百度的時候也是從里面去找到一個最接近你想要的一個答案。那今天它就是一個知識被閱讀學(xué)習(xí)總結(jié)的一個過程,所以更多的還是基于知識的一個交換,然后我們會看到這個的交互的形式,它極致會拓展到什么程度?就是類似于我們通義做的是李白數(shù)字人。

那剛才我看陳老師也講了correct AI,那correct AI包括說Mini Max很多的時候他在做的那一部分的形態(tài),它也是來自于說用一個數(shù)字人的形式來表達最優(yōu)解的一個問答或者是一個知識,那它在第一代的模型,也就是我們稱之為上一代模型的時候,基本上是用這樣子的一個方式來解答今天audience的一個問題,或者是你想要去探索的一個答案。

那在這個市面上慢慢就會涌現(xiàn)很多相關(guān)的一些產(chǎn)品,比如說為什么correct AI最早的時候就產(chǎn)生了,因為它很能夠和人互動的過程中產(chǎn)生很多的一些的對話,幫你去做一些的輔助。那我們的李白數(shù)字人他去做什么?李白數(shù)字人做的是我們今天來到了貴州的一些的鄉(xiāng)村的一些的小學(xué),讓這些的小學(xué)生跟李白數(shù)字人問答的情況下,來背李白的唐詩,或者是來解答他的生平濟世。那這樣子的一些的事情,我們前段時間也在跟南京博物院一起來合作,包括說在一些的文物復(fù)活上、歷史故事的一些解答上,它會有一些創(chuàng)新。

所以我們今天在談模型它是否ready的時候,那要談一個問題,什么是他今天一定ready的事情?那這也是我們整個大模型在創(chuàng)業(yè)期間我們會去思考的第一個問題,那我們會把它稱之為這一代帶的一個什么樣?這個市場有痛點,那模型的邊界在哪里?那我們放出這樣子的交互的產(chǎn)品,希望大家用到它的同時能夠助力你的事業(yè)和行業(yè)。

那隨著模型的演進模型,那這個我現(xiàn)在呈現(xiàn)出來的就是上一代的模型,我們在應(yīng)用落地的時候的一個架構(gòu),你會看到是說今天large language model就是一個它的基座,那所有的一些基座都藏在這個框的背后。然后我們所謂的一些模型的一些能力,包括說圖片處理,包括說一些圖像的生成、增強的搜索,它其實都是作為一個插件的形式,然后應(yīng)用在大模型之上。

那這個會產(chǎn)生一個不好的后果,就是它局限了今天表達的形態(tài),它也局限了今天每一個人在使用它的時候的第一步的門檻。 所以我們在這一代創(chuàng)業(yè)的時候,我們在應(yīng)用的創(chuàng)業(yè)的時候,我們會更傾向于把今天的大模型作為一個什么,作為一個原子能力的本身,比如說圖片生成是一個能力。比如說文本問答是一個能力,比如說我們今天打開攝像頭進行一個增強視覺能力的多模態(tài),它是也是一個能力,那這樣慢慢的它包裝出來的形式會有多種多樣的。

舉個例子來講,那今天比如說canvas,也許大家知道,也許大家不知道,這是我非常喜愛的產(chǎn)品,它從原本局限的大家在跟大模型的一個對話里面就會變成一個什么樣子的東西呢。 比如說我曾經(jīng)聽說過中歐的有一位同學(xué),他可能看到16篇論文,然后老師給他布置了一紙試卷,說你在今天可能是周天,你周三的時候就交給我。那可能這樣的作業(yè)本身是一個比較難去做的作業(yè),但我今天這個只是一個打趣,那這位同學(xué)他就把那十幾個論文直接上傳到ChatGPT里,然后原本的形式是它只能給你來一問一答,你說這12篇文章都說了一些什么?你給我概括出來。那今天如果是用這樣子的交互形式,你在左邊說你幫我去生成一篇什么樣子新式的一個論文,我大概告訴你我的策劃的方向是什么。那然后呢?他會接著來回答你,他相關(guān)這12篇論文中的一些相關(guān)內(nèi)容有哪一些?然后自動的回答在右邊,然后你會說,唉,這一段我覺得遠遠不夠,我希望他再潤色一下,你去框選一下你希望去潤色的一些內(nèi)容,他在進行這12篇的閱讀的過程中,進行一些更加細節(jié)的一些的處理,包括說段落的一些摘要,幫你抽屜出來,然后再補充進這一段的論文中,那它是不是一個更快速的創(chuàng)作的過程呢?

我相信通過這個的一個過程,大家應(yīng)該可以想到,其實今天文字工作者的創(chuàng)業(yè)或者是媒體的創(chuàng)業(yè),它也許會發(fā)生一個變革。 那比方說我們最近通義也一直在研究,我們?nèi)绾瓮ㄟ^這個過程幫助浙江日報的各位的記者更高效的去寫他們的一些的社論,包括說一些的新聞,包括說幫助我們每一個普通的用戶去獲取你關(guān)注的領(lǐng)域。今天有可能一共發(fā)生了25件事,那我有沒有可能每天早上睡醒的時候花個10分鐘就讀完?那這一些的過程是怎么去創(chuàng)意出來的呢?它更多的是通過這樣子的應(yīng)用的架構(gòu)去產(chǎn)生的,那這些的模型的能力相對來說是非常ready的。那下一步就是說那剛才郎陳老師也說到了O3今天早上發(fā)布了,那之前更加ready說O1的這個模型產(chǎn)生了,那他對我們的生活會發(fā)生什么樣的改變?那我還是拿ChatGPT來舉例子,那OpenAI的兩代模型,其實它的特征反映是說這個業(yè)內(nèi)我們?nèi)プ瞿P偷倪@個路徑的時候,會去選擇的一些不同的部分。

比方說for它更多的是集中在多模態(tài)的一些的能力,但是在它那一代的時候其實并不具備很多思維鏈的一些涌現(xiàn)。說人話是什么意思?他沒有辦法舉一反三,那在OE的這個時代他就能夠去做到這件事情,同時這一部分邏輯推演的一些能力,甚至慢慢的可以去做數(shù)學(xué)題,去處理奧賽的信息,去做很多的coding。那我們會發(fā)現(xiàn)它的一個區(qū)分是在哪里?最早的是一些的模型,也就是說類似于像for這個模型在做它的時候,它其實是一個單線程,也就是我們會發(fā)現(xiàn)我們?nèi)プ鲆患虑榈臅r候,它的模態(tài)和一個記憶,包括說它的一個反思往往是綁定在同一個任務(wù)流里的。那我們?nèi)祟惒辉趺纯紤]問題,我們其實同時會去思考既有邏輯的部分,又有情感的部分,又會帶入我和你的對話里面可能曾經(jīng)發(fā)生過的一些的片段。

那這個其實它是一個多線程的過程,不是一個單線程的過程,所以你會發(fā)現(xiàn)o這一代的模型,也就是無論是O1、O2還是O3,它其實代表的是說我在這一部分的推理的邏輯里面會更傾向于不同的一些的介質(zhì),或者是不同的一些的模態(tài)帶給我的一些的反饋,我進行一個綜合的處理,變成一個舉一反三的一個現(xiàn)象,所以這個像極了什么,就是像極了我們經(jīng)常在公司里面評價一個員工,我今天教你了一件事情,我是要教多少遍才能教會你?如果我教一遍就會了,我會說你這個人很聰明,那這也是為什么說我們會發(fā)現(xiàn)到了多線程這一步的時候,我們極具個性,人會去發(fā)現(xiàn)是說模型變得越來越聰明了。因為他有這一部分的能力去解決更多的一些的問題,更復(fù)雜的一些的任務(wù),甚至于像今天早上O3我們看到最興奮的一個點是什么?他甚至于可以去解答那些他從來沒有見過的問題。 那這個是一個什么?像極了今天一個科學(xué)家你要去解一個別人沒有解答出來的東西,他有辦法去解,也許他解的不好,但是他有辦法,那就代表的是說今天的模型有一個接近于人類智力的水平,當(dāng)然這個到應(yīng)用確確實實還有很長一段時間。

但是我們會發(fā)現(xiàn)基于OE這樣子的一個慢思考,包括說推理的過程,它恰恰改變了很多的交互的存在。那比方說舉個例子講,我們曾經(jīng)可能要去做一個會議紀(jì)要,那你今天需要用到非常多不同的一些的模態(tài)的能力,那我們今天就有機會把它拼合在一起,端到端級聯(lián)在同一個模型里面去做一件什么樣的事情呢?首先開會的時候他來聽,幫你基于每個人不同的聲音做一個summarize。然后在過程中也許你會打斷他說,我記得我上一次開這個會的時候有那么一個action,他是否在這一次有一個?嗯,recap,也許他沒有,那他可以提醒你,那開完會了之后很多人是需要去整理郵件的,包括去整理一些待辦事項,變成一些agenda,甚至需要mail出去。

那它可以一條體系鏈的去結(jié)束這件事情,當(dāng)這個播放按鈕或者是錄音的按鈕按暫停的時候,它自然會生成一個大綱,也就是我們在圖上看到的這一張思維導(dǎo)圖。他會把會議中涉及到的方方面面可能提過的知識點都匯集成一些不同的tag,或者是不同的一些的內(nèi)容給你進行展示。 你如果覺得我今天需要以 Email 的形式發(fā)出去,你可以要求他把這張的大綱擴充成一段的 Email 寫的要有領(lǐng)導(dǎo)的語氣,或者是寫的要有一個agenda 的方式。這個都是在過程中模型和你的交互,那所以它可以很好的幫助大家來輔助工作或者是輔助記錄,然后甚至在結(jié)束的時候它有一個很關(guān)鍵的能力,那也是最近我們一直在看的一個非常有契機也去做好的第一代用戶產(chǎn)品是什么?就是它可以來幫助每一個人去做課堂筆記。你可以邊聽邊去拍照,然后插入到剛才那段summarize里面,當(dāng)他幫你整理成agenda的時候,你覺得我好像有一段的記知識點沒有看的那么清晰,我再想復(fù)述一遍。那你就去點選它,它會來到那個章節(jié),幫你再擴充知識點,甚至于可以幫你再去聯(lián)網(wǎng)搜索,然后把課堂上沒有聽到過的線上的知識再給你進行一次的涌入。 那這個時候極大的方便了我們?nèi)W(xué)習(xí)知識的這個門檻。

然后我們可以看到另外一張圖,我們?nèi)プ隽艘粋級聯(lián)的這個模式是什么?這個大家看到好像是一張抖音的圖,上面蒙了一個層,其實它是一個翻譯。那我們在今年8月份的時候,在云棲第一次展示了這款產(chǎn)品,也就是大家無論是在跨國會議里,還是在今天很多的一些場合,比如說要去看一些的美劇,但它可能是生肉,它壓根就沒有字幕。那原本你要做同聲翻譯或者是字幕組,你可能要等兩天同聲翻譯,它有可能是要聽完一整句話它才會給你翻譯下一句話。那今天我們的翻譯的模型,通過剛才多線程的這種模型的連接的方式,它就可以做到秒毫秒級輸出,也就是當(dāng)這個英文的第一個單詞吐出來的時候,這個的翻譯就出現(xiàn)了。那我們在云期的時候,義烏的老板娘們聽到了這個非常的瘋狂,就基本上每一個老板娘都不表示這個模型他一定要買,方便他去做出海的這套業(yè)務(wù)。所以剛才陳老師也說了,我覺得就是說在 p 和 b 這件事情上,可以說今年是非常 ready 的。它有非常多 ToB 的工作,可以做 ToB 的這一些的工作其實只要大家有想象力,那基本上這個工具的創(chuàng)新它是相對來說非常 ready 的。那這也告訴我們的一件什么樣子的事情,原本最早的時候模型創(chuàng)業(yè),我們叫做PMF,但可能今天 PMF 是遠遠不夠的。那你會發(fā)現(xiàn) technical 這個事情,它每一個月都會有一些新的東西。然后包括說你每一個月隨著你去用不同的一些的模型,你會發(fā)現(xiàn)你在改變他的一部分的觀點和觀念。但是我始終是一句話,我們今天很多的時候模型是來輔助人類去學(xué)習(xí)、去工作、去生活的。他沒有辦法取代你,因為我們今天還處于一個 level two,對不對?那基本上它跟我們也許是碩士畢業(yè)的水平具備了一定專業(yè)性。那它的知識面是非常相當(dāng)?shù),只是今天的模型它具備了非常多個專業(yè)的碩士而已,那這個的時候它可以很好地去輔助到你的工作,幫助你去做一些方方面面助理,可以去幫你干的活,生活助理、工作助理和一些學(xué)習(xí)助理。

所以這個里面就我們?nèi)シ治鍪钦f今天一件事情,或者是今天的模型到了哪一步可以去做,那更多的情況下我們希望去平衡的是技術(shù)市場和這一部分的用戶痛點,它有沒有合在一起?如果合在一起那就是一個非常好的產(chǎn)品,殲擊也一定能夠站得住。然后另外一點我也想提出這個觀點,也是我們團隊內(nèi)一直在講的一件事情。就是今天模型的創(chuàng)業(yè)或者是大模型的到來,他利好一種類型的人,他非常要有創(chuàng)意,非常的希望去改變曾經(jīng)已經(jīng)非常讓你俗套的一些的生活,你希望擁有更高效或者是更新穎的一種方式來幫助到你。

比如說我們最近會看到的是說很多的一些線上的一些工具,大家來到通義上去進行一個 agenda 創(chuàng)作的時候,會有一些很有意。 面試官的一些相關(guān)的能力開在這里,然后對方可能通過視頻進行一個面試的時候,翻譯官自動幫你去答出了一個運營專家最應(yīng)該回答的一個問題,那能不能說這是一個翻譯工作呢?那雖然說這個 h 里面有一些 tricky 所在,但是,嗯,可以說這是一個一個人創(chuàng)業(yè)的開始,也是一個創(chuàng)業(yè)的一個落地。 所以利好所有創(chuàng)意的人士,利好所有文科生,利好所有今天在創(chuàng)意的表達上有自己想法的一些的人,我舉個例子講,我們?nèi)f象的平臺最近一直在做 x 模型的升級,那它跟我們今天大文本模型完全是兩套的技術(shù)棧,你剛才陳老師也講到了一個對于客觀物理世界的一個理解,它和今天文本的模型是兩套,一個代表了你的眼睛,一個代表了你的一個也許是嘴或者是耳朵,那今天不同的這一部分的模型的能力其實能幫助到大家的地方是不太一樣的。 比方說大家也看過 Meta 去和那個 ChatGPT 一起合作的那款眼鏡,其實很多的時候它也代表了說技術(shù)的革新,它不一定只發(fā)生在屏幕界內(nèi),它也會改變每一個硬件。那今天的眼鏡是這個樣子,那今天的項鏈又何其不是這個樣子的?所以大可以更加的多一些的創(chuàng)新去改變你們今天覺得方方面面做不到的一些的事情?赡芙裉炷P投寄軌蜃,那我今天的分享就到這里,感謝大家。

本文來自華爾街見聞,歡迎下載APP查看更多

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港