文|白 鴿
編|王一粟
當(dāng)普通人被AI轟炸的已經(jīng)疲勞,應(yīng)用落地也沒有驚人地突破,AI大模型的發(fā)展似乎已經(jīng)進(jìn)入瓶頸期。
在云棲大會之前,業(yè)界彌漫著對AI的唱衰,似乎又到了一個歷史的轉(zhuǎn)折點。如2017年上一代深度學(xué)習(xí)AI一樣,在經(jīng)歷了行業(yè)高光時刻后,大模型似乎進(jìn)入了漫長的技術(shù)積累和落地應(yīng)用階段。
但AI大模型發(fā)展真的放緩了嗎?
“技術(shù)的進(jìn)步速度依然很快”、“落地中沒覺得太多困難,反而全是機會”。在兩天的交流中,大模型創(chuàng)業(yè)公司、云廠商、AI企業(yè)服務(wù)公司,行業(yè)里實打?qū)嵶鰳I(yè)務(wù)的所有公司都對光錐智能表達(dá)著,對AI前景的一片樂觀。
“o1的推理能力確實上了一個很大臺階。”階躍星辰創(chuàng)始人姜大昕在2024云棲大會上說道,“o1也第一次證明大語言模型可以擁有人腦慢思考能力,同時也帶來Scaling Law的新方向。”
這也就意味著,隨著OpenAI o1模型的發(fā)布,生成式AI從原本的預(yù)訓(xùn)練時代,邁入大規(guī)模推理時代。
不過,AI仍處于早期的發(fā)展階段。
“如今我們還處于L2的發(fā)展早期,但AI仍在加速發(fā)展中,未來18個月甚至有可能出現(xiàn)L4級的突破現(xiàn)在業(yè)界的對AI未來的整體預(yù)測,都過于保守了。”生數(shù)科技首席科學(xué)家朱軍則如此說道。
阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘在2024云棲大會上也表示:“過去22個月,AI發(fā)展速度超過任何歷史時期,但我們依然還處于AGI變革的早期。生成式AI最大的想象力,絕不是在手機屏幕上做一兩個新的超級app,而是接管數(shù)字世界,改變物理世界。”
阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘
無疑,當(dāng)前AI大模型的發(fā)展已經(jīng)進(jìn)入轉(zhuǎn)折點,而未來18個月,也將是決定我們能否邁向AGI時代的關(guān)鍵。
大模型邁入推理時代,技術(shù)仍在大爆炸類似于自動駕駛系統(tǒng)分級一樣,此前OpenAI也將最終抵達(dá)AGI終點,劃分了五大等級:
L1:聊天機器人,具有對話能力的AI。L2:推理者,像人類一樣能夠解決問題的AI。L3:智能體,不僅能思考,還可以采取行動的AI系統(tǒng)。L4:創(chuàng)新者,能夠協(xié)助發(fā)明創(chuàng)造的AI。L5:組織者,可以完成組織工作的AI。
其中,以GPT為代表的大語言模型屬于L1階段,而以o1為標(biāo)志,則開啟了L2推理時代。
背后的邏輯在于,GPT的訓(xùn)練方式為Predict Next Token ,即預(yù)測接下來會出現(xiàn)的token是什么,即使GPT4能夠把復(fù)雜的問題拆解成多個步驟再分布解決,但其還是屬于一種直線型思維,沒有反向推理、思考能力。
所以,GPT只能夠?qū)崿F(xiàn)類似于人腦中系統(tǒng)1的思考方式。這是我們的“快速思考”系統(tǒng),更多依賴于人類身體的條件反射能力,而不是思考能力。
而o1則采用了強化學(xué)習(xí)的訓(xùn)練框架,這就使大模型具備了思考能力,也就是系統(tǒng)2,其與系統(tǒng)1最大的區(qū)別,就在于系統(tǒng)2能夠探索不同的路徑,并自我反思、糾錯,然后不斷試錯,直到找到一個正確途徑。
“這次的o1,是把以前的模仿學(xué)習(xí)和強化學(xué)習(xí)結(jié)合起來了,使得一個模型同時有了人腦系統(tǒng)1和系統(tǒng)2的能力,意義非常大。”姜大昕如此說道。
同時,他也表示:“o1并沒有到一個很成熟階段,只是開端,實際上OpenAI給我們找到了一條上限很高的路,能夠不斷走下去。”
業(yè)內(nèi)也有觀點認(rèn)為,o1則暫時扭轉(zhuǎn)了大模型已沒有進(jìn)步空間論調(diào),為大模型 “泡沫” 續(xù)命。畢竟,此前大模型訓(xùn)練已經(jīng)陷入原有Scaling Law的瓶頸,模型參數(shù)規(guī)模擴大后,性能提升逐漸放緩。
不過,在姜大昕、楊植麟、朱軍等人看來,過去18個月中,大模型技術(shù)迭代并不慢,仍處于加速發(fā)展期。
“從廣泛的角度來說,大家可能沒感知到。單從技術(shù)來說,現(xiàn)在技術(shù)發(fā)展曲線是越來越陡峭的。”生數(shù)科技首席科學(xué)家朱軍如此說道。
一方面,從大模型數(shù)量角度來看,現(xiàn)在每個月都會有新的模型、新的產(chǎn)品、新的應(yīng)用涌現(xiàn)出來。
OpenAI在2月發(fā)布了Sora,5月發(fā)布了GPT-4o,上周發(fā)布的o1等,其對手Anthropic有Claude系列,谷歌有Gemini系列、LLaMA的系列等。
姜大昕表示:“原本OpenAI一家獨大,今年也逐漸變成了群雄并起,你追我趕的局面,各家都在提速。”
另一方面,從大模型能力的角度來看,從單一模型,到多模態(tài)融合,從多模態(tài)理解到多模態(tài)生成,從模仿學(xué)習(xí)再到強化學(xué)習(xí),可以看到大模型的能力正在縱向(理解多維物理世界)和橫向(思考能力,即智商)雙向發(fā)展。
在GPT-4o發(fā)布之前,OpenAI有單獨的視覺理解模型GPT4V、視覺生成模型Sora、聲音模型Whisper等,而隨著GPT-4o發(fā)布,原本這些孤立的模型則全部被融合到一起。
為什么融合這件事非常重要?
“因為我們物理世界本身就是一個多模的世界,所以多模融合一定是有助于大模型更好的去為物理世界建模,能夠更好的模擬世界。”姜大昕說道。
多模態(tài)融合能夠讓大模型更好的理解多模態(tài)的物理世界,o1的強化學(xué)習(xí)則可以讓大模型能夠自主思考物理世界中的事物發(fā)展邏輯。
同時,姜大昕還提到,智駕是一個非常有代表性的從數(shù)字世界走向物理世界真實應(yīng)用場景。特斯拉FSD V12的意義,不僅在于智駕本身,可以認(rèn)為是為將來智能設(shè)備如何與大模型結(jié)合,更好的探索物理世界指明一個方向。
此外,朱軍還提到,大模型技術(shù)加速發(fā)展背后最核心的原因,則在于大家對這種路線的認(rèn)知和準(zhǔn)備上,達(dá)到了比較好的程度,“在物理條件上,比如像云基礎(chǔ)設(shè)施、計算資源的準(zhǔn)備都比較充分,不像ChatGPT剛出來時,大家更多是不知所措。”
要想富,先修路。AI大模型的加速發(fā)展,也離不開AI基礎(chǔ)設(shè)施的快速迭代,以阿里云為代表的云廠商們,則在其中扮演著日益重要的角色。
“AI計算正加速演進(jìn),成為計算體系的主導(dǎo)。”吳泳銘說道,“在新增算力市場上,超過50%新需求由AI驅(qū)動產(chǎn)生,AI算力需求已占據(jù)主流地位。”
所有行業(yè),都需要性能更強、規(guī)模更大、更適應(yīng)AI需求的基礎(chǔ)設(shè)施。
在此次云棲大會上,阿里云在底層基礎(chǔ)設(shè)施層面,也進(jìn)行了全系列產(chǎn)品家族升級。全面重構(gòu)底層硬件、計算、存儲、網(wǎng)絡(luò)、數(shù)據(jù)庫、大數(shù)據(jù),并與AI場景有機適配、融合,加速模型的開發(fā)和應(yīng)用。
AI基礎(chǔ)設(shè)施的完善,無疑為大模型技術(shù)的升級迭代提供了強有力的支撐。
但就像行業(yè)廣為流傳的“無法落地的技術(shù)沒有價值”,如何推動大模型真正的落地應(yīng)用,也是擺在當(dāng)前行業(yè)中的一大難題。
大模型落地應(yīng)用的工具鏈已成熟大模型技術(shù)浪潮,往往會帶動整個產(chǎn)業(yè)鏈向前發(fā)展的浪潮,大模型的打造只是起點,把技術(shù)落地到產(chǎn)業(yè)場景,創(chuàng)造價值才是目標(biāo)。
在朱軍看來,現(xiàn)在大模型所有的落地應(yīng)用最后都指向兩個方向:
一個是面向C端消費者,提供娛樂化的數(shù)字內(nèi)容和工具;
一個是面向B端企業(yè),為行業(yè)發(fā)展降本增效,提升社會生產(chǎn)力水平。
不過,相比于C端,“B端應(yīng)用目前相對明確,許多大模型已在多個場景中廣泛應(yīng)用,幾乎覆蓋所有行業(yè)。”此前智源研究院院長王仲遠(yuǎn)如此說道。
但是,于企業(yè)而言,其需要大模型能夠在實際場景中真正解決某個問題,而不是在100個場景中解決70%-80%的問題。同時,現(xiàn)階段企業(yè)對大模型的訴求更加務(wù)實,不僅關(guān)注模型技術(shù)的領(lǐng)先性,也要看如何融合到業(yè)務(wù)場景,如何降本增效解決實際問題。
那么,如何幫助企業(yè)打破大模型技術(shù)落地障礙?
鏈接大模型技術(shù)和上層應(yīng)用的中間件,即一套大模型時代的原生工具鏈的成熟,則成為關(guān)鍵。
在中間工具鏈層,大概可以分為兩類玩家:
一類是以阿里云、騰訊云等為代表的云廠商們,這些云廠商們則構(gòu)建了從PaaS,到MaaS,再到SaaS的全棧式體系化工具鏈能力。
阿里云底層基礎(chǔ)大模型包含了大語言模型通義千問和覆蓋文生圖、文生視頻的場景模型通義萬象,在兩個模型基礎(chǔ)上,在延伸出其他模型產(chǎn)品,用戶可以按需使用。
阿里云的MaaS服務(wù)平臺百煉,則為開發(fā)者和企業(yè)提供一站式AI大模型開發(fā)工具,包括完整的模型服務(wù)工具和全鏈路應(yīng)用開發(fā)套件,并預(yù)置豐富的能力插件,提供API及SDK等便捷的集成方式,高效完成大模型應(yīng)用構(gòu)建。
魔搭社區(qū)則匯聚了業(yè)內(nèi)領(lǐng)先的大模型產(chǎn)品,能夠讓開發(fā)者一站式調(diào)用自己想要的模型。同時,阿里云還為用戶和企業(yè)提供可以開箱即用的模型應(yīng)用,包括通義靈碼、實時記錄、PPT創(chuàng)作、翻譯助手等。
“我們希望企業(yè)和開發(fā)者能以最低的成本做AI、用AI,讓所有人都能用上最先進(jìn)的大模型。”阿里云CTO周靖人表示。
其他云廠商與阿里云在整體工具鏈架構(gòu)上相差不大,同樣都能夠為開發(fā)者和企業(yè)提供大而全的工具鏈平臺,而這也是云廠商們的優(yōu)勢。
另一類,則是面向不同領(lǐng)域細(xì)分的玩家,比如專注于數(shù)據(jù)庫的OceanBase、做合成數(shù)據(jù)平臺的51Sim,做物理AI訓(xùn)練平臺的松應(yīng)科技、面向游戲賽道的巨人網(wǎng)絡(luò)等。
這些玩家聚焦在某一細(xì)分市場中,并為該市場領(lǐng)域的用戶提供成熟的平臺工具鏈產(chǎn)品。
比如在數(shù)據(jù)領(lǐng)域,大模型的發(fā)展離不開高質(zhì)量的數(shù)據(jù),但是真實數(shù)據(jù)的絕對量又是相對較少的。因此,近兩年來合成數(shù)據(jù)也正逐漸成為行業(yè)發(fā)展的重點趨勢之一。
此次云棲大會上,專注于合成數(shù)據(jù)平臺的51Sim也進(jìn)行了相關(guān)技術(shù)展示,其已經(jīng)構(gòu)建起了大量高質(zhì)量的合成數(shù)據(jù)集及針對3D數(shù)據(jù)生產(chǎn)的工具鏈,并已實現(xiàn)量產(chǎn)落地,幫助傳統(tǒng)行業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型的同時也致力于有效服務(wù)AI大模型訓(xùn)練。
此外,值得一提的是,在算力層面,除了云廠商們之外,還有一批創(chuàng)企聚焦于AI Infra賽道,要做算力的“賣鏟人”。
無問芯穹的業(yè)務(wù)是以大模型能效優(yōu)化工具包為核心,向下聯(lián)動多家國產(chǎn)芯片公司,向上服務(wù)大模型算法企業(yè)(通過智算云服務(wù)、智算一體機等方式),協(xié)同算力、算法、生態(tài),推動行業(yè)大模型的高效落地。
算力、算法和數(shù)據(jù),是AI大模型發(fā)展的基矗在這三大領(lǐng)域,除了云廠商們之外,也都存在不同企業(yè),做小而精的工具鏈平臺,前后兩者則共同為大模型的落地應(yīng)用,提供了成熟工具鏈,也讓大模型落地變得更加順暢。
大模型落地應(yīng)用的PMF“我們現(xiàn)在仍處于產(chǎn)業(yè)發(fā)展的早期階段,其中一個特點就是技術(shù)驅(qū)動產(chǎn)品的比例會更高。”月之暗面創(chuàng)始人楊植麟說道,“因此很多時候,產(chǎn)品開發(fā)其實是在觀察當(dāng)前技術(shù)發(fā)展,然后盡量把它的價值最大化。”
而隨著o1的發(fā)布,強化學(xué)習(xí)的訓(xùn)練模式,無疑也將會給產(chǎn)品應(yīng)用帶來新的范式。
楊植麟也表示,產(chǎn)品形態(tài)上也將會發(fā)生變化,“引入這種思考范式后,AI可能能夠執(zhí)行分鐘、小時甚至天級別的任務(wù),產(chǎn)品形態(tài)會更接近人或“助理”的概念。”
事實上,目前AI大模型落地應(yīng)用的邏輯,還是以TPF(技術(shù)/產(chǎn)品契合度)為主,而不是以PMF(產(chǎn)品/市場契合度)為主。
不過,隨著大模型技術(shù)的快速迭代,技術(shù)的可用性也大幅提升,大模型已經(jīng)具備了文本、語音、視覺的多模態(tài)能力,能夠開始完成復(fù)雜指令。
未來以PMF為主的大模型新應(yīng)用趨勢,也將逐漸成為主流,而只有真正的基于市場需求,才能夠創(chuàng)造出真正的殺手級應(yīng)用。
在此趨勢下,面向人形機器人、教育、汽車、制造、交通等多個領(lǐng)域,多項基于大模型最新應(yīng)用加速落地應(yīng)用。同時,在目前大模型落地應(yīng)用的方式上,則大概有創(chuàng)作搭檔、效率工具、專業(yè)助手、擬人交互等4大類。
比如在汽車領(lǐng)域,為了解決人類駕駛的雙手,智能駕駛技術(shù)飛速發(fā)展,“端到端”大模型是當(dāng)下備受關(guān)注的自動駕駛解決方案。
“之前的自動駕駛技術(shù),是靠人來寫算法規(guī)則,幾十萬行代碼,仍然無法窮盡所有的駕駛場景。采用‘端到端’大模型技術(shù)訓(xùn)練后,AI模型可直接學(xué)習(xí)海量人類駕駛視覺數(shù)據(jù)。”吳泳銘表示。
大模型加持下,人形機器人擁有了聰慧的“大腦”、敏捷的“小腦”、靈活的“肢體”。“我們研究了人形機器人的操作大模型,基于語言和視覺信號的輸入,使得人形機器人有了舉一反三的能力,可以只需要少量數(shù)據(jù)就能學(xué)會相關(guān)技能。”清華大學(xué)交叉信息研究院助理教授、星動紀(jì)元創(chuàng)始人陳建宇說。
在教育領(lǐng)域,大模型成熟前,人類歷史上所有技術(shù)都無法實現(xiàn)類老師的一對一輔導(dǎo)。隨著大模型技術(shù)發(fā)展,在2024云棲大會上,精準(zhǔn)學(xué)布全球首個超擬人一對一AI老師。
“它就像你花200-300元\\小時請的一對一私人老師一樣,能有規(guī)劃、有體系地對孩子進(jìn)行一對一學(xué)習(xí)輔導(dǎo),而且AI老師還能運用不同的教學(xué)技巧,實時調(diào)整教學(xué)內(nèi)容,幫助學(xué)生養(yǎng)成好的學(xué)習(xí)習(xí)慣。”精準(zhǔn)學(xué)集團創(chuàng)始人&CEO楊仁斌如此說道。
“超擬人一對一AI老師”的誕生意味著大模型從千篇一律的“AI做題工具”真正進(jìn)化到普適化的教學(xué)應(yīng)用場景,開始成為一個“體系化的教學(xué)輔導(dǎo)老師”。
事實上,從聊天機器人,到AI搜索,再到AI視頻生成,大模型的落地應(yīng)用可以說引發(fā)了一個又一個行業(yè)熱潮,但回歸到真實用戶體驗上,卻又是“沒那么好用”。
歸根結(jié)底,還是目前大模型技術(shù)發(fā)展尚屬于早期階段,技術(shù)推動產(chǎn)品發(fā)展,而不是技術(shù)成熟后,由市場需求推動產(chǎn)品。
不過,AI具備創(chuàng)造能力、幫助人類解決復(fù)雜問題的路徑,已經(jīng)清晰可見,也打開了AI在各行業(yè)場景中廣泛應(yīng)用的可能性。
“今天o1出來以后,把強化學(xué)習(xí)又泛化到了更高的階段,AI的能力上限也變得更高了,這其中將會存在這大量的機會。”姜大昕也如此說道。
面向未來“因為現(xiàn)在整個加速發(fā)展,很多時候我們預(yù)測通常會過于保守。我預(yù)想未來18個月可能比較令人興奮的一個進(jìn)展,我希望看到L3已經(jīng)基本上實現(xiàn)。”朱軍如此說道。
吳泳銘也表示,“AI驅(qū)動的數(shù)字世界連接著具備AI能力的物理世界,將會大幅提升整個世界的生產(chǎn)力,對物理世界的運行效率產(chǎn)生革命性的影響。”