11月28-29日,為期兩日的36氪WISE2024 商業(yè)之王大會于北京隆重召開,作為中國商業(yè)領域的全明星盛典,WISE大會今年已經(jīng)是第十二屆,在不斷變化的時代里見證著中國商業(yè)的韌性與潛力。
2024,是有些模糊且變化多于穩(wěn)定的一年。相比過去十年,大家的腳步正放緩,發(fā)展更加理性。2024,也是尋求新的經(jīng)濟動力的一年,新的產(chǎn)業(yè)變化對每個主體的適應性提出了更高的要求。今年WISE大會以Hard But Right Thing(正確的事)為主題,在2024,什么是正確的事,成為我們更想交流的話題。
當日,「后摩智能」副總裁倪曉林帶來了主題演講,分享了AI與NPU背后所蘊含的無限可能與深遠影響。
以下為演講內(nèi)容(經(jīng)36氪整理編輯)
倪曉林:尊敬的各位來賓大家好!
我是來自「后摩智能」的倪曉林,「后摩智能」是一家基于存算一體的AI芯片公司。今天每個環(huán)節(jié)都在講AI,各種AI大模型、AI設備、AI應用場景都在飛速發(fā)展。作為AI大時代的參與者、見證者,我們感到非常榮幸。下面與大家分享后摩智能對于邊端側(cè)AI算力需求變化的一些看法。
后摩智能
2022年11月OpenAI發(fā)布ChatGTP3.5,標志著AI 2.0時代的到來;2023年,大批的本地大模型發(fā)布。AI開始沿著兩個路徑同時高速發(fā)展。云端模型持續(xù)沿著scaling law向前演進,模型規(guī)模和參數(shù)繼續(xù)增加,不斷探索通用智能的邊界。例如去年發(fā)布的GTP4的參數(shù)就高達1500B,也就是15000億個參數(shù)。但追求高通用性、高智商的同時,也帶來了超高的投入和高昂的運營成本。目前已經(jīng)有大批的玩家開始退出了這個攀高的賽道。
與此同時,端邊側(cè)出現(xiàn)了更適合本地部署的7B,13B,30B等模型,和大型通用智能相比,這些模型更適合進入千行百業(yè),解決各類實際問題。和云端“萬模齊發(fā),百模爭霸”相比,端側(cè)無疑擁有更大的應用規(guī)模,每年全球新增智能設備高達數(shù)十億臺,全球端邊側(cè)的規(guī)模想象空間更大、前景更廣闊。
另外,端邊側(cè)的AI具有個性化更懂你、低時延實時性、數(shù)據(jù)隱私等優(yōu)點,例如AI PC,它具有了解你個人信息的專屬Agent、根據(jù)你歷史文檔建立的本地數(shù)據(jù)庫等。
當然,目前我們看到更多的討論還是云端模型,端邊側(cè)模型的還沒有得到普及,我想除了這些軟件的因素以外,還有一個很重要的影響就是硬件。端側(cè)對的硬件要求和云端不同,可以總結(jié)為“三高三低”:高算力、高帶寬、高精度、低功耗、低延時、低成本。
CPU顯然無法滿足全部要求,GPU雖然可以滿足三高,但同時其高成本和高功耗又大大限制了端側(cè)設備的普及使用。例如如果本地運行30B模型,我們需要一塊4090顯卡,但將近2萬塊錢的成本和近500W的功耗讓絕大部分設備都無法承受。
和云端“訓練”場景為主不同,邊端側(cè)大模型基本都以“推理”場景為主。專為本地大模型設計的NPU相信更加適合邊端側(cè)的使用。比如我們可以用十分之一的功耗實現(xiàn)GPU相同的算力,同時NPU自帶大內(nèi)存,無需通過系統(tǒng)總線占用系統(tǒng)內(nèi)存,就完全可以流暢獨立運行。NPU的成本也大大優(yōu)于GPU,讓現(xiàn)有設備+AI成為可能。
面對邊端設備對AI高帶寬、低功耗等需求,傳統(tǒng)的馮.諾伊曼架構(gòu)已經(jīng)面臨巨大挑戰(zhàn),特別是存儲墻和功耗墻相信很多企業(yè)都已經(jīng)苦不堪言。
存儲墻,是指因為總線帶寬有限,嚴重限制了數(shù)據(jù)傳輸?shù)乃俣取?br/>
功耗墻,是指90%以上的功耗是耗費在數(shù)據(jù)的搬運中,而不是真正需要的計算和處理。
面對這兩堵高墻,后摩智能采用存算一體的全新架構(gòu),實現(xiàn)了存儲單元和計算單元的高度集成,計算直接在存儲單元完成,使得功耗大幅下降,帶寬大幅增加。
存算一體的AI芯片實現(xiàn)了AI能效比2-3個數(shù)量級提升。算力密度提升高達50%,時延較傳統(tǒng)架構(gòu)芯片更是有數(shù)倍提升。這些特點都非常適合邊端側(cè)AI大模型的需求。
后摩智能
目前,后摩智能已經(jīng)自研了兩代存算一體芯片架構(gòu),針對LLM類大模型,進行了專項設計。
主要體現(xiàn)在:
1、基于存算一體自研IPU架構(gòu),提供高并行的浮點和整型算力,自研SFU支持多種非線性算子;自研RVV多核提供了超大通用算力,可靈活支持各類LLM/CV算法;自研C2C接口,具備多顆芯片級聯(lián)擴展特性,實現(xiàn)更大模型的部署。
2、配套的后摩大道軟件工具鏈,簡單易用,兼容通用編程語言。適配存算架構(gòu)的算子庫,高效利用存算IP所帶來的性能/功耗優(yōu)勢,提升部署上線時間。
2023年和2024年,我們已經(jīng)分別推出了后摩鴻途H30和后摩漫界M30兩款NPU芯片,充分展現(xiàn)出了存算一體架構(gòu)在算力和功耗方面的巨大優(yōu)勢。以M30為例,100Tops的強大算力,僅需12W的功耗。
在此提前預告一下,2025年,后摩將推出基于新一代“天璇”架構(gòu)的最新款芯片,性能將再一次大幅提升,相信這款芯片可以加速端邊設備部署大模型的進程。
后摩智能
為了方便AI設備方案商及生產(chǎn)商快速部署,我們不僅提供芯片,還提供多種標準化產(chǎn)品形態(tài),包括力謀LM30智能加速卡(PCIe)、力謀SM30計算模組(SoM)等。對于現(xiàn)有各類終端設備,通過標準接口加裝NPU,就可實現(xiàn)本地AI大模型的流暢運行。
2009年的移動互聯(lián)網(wǎng)興起,讓我們的手機從功能機變成了智能機。2016年物聯(lián)網(wǎng)的爆發(fā),讓我們身邊越來越多的設備變成了智能設備。這些智能設備,在現(xiàn)有方案上,通過+AI+NPU的方式,將再次進化,成為AI大模型使能設備。
比如PC,我們看到聯(lián)想已經(jīng)在大面積推廣AI PC了。汽車AI座艙、AI TV、AI會議大屏、AI具身智能機器人等,它們會成為更懂你、更聰明、更高效的助理、秘書、司機、文案、美工、程序員、輔導老師等等,為我們提供各種服務。希望通過后摩智能的AI芯片,助力大家實現(xiàn)快速升級。
1999 年到 2008 年,互聯(lián)網(wǎng)讓中國幾乎所有的行業(yè)重做了一遍;2009 年到 2018 年,移動互聯(lián)網(wǎng)把中國幾乎所有行業(yè)又重做了一遍。我們相信,未來10年的AI大模型時代,NPU將重塑所有端邊場景,所有的端邊設備,都將再重做一遍!
希望與在座各位所有AI的企業(yè)、AI生態(tài)的合作伙伴一起多多溝通,我們一起合作攜手,通過“+AI”的方式,使現(xiàn)有設備,以及未來將誕生的各種全新型設備,都能夠流暢地運行AI大模型,期待我們一起攜手共創(chuàng)AI的新時代,謝謝大家!