作者|朱嘉明經(jīng)濟(jì)學(xué)家、橫琴數(shù)鏈數(shù)字金融研究院學(xué)術(shù)與技術(shù)委員會(huì)主席
2月9日,葦草智酷、信息社會(huì)50人論壇、科技新聞聯(lián)合主辦《再談DeepSeek的成就和AGI的未來》線上研討會(huì)(智酷 408 期)。
經(jīng)濟(jì)學(xué)家、橫琴數(shù)鏈數(shù)字金融研究院學(xué)術(shù)與技術(shù)委員會(huì)主席朱嘉明,中國(guó)自動(dòng)化學(xué)會(huì)監(jiān)事長(zhǎng)、中國(guó)科學(xué)院自動(dòng)化研究所研究員王飛躍,EmojiDAO創(chuàng)始人賀寶輝(Shrug Newton)將分別圍繞《人工智能進(jìn)化尺度和大模型生態(tài) 一一 DeepSeek V3和R1系列現(xiàn)象解析》《回歸本源:DeepSeek與DeSci及其未來》《從 DeepSeek 看 DeAI:人工智能技術(shù)范式的顛覆與重塑》做主題分享。本次會(huì)議由北京信息社會(huì)研究所所長(zhǎng)王俊秀主持。以下根據(jù)朱嘉明老師發(fā)言內(nèi)容整理而成:人工智能進(jìn)化尺度和大模型生態(tài)[1]DeepSeek V3和R1系列現(xiàn)象解析
今天與大家討論五個(gè)問題:(1)人工智能進(jìn)化的時(shí)間尺度。(2)人工智能生態(tài)系統(tǒng)。(3)如何全面和客觀評(píng)估DeepSeek。(4) DeepSeek 引發(fā)的全球反應(yīng)。(5)2025年人工智能趨勢(shì)的展望。(一)人工智能進(jìn)化的時(shí)間尺度人工智能的實(shí)際進(jìn)化時(shí)間尺度,遠(yuǎn)遠(yuǎn)比專家包括人工智能領(lǐng)域的科學(xué)家預(yù)期的要快。在人類漫長(zhǎng)歷史過程中,經(jīng)歷過農(nóng)耕社會(huì)、工業(yè)社會(huì)、信息社會(huì),現(xiàn)在進(jìn)入到人工智能時(shí)代,任何技術(shù)進(jìn)化存在時(shí)間尺度。一個(gè)最重要的事實(shí)是,技術(shù)的進(jìn)化時(shí)間周期是不斷縮短的。原始社會(huì)技術(shù)進(jìn)步的周期是以10萬年為單位;農(nóng)耕社會(huì)是以千年為單位;工業(yè)革命以來形成的工業(yè)社會(huì)不過300年,期間工業(yè)社會(huì)技術(shù)進(jìn)步周期是長(zhǎng)則100年,短則10年;到互聯(lián)網(wǎng)時(shí)代,技術(shù)進(jìn)步周期以30年-10年為周期。例如,從 TCP/IP 協(xié)議到萬維網(wǎng),用了30年時(shí)間;移動(dòng)互聯(lián)網(wǎng)用了10年。進(jìn)入到人工智能時(shí)代,它的速度就更加難以想象地加快,人工智能的進(jìn)化尺度更具顛覆性。自1956年達(dá)特茅斯會(huì)議確立學(xué)科至今不足70年,其進(jìn)化速度已達(dá)到人類生物進(jìn)化的4000多倍[2]。20世紀(jì)50年代至21世紀(jì)10年代,人工智能以10年為迭代周期;2016年的AlphaGo標(biāo)志轉(zhuǎn)折,人工智能技術(shù)發(fā)展加速。2022年ChatGPT引爆大模型進(jìn)化和升級(jí),以季度為周期。當(dāng)前GPT-4到GPT-5的研發(fā)周期已壓縮至以月,甚至是以周為時(shí)間單位。人工智能相較于人類歷史上的任何技術(shù)革命和技術(shù)創(chuàng)新,具備顯而易見的加速度特征。在 GPT-3 出現(xiàn)之前,人們預(yù)計(jì)人工智能走到 AGI 時(shí)代大概需要80年的時(shí)間。到了 GPT-3 之后,人們把這樣的預(yù)期縮短到了50年。之后到了出現(xiàn) LLaMdA2 的時(shí)候,就進(jìn)入到大家預(yù)期18年內(nèi)實(shí)現(xiàn) AGI 的階段。見下圖:
圖1.1 人工智能進(jìn)化的時(shí)間尺度人工智能的加速度現(xiàn)象,直接源于三重突破:訓(xùn)練數(shù)據(jù)量年均增長(zhǎng)10倍,算力成本每18個(gè)月下降90%,以及算法效率實(shí)現(xiàn)千倍級(jí)提升。當(dāng)前這一輪人工智能加速發(fā)展的起始點(diǎn)是2017年6月12號(hào)Transformer 架構(gòu)論文的發(fā)表。然后是2018年 GPT-1,2022年GPT-3.5,都屬于人工智能歷史上的里程碑事件。2025年1月20號(hào)DeepSeek-R1發(fā)布,之后2月6號(hào)李飛飛團(tuán)隊(duì)做出了以 Qwen2.5 為基座的s1模型。在過去的5到8年的時(shí)間里,人工智能發(fā)展速度之快,令人震驚。伴隨人工智能進(jìn)化速度的不斷提升,其進(jìn)化尺度急劇壓縮[3],導(dǎo)致人類認(rèn)知的空間被不斷擠壓,重構(gòu)人類認(rèn)知邊界,形成與人類自然智能并存人工智能的全新世界。2025年,人們對(duì)于實(shí)現(xiàn)AGI的時(shí)間預(yù)期,已經(jīng)不是八年,可能更短的時(shí)間。保守地說是五、六年的時(shí)間。樂觀地說,大體需要兩、三年的時(shí)間。見下圖:
圖1.2 LLM發(fā)展歷程與溢出效應(yīng)人工智能創(chuàng)新速度的加快模式,不是漸進(jìn)的,而是具有強(qiáng)烈的突變特征,存在顯而易見的等級(jí)?梢杂糜钪娴谝凰俣取⒌诙俣、第三速度來描述人工智能現(xiàn)在的高速發(fā)展。目前,人工智能已經(jīng)完成了從宇宙第一速度進(jìn)入到宇宙第二速度。宇宙第二速度是逃逸速度,也就是脫離地球引力的速度。人工智能開始進(jìn)入高度自主性,脫離人類束縛如同宇宙第二速度脫離地球引力一樣。至于人工智能在什么樣的情況下脫離太陽引力的束縛進(jìn)入第三速度,我們不得而知。但是,可以肯定的是:人工智能已經(jīng)完成了從通用人工智能到超級(jí)人工智能的飛躍。
圖1.3 宇宙第一、第二、第三速度2017年之后,人工智能正以年、月、周的頻率發(fā)生劇烈的變革和升級(jí)。為什么人工智能呈現(xiàn)出指數(shù)發(fā)展或者加速的現(xiàn)象?為什么人工智能已經(jīng)進(jìn)入宇宙第二速度逃逸的歷史階段?對(duì)此,我們認(rèn)為主要有三個(gè)非常重要的原因。第一,數(shù)據(jù)原因。2024年年底,模型訓(xùn)練已經(jīng)耗盡了人類數(shù)據(jù)的總和,基本上解決了人類知識(shí)的存量問題。[4] 從2025年開始,大模型更大的目標(biāo)是解決增量問題。這是一個(gè)歷史性的轉(zhuǎn)折:人工智能大模型已經(jīng)完成了從粗放到集約的轉(zhuǎn)型。第二,硬件原因。人工智能硬件始終在持續(xù)進(jìn)化。例如,DeepSeek 主要用的是 A100,英偉達(dá)又有了 GB10 和 B200 。專門用于人工智能超級(jí)算力的芯片的升級(jí)換代,無疑對(duì)人工智能進(jìn)化速度至關(guān)重要。第三,人工智能的發(fā)展已經(jīng)進(jìn)入到依賴人工智能本身的階段。在未來數(shù)年間,人工智能對(duì)人工智能進(jìn)化的貢獻(xiàn)將至少超過人類的貢獻(xiàn)。人工智能正進(jìn)入一個(gè)可以自我發(fā)展的歷史階段。見下圖:
圖1.4 人工智能增長(zhǎng)貢獻(xiàn)趨勢(shì)預(yù)測(cè)人工智能的加速發(fā)展,產(chǎn)生了一個(gè)非常嚴(yán)肅的問題:人工智能將跨越從“人類輔助進(jìn)化”到“光速自我迭代”的臨界點(diǎn)其進(jìn)化周期可能最終突破小時(shí)級(jí)。從單細(xì)胞生物到人類生物智能進(jìn)化需要30億年,生命體DNA變異需數(shù)萬年,人工智能在30小時(shí)內(nèi)即可完成ResNet模型的百萬次參數(shù)優(yōu)化。當(dāng)技術(shù)奇點(diǎn)臨近(庫(kù)茲韋爾預(yù)測(cè)2030年通過圖靈測(cè)試),正如而人工智能權(quán)重調(diào)整僅需毫秒級(jí)反向傳播。所以,人工智能絕不是一些媒體所說的“橫空出世”。真正的人工智能,是一步一個(gè)腳印走過來的,只不過這個(gè)步伐在急速加快。(二)人工智能生態(tài)系統(tǒng)自2022年11月GPT-3.5發(fā)布以來,人工智能大模開始了群體性的,而不是單一化的演進(jìn)。在群體性大模型的背后,是OpenAI、 Mate、Google這樣的人工智能大公司。期間,大模型之間已經(jīng)形成了一個(gè)相互依存、互補(bǔ)和彼此促進(jìn)的機(jī)制,形成以大模型為核心的人工智能生態(tài)。下圖是根據(jù)GitHub對(duì)人們對(duì)大模型注意力的一個(gè)比較統(tǒng)計(jì)。
圖1.5 熱門人工智能模型GitHub星標(biāo)增長(zhǎng)對(duì)比人工智能的生態(tài)構(gòu)建遵循縱向速度突破驅(qū)動(dòng)橫向生態(tài)裂變法則。在橫向生態(tài)層面,三大范式正在重構(gòu)技術(shù)格局:第一,多模態(tài)融合革命。Google的Gemini Ultra 2.0實(shí)現(xiàn)了文本-圖像-視頻-物理模擬四維對(duì)齊,其跨模態(tài)注意力機(jī)制使蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確率提升至98.7%。Meta的Chimera系統(tǒng)通過腦機(jī)接口實(shí)時(shí)轉(zhuǎn)化神經(jīng)信號(hào)為多模態(tài)輸出,突破性達(dá)到87%意圖還原率。第二,垂直領(lǐng)域滲透加速。Tesla FSD v14.3將視覺大模型與物理引擎深度耦合,在無高精地圖場(chǎng)景下決策延遲壓縮至8ms,超越人類反射速度3個(gè)量級(jí)。NVIDIA的Clara醫(yī)療大模型通過多尺度特征融合,在MRI影像診斷中實(shí)現(xiàn)94.3%的病理識(shí)別精度。第三,分布式認(rèn)知網(wǎng)絡(luò)。Anthropic的Constitutional AI 3.0構(gòu)建了全球首個(gè)自我監(jiān)管型模型集群,其聯(lián)邦學(xué)習(xí)框架使參數(shù)更新延遲降至12秒級(jí),形成覆蓋2.8萬邊緣節(jié)點(diǎn)的分布式智能體網(wǎng)絡(luò)。不斷成熟的人工智能生態(tài),自然產(chǎn)生溢出效應(yīng),也稱為泛化效應(yīng)。這種效應(yīng)展現(xiàn)出一階、二階的特征,即一階溢出引發(fā)二階溢出,或者一階泛化導(dǎo)向二階泛化。人工智能的三個(gè)溢出效應(yīng)具有代表性。(1)自動(dòng)駕駛領(lǐng)域涌現(xiàn)出Waymo的SceneFusion技術(shù),通過實(shí)時(shí)融合激光雷達(dá)點(diǎn)云與大模型預(yù)測(cè),將極端天氣場(chǎng)景識(shí)別誤差降至0.7%;(2)波士頓動(dòng)力的Atlas機(jī)器人接入多模態(tài)系統(tǒng)后,自主任務(wù)規(guī)劃能力提升400%;(3)DeepMind的AlphaFold 3突破至全原子精度預(yù)測(cè),使藥物發(fā)現(xiàn)周期從5年縮短至11個(gè)月。2024年,無疑是人工智能發(fā)展史中的關(guān)鍵的一年。這一年,人工智能生態(tài)引發(fā)的溢出效應(yīng)基本上滲透到了科學(xué)、經(jīng)濟(jì)、社會(huì)以及人們的認(rèn)知中。所以,2024 年諾貝爾物理學(xué)獎(jiǎng)、化學(xué)獎(jiǎng)、生物獎(jiǎng)都與人工智能緊密結(jié)合在一起。2024年末和2025年初,以DeepSeek V3為代表的第三代大模型,通過動(dòng)態(tài)稀疏激活架構(gòu)將訓(xùn)練效率提升至前代模型的7.2倍,其參數(shù)動(dòng)態(tài)分配算法使單卡推理速度突破3000 tokens/s這種縱向突破直接催生了跨領(lǐng)域技術(shù)溢出效應(yīng)。(三)如何全面和客觀地評(píng)估 DeepSeek2025年中國(guó)春節(jié)前后,DeepSeek 成為了中國(guó)國(guó)內(nèi)和世界媒體的持續(xù)關(guān)注,并引發(fā)了世界范圍的大眾的體驗(yàn)性使用,形成一場(chǎng)巨大的沖擊波。輿論在歷史上起到了非常重要的作用。有些事件被輿論放大,而有些事件則被輿論低估。但是,經(jīng)過一段時(shí)間,歷史事件的最終會(huì)回歸到其在歷史上的本來狀態(tài)。如何全面和客觀地評(píng)估DeepSeek的V3和 R1系列,需要定位 DeepSeek 在人工智能坐標(biāo)體系中的位置,并且要分別討論DeepSeek V3和R1。第一,DeepSeek V3的優(yōu)勢(shì)和局限性。DeepSeek V3的優(yōu)勢(shì):(1)高性能。DeepSeek V3 在多項(xiàng)評(píng)測(cè)中表現(xiàn)出色,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等開源模型,并與 GPT-4o 和 Claude-3.5-Sonnet 等頂尖閉源模型相媲美。(2)高效訓(xùn)練。DeepSeek V3 的訓(xùn)練消耗的算力僅為 Llama 3 4050B 的 1/11,訓(xùn)練成本約為 557.6 萬美元,遠(yuǎn)低于 GPT-4o 和 Claude 等閉源模型的 1 億美元。(3)中文環(huán)境。DeepSeek V3 在多語言處理方面表現(xiàn)出色,特別是在中文處理上。(4)快速響應(yīng)。DeepSeek V3 的生成速度提升了 3 倍,能夠更快速地響應(yīng)用戶請(qǐng)求。DeepSeek V3局限性:(1)具體細(xì)節(jié)問題錯(cuò)誤率較高。相比 GPT-4o,DeepSeek V3 更適合用于解答開放式問題。對(duì)于較為具體的細(xì)節(jié)問題,兩者各有優(yōu)勢(shì),GPT-4o 更保守且更可靠,DeepSeek 廣度和維度更高但也更容易出錯(cuò)。(2)缺乏多模態(tài)輸入輸出。當(dāng)前版本的 DeepSeek V3 暫不支持多模態(tài)輸入輸出,限制了其在某些應(yīng)用場(chǎng)景中的使用。(3)服務(wù)器穩(wěn)定性問題。用戶在使用 DeepSeek 官網(wǎng)服務(wù)或API應(yīng)用場(chǎng)景,可能會(huì)遇到“服務(wù)器繁忙,請(qǐng)稍后再試”的提示,影響實(shí)際使用。(4)對(duì)敏感話題的嚴(yán)格審查。DeepSeek V3 對(duì)敏感話題的審查較為嚴(yán)格,影響實(shí)際業(yè)務(wù)場(chǎng)景。第二,DeepSeek R1的優(yōu)勢(shì)和局限性。Deep Seek的優(yōu)勢(shì)在于:(1)計(jì)算性能強(qiáng)。采用動(dòng)態(tài)稀疏專家模型,只在需要時(shí)激活部分專家子網(wǎng)絡(luò),減少了參數(shù)的計(jì)算和存儲(chǔ)需求,顯著降低計(jì)算成本,在大規(guī)模任務(wù)處理中能充分利用硬件資源,提升推理速度。參數(shù)規(guī)模較小的版本如 1.5B、7B、8B 等資源消耗低,普通消費(fèi)級(jí) GPU 就能帶動(dòng),部署靈活,可在多種設(shè)備上運(yùn)行。(2)推理能力出色。能應(yīng)對(duì)大部分高中及大學(xué)難度的數(shù)學(xué)問題,在高考數(shù)學(xué)壓軸題測(cè)試中表現(xiàn)出色,可在短時(shí)間內(nèi)得出答案,還可提供優(yōu)質(zhì)代碼用于動(dòng)畫解釋科學(xué)概念等。在語言推理方面表現(xiàn)不俗,能快速準(zhǔn)確回答斯坦福自然語言推理數(shù)據(jù)集中的問題,在中文腦筋急轉(zhuǎn)彎測(cè)試中 10 秒內(nèi)可答對(duì) 10 道題,且能準(zhǔn)確回答歷史問題,展現(xiàn)出較強(qiáng)推理能力和信息豐富度。(3)功能特性好。多粒度對(duì)齊機(jī)制使其能在基礎(chǔ)能力、價(jià)值觀等多方面協(xié)同訓(xùn)練,平衡安全性、有用性和響應(yīng)速度等目標(biāo)沖突,在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn) SOTA 性能。遵循 MIT 協(xié)議開源,允許商業(yè)化使用,用戶可低成本使用 API,性價(jià)比極高,給開發(fā)者和用戶提供了更具性價(jià)比的選擇。(4)場(chǎng)景適用性強(qiáng)。在智能客服場(chǎng)景中,展現(xiàn)出強(qiáng)大的意圖識(shí)別和惡意請(qǐng)求攔截能力,能有效處理用戶咨詢等任務(wù),證明了其在真實(shí)世界中的有效性和可靠性。DeepSeek R1的局限性:(1)模型架構(gòu)局限。在智能客服場(chǎng)景中,展現(xiàn)出強(qiáng)大的意圖識(shí)別和惡意請(qǐng)求攔截能力,能有效處理用戶咨詢等任務(wù),證明了其在真實(shí)世界中的有效性和可靠性。參數(shù)規(guī)模中等如 14B、32B 版本需要高端 GPU 支持,增加部署成本;而大規(guī)模版本如 70B、671B 對(duì)硬件和計(jì)算資源需求極高,只能在大規(guī)模云端環(huán)境運(yùn)行,使用成本高。(2)DeepSeek-R1的幻覺率高達(dá)14.3%,遠(yuǎn)超其前身DeepSeek-V3的3.9%。推理增強(qiáng)可能增加幻覺率,GPT系列也有類似現(xiàn)象,但其平衡更好。(3)能力表現(xiàn)不足。面對(duì)國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)等更高難度數(shù)學(xué)問題時(shí),DeepSeek-R1 可能無法給出正確答案,處理復(fù)雜問題的能力還有提升空間。使用非英語語言提問時(shí),模型往往需先將其翻譯為英文或中文,消耗較多思考時(shí)間,影響回答效率,答案準(zhǔn)確性也受影響。(4)使用穩(wěn)定性欠佳。在使用少樣本提示時(shí),過多示例會(huì)使模型思考過程繁瑣,拖慢反應(yīng)速度,影響其穩(wěn)定性和輸出效果。易受有害提示影響,在某些場(chǎng)景中可能受不良輸入干擾,影響生成內(nèi)容的安全性和可靠性。第三, 比較人工智能大模型的測(cè)試標(biāo)準(zhǔn)。以往大模型測(cè)試中,主要使用“研究生水平的抗Google搜索問答測(cè)試”(Graduate-Level Google-Proof Q&A Benchmark,英文縮寫GPQA)和“大規(guī)模多任務(wù)語言理解”(Massive Multitask Language Understanding,英文縮寫MMLU)等問題集的測(cè)試,現(xiàn)在基本達(dá)到80%,或者至少在 60%左右。[5]為了適應(yīng)人工智能向尖端發(fā)展,就要不斷提高測(cè)試人工智能的標(biāo)準(zhǔn)。自2025年初,增加了“人類最后的測(cè)試”(Humanity’s Last Exam, HLE)標(biāo)準(zhǔn)集。該標(biāo)準(zhǔn)整理了全球50個(gè)國(guó)家和地區(qū)、500多個(gè)機(jī)構(gòu)設(shè)計(jì)的3000個(gè)問題,涵蓋知識(shí)儲(chǔ)備、邏輯推理、跨域遷移等核心能力評(píng)估。不同代表性大模型在不同的測(cè)試標(biāo)準(zhǔn)集中的差別,見下圖:
圖1.6 各大模型在HLE、GPQA、MATH、MMLU問題集中的準(zhǔn)確性對(duì)比