衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
馬上整整1個月了!
這一個月以來,全球大模型市場受DeepSeek攪動,無不方寸大亂。
中外大廠、初創(chuàng)公司都頭好禿,全被追著問:你們對DeepSeek怎么看?DeepSeek出來你們怎么辦?
有避而不談的,也有主動回應(yīng)的。
國內(nèi),比如騰訊,昨天剛剛在微信開啟灰度測試“AI搜索”功能,接入的就是DeepSeek-R1;比如百度,當即宣布4月起文心一言免費用,下一代文心模型決定開源……
國外,比如OpenAI,緊急發(fā)布o3-mini、上新深度搜索、公開o3思維鏈條;比如谷歌DeepMind,新發(fā)布的Gemini 2.0系列,新增模型型號Gemini 2.0 Flash-Lite,其API砍價能力比DeepSeek還狠;
然而正當全球AI大模型格局重塑之際,放眼國內(nèi),不少人還很關(guān)心一件事:
六家已成為獨角獸的大模型創(chuàng)業(yè)公司,零一萬物、百川智能、階躍星辰、智譜華章、月之暗面、MiniMax江湖人稱大模型六小強。
在DeepSeek猛烈的沖擊波下,他們正在如何應(yīng)對?
沖擊之下,六小強都有啥“回應(yīng)”六小強中,沒有任何一家站出來,正面表達對DeepSeek的看法。
但這不代表它們沒有行動畢竟比起高談闊論,落地的實際行動更值得用來證明。
注:以下均為六小強1月20日(含)后的動態(tài)
零一萬物DeepSeek-R1問世之前,創(chuàng)始人李開復(fù)博士已公開表示,零一萬物將不再追求訓(xùn)練超級大模型。
經(jīng)過為期半年多的探索驗證,他們明確表示,參數(shù)適中同時性能優(yōu)異、推理速度更快、推理成本更低的輕量化模型更適合商用場景,“會成為AI-First應(yīng)用爆發(fā)的催化劑”。
而DeepSeek問世之后,零一萬物對外曝光的首個動作,選擇了攜手蘇州
2月14日,零一萬物與蘇州高新區(qū)聯(lián)合成立的產(chǎn)業(yè)大模型基地正式授牌。
該大模型基地聚焦垂直產(chǎn)業(yè),重點打造制造、金融、醫(yī)療、政務(wù)、生物、具身等多個領(lǐng)域的行業(yè)大模型解決方案,聯(lián)合產(chǎn)業(yè)鏈上下7家企業(yè),“探索大模型技術(shù)從實驗室走向生產(chǎn)線的產(chǎn)業(yè)化路徑”。
在現(xiàn)場,李開復(fù)談道,在人工智能技術(shù)重構(gòu)產(chǎn)業(yè)的關(guān)鍵節(jié)點,大模型絕非“空中樓閣”,而是驅(qū)動實體經(jīng)濟的核心引擎。
而零一萬物官方表示:
繼1月2日與阿里云聯(lián)合成立“產(chǎn)業(yè)大模型聯(lián)合實驗室”之后,零一萬物再度于產(chǎn)業(yè)大模型方向落子。此次于蘇州高新區(qū)落地的“產(chǎn)業(yè)大模型基地”進一步加速了零一萬物模型能力商業(yè)落地的進程。
strong>百川智能DeepSeek-R1發(fā)布5天后,1月25日,百川智能發(fā)布新模型Baichuan-M1-preview。
這是百川第一個全場景推理大模型。所謂全場景,指的是該模型同時具備語言、視覺和搜索三個領(lǐng)域的推理能力。
與此同時,百川依然奔赴轉(zhuǎn)向醫(yī)療的道路上:
Baichuan-M1-preview解鎖了醫(yī)療循證模式,官方解釋它“實現(xiàn)了從醫(yī)療證據(jù)檢索到深度推理的完整端到端服務(wù),能夠快速、精準地回答醫(yī)療臨床、科研問題”。
2月13日,以Baichuan-M1為底座打造的「AI兒科醫(yī)生」經(jīng)過近一個月的內(nèi)測后,在京“上崗”。
針對臨床推理,它首先會基于一訴五史生成診療假設(shè),繼而通過檢驗檢查數(shù)據(jù)進行假設(shè)證偽與排除,最終經(jīng)由自反思機制對剩余假設(shè)進行概率排序,輸出符合臨床思維路徑的診療建議。
官方消息顯示,當天,北京兒童醫(yī)院開展了國內(nèi)首次“AI兒科醫(yī)生+多學(xué)科專家”的雙醫(yī)并行多學(xué)科會診。與會人員除了多科室13位專家,還有該醫(yī)院與百川智能、小兒方健康科技(這家是百川投資的醫(yī)療數(shù)據(jù)公司)聯(lián)合研發(fā)的「AI兒科醫(yī)生」。
與會者對一位顱底腫物伴隨抽動癥狀的患兒進行了多學(xué)科會診,另一邊,工程師將患者的主訴和病歷資料輸入模型。
AI兒科醫(yī)生也給出了與專家組會診結(jié)果高度吻合的建議。
階躍星辰DeepSeek-R1發(fā)布當天,階躍星辰正處于模型上新進程中。
1月20日當天發(fā)布的兩款模型均為語言模型,一款是輕量級、響應(yīng)快、性價比高的Step-2-mini,與自家模型玩意參數(shù)的Step-2相比,Step-2-mini以3%左右的參數(shù)量保有80%以上的性能。
另一款是主打文學(xué)創(chuàng)作的Step-2 文學(xué)大師版,“專為創(chuàng)作而生”。
而后兩天內(nèi),階躍繼續(xù)保持節(jié)奏對外發(fā)布。
21日,升級語音模型Step-1o Audio,又上新多模態(tài)理解大模型Step-1o Vision。后者發(fā)布首測就沖上來了大模型競技場前10,位列視覺領(lǐng)域國產(chǎn)第1。
22日,發(fā)布視頻生成模型Step-Video V2版本,該版本在前代V1基礎(chǔ)上,從VAE模型、DiT架構(gòu)與RL融合、多模態(tài)大模型應(yīng)用三方面基礎(chǔ)上升級而來。
模型側(cè)更新外,階躍星辰旗下應(yīng)用「躍問」也在1月24日推出了全新功能,躍問AI創(chuàng)意板。
它的功能是“不用代碼就能在3步內(nèi)實現(xiàn)想法,開發(fā)應(yīng)用”,并且將成果全平臺分享。
BTW,量子位發(fā)現(xiàn),躍問不知何時已經(jīng)偷偷接入了DeepSeek-R1……
以及農(nóng)歷新年前頻繁動作之時,階躍星辰系統(tǒng)負責(zé)人朱亦博就在朋友圈小小劇透,年后階躍有大動作。
而“大動作”本身,或許會在2月21日階躍星辰舉辦的首屆“Step Up 生態(tài)開放日”上揭曉。至于有無針對DeepSeek-R1的回應(yīng)性動作或戰(zhàn)略,也要等到下周會上才見分曉了。
智譜華章2月11日,清華大學(xué)計算機系教授、智譜創(chuàng)立發(fā)起人唐杰在巴黎大王宮舉行的第三屆人工智能行動峰會邊會“人工智能技術(shù)進步與應(yīng)用”上發(fā)言。
也是唯一參加該峰會的大模型代表。
在闡述對AGI的5個階段劃分后,唐杰表示現(xiàn)在正處于L2和L3交匯處,即“對齊機器與人類的意圖”和“機器自我學(xué)習(xí)”的交匯處。
而2025年的關(guān)鍵詞,部分摘錄如下:
自主的、具有Agent能力的大型語言模型(Agentic LLMs)將成為日常生活和工作的核心。
通過給定高層次目標,自主的LLMs將制定計劃、利用數(shù)字設(shè)備并執(zhí)行復(fù)雜項目,而所需的人類干預(yù)極少。
這些自主系統(tǒng)將不再僅僅是孤立的實體,而是將協(xié)同工作,互補優(yōu)勢,以更高效地完成任務(wù)。
此外,面對DeepSeek攪動風(fēng)云,智譜的“回應(yīng)”更多落實在開年頻頻落地上。
首先是2月11日,繼續(xù)開展和三星的合作。
具體表現(xiàn)為讓Agentic GLM(智譜專為手機研發(fā)的系統(tǒng)級大模型)登陸三星最新款Galaxy S25系列手機,提供基于AI的實時語音和視頻通話,以及實現(xiàn)視覺理解和系統(tǒng)功能調(diào)用、AI搜索、文案寫作等功能。
(此處確與同日唐杰發(fā)言部分內(nèi)容相呼應(yīng))
其次是量子位注意到,雖未對外官宣,但智譜近日悄悄開始和二次元很火熱的AI畫圖捏角色的應(yīng)用軟件「捏ta」展開合作。
一方面,智譜在自家視頻模型上線了捏ta;另一方面,二家基于智譜的CogVideoX-2模型等,在涅ta發(fā)起聯(lián)名活動。
月之暗面你說巧不巧?DeepSeek-R1發(fā)布一個半小時后,月之暗面官方公眾號宣布了旗下Kimi k1.5多模態(tài)思考模型。
相關(guān)論文《Kimi k1.5:Scaling Reinforcement Learning With LLMs》中顯示,k1.5模型設(shè)計和訓(xùn)練有幾個關(guān)鍵要素:
長上下文展開。
k1.5團隊將RL的上下文窗口擴展到128k,背后的一個關(guān)鍵思想是使用部分展開(partial rollouts)來提高訓(xùn)練效率。
策略優(yōu)化改進。
k1.5團隊推導(dǎo)出long-CoT的RL公式,并采用在線鏡像下降的變體進行穩(wěn)健的策略優(yōu)化。
簡潔框架。
上述二者的結(jié)合為通過LLMs學(xué)習(xí)簡歷了一個簡潔的RL框架,最終實現(xiàn)在不依賴蒙特卡洛樹搜索、價值函數(shù)和過程獎勵模型等情況下實現(xiàn)更強性能。
多模態(tài)能力。
即具備聯(lián)合推理文本和視覺兩種模態(tài)的能力。
2月12日,OpenAI展示o3輕松拿下IOI 2024金牌的那篇最新報告論文中,介紹部分就提及了DeepSeek-R1和Kimi k1.5分別通過CoT提升大模型在數(shù)學(xué)和編程上的性能。
MiniMax現(xiàn)在回頭看1月20日,真的是神仙打架熱鬧非凡
當天,MiniMax也有模型上新。
升級發(fā)布T2A-01系列語音模型,并上線了海螺語音產(chǎn)品(同樣兼顧模型與產(chǎn)品的推動)。
T2A-01系列包含T2A-01-HD、T2A-01-Turbo兩款模型,API服務(wù)同步上線MiniMax開放平臺。該系列模型支持17種語言及上百種預(yù)置音色。
依托該系列模型,在海螺AI,用戶僅需輸入文字即可生成自然、流暢的超擬人人聲,最長可輸入多達10000字符。且可根據(jù)需要自由配置輸出語音的情緒、語速、音高,甚至調(diào)整音色效果。
這里特別提及一個1月20日前發(fā)生的事情,那就是1月15日,MiniMax創(chuàng)始人兼CEO閆俊杰對談《晚點》稿件發(fā)出,其中展示和透露出MiniMax在當時對2025年的調(diào)整和計劃。
最重要的一點就是“開源”。
如果重新選,第一天就應(yīng)該開源。因為開源能加速技術(shù)進化。
這一點呼應(yīng)了當日MiniMax官宣MiniMax-01系列模型,且發(fā)布即開源。
其中,MiniMax-01首次大規(guī)模擴展了新型Lightning Attention架構(gòu),替代了傳統(tǒng)Transformer架構(gòu),使模型能夠高效處理4M token上下文。
綜上,截至推送,六小強近期動態(tài)如下:
被沖擊的不只是六小強當然了,DeepSeek這頭深海巨鯨此次扔出R1,攪動的不僅僅是國內(nèi)六家大模型獨角獸的圈子。
也就是說,放眼國內(nèi),被沖擊的不只是六小強,沒有一家科技巨頭或AI大模型公司置身事外。
沖擊之下有新的視角,新的轉(zhuǎn)變。
譬如DeepSeek「大膽啟用業(yè)界經(jīng)驗不夠豐富的年輕技術(shù)人才,以此作為追求突破性技術(shù)創(chuàng)新一環(huán)」的故事,就在街頭巷尾廣為流傳,重新叩問了每一個企業(yè)對用人標準的定義。
譬如百度,在放出宣布文心一言即將免費的消息后,緊跟著宣布了決定背叛閉源大模型的決定將在未來幾個月中陸續(xù)推出文心大模型4.5系列,并于6月30日起正式開源。
在被問到DeepSeek是否是意料之中時,李彥宏也在日前的迪拜AI峰會上坦言:
我認為,創(chuàng)新是不能被計劃的。你不知道創(chuàng)新何時何地到來,你所能做的是,營造一個有利于創(chuàng)新的環(huán)境。
沖擊之下有新的發(fā)展,新的機遇。
云計算廠商和AI Infra平臺/公司,第一時間上線DeepSeek API,不僅陸續(xù)搭載上671B滿血版,還爭相優(yōu)化截斷率、回復(fù)速度、準確率等等,有的還推出利好本地部署的框架,再破大模型推理門檻。
為涌入巨量用戶的DeepSeek分流,讓更多用戶從不同渠道把AI用起來。
另一邊,以騰訊為例,從云平臺騰訊云、騰訊云旗下大模型知應(yīng)用開發(fā)平臺知識引擎、國民應(yīng)用微信、AI智能工作臺ima、主力AI應(yīng)用元寶全方位擁抱DeepSeek,紛紛宣布接入R1模型,還用自身能力為其使用體驗添磚加瓦。
而華為、阿里、字節(jié)等大廠們及旗下應(yīng)用、團隊們,也都在這樣做。
它們開放兼容,擁抱的不光是DeepSeek,更是用戶體驗最佳的模型不管是否是“純自研”。
還是那句話,神仙競技,凡人撿漏,AI普惠,多多益善。
當然,被攪動的池水里,不止航行著國內(nèi)的船只。
放眼國際,DeepSeek的名字已經(jīng)成為華爾街分析師會議上最高頻提到的AI公司。
隨著Alphabet(谷歌母公司)、AMD、Palantir和亞馬遜等科技巨頭公布收益,DeepSeek被提及的次數(shù)還在增長。
外媒用很簡短的一句話形容這一“盛況”:
“DeepSeek, DeepSeek, DeepSeek。”
具體到國外大模型玩家身上,面對“DeepSeek沖擊波”,有急得跳腳的,也有反思與擷取精粹的。
單舉一個例子,就能看到頂尖巨頭對此作出“回應(yīng)”的態(tài)度之綜合:
OpenAI,緊急地首次向用戶免費推出推理模型o3-mini,CEO奧特曼還在Reddit“有問必答”活動中罕見公開反思:
在開源權(quán)重AI模型這個問題上,(個人認為)我們站在了歷史錯誤的一邊。
去年12月底穩(wěn)坐高臺,拉長戰(zhàn)線連續(xù)直播12天的擠牙膏式打法不見了。
OpenAI現(xiàn)在已經(jīng)能在一日之內(nèi)連續(xù)官宣GPT-4.5幾周內(nèi)上線,GPT-5幾月內(nèi)面世,以及關(guān)于模型路線規(guī)劃調(diào)整、既有模型迭代更新的多個新消息。
而在大模型賽道之外,DeepSeek沖擊帶來的影響力如何,大家肉眼可見
DeepSeek逢山開路,無數(shù)第三方爭先恐后接入合作R1、V3等模型。
據(jù)不完全統(tǒng)計,目前接入eepSeek模型的第三方,包括infra平臺、手機廠商、Web/App應(yīng)用、智駕終端等在內(nèi),已超百家。
GitHub上,V3/R1不斷攀升的星標數(shù)量,代表著更多人可以把DeepSeek用起來。
然后生態(tài)繁榮,生生不息。
由是深海巨鯨向AGI更深處求索,丟下R1這枚深水炮彈后,坊間開始流傳一個新梗。
DeepSeek沖擊帶來的是什么?
是「一鯨起,萬物生」。