IT之家 2 月 12 日消息,據(jù) ZDNET 2 月 10 日?qǐng)?bào)道,AI 芯片廠商 Cerebras 的 CEO Andrew Feldman 接受采訪時(shí)說,該公司已經(jīng)被運(yùn)行 DeepSeek-R1 大語言模型的訂單壓垮。
據(jù)IT之家此前報(bào)道,Cerebras 曾推出用于 AI 的晶圓級(jí)芯片,一塊芯片就提供 125 PFLOPS 的峰值算力,搭配片外內(nèi)存可以實(shí)現(xiàn)至高 1.2PB 的內(nèi)存容量。
DeepSeek-R1 的預(yù)訓(xùn)練成本可以低到 GPTo1 等主流模型的十分之一,且效果相近甚至更好,被一些人認(rèn)為是 AI 的分水嶺。
Feldman 認(rèn)為,DeepSeek 對(duì)人工智能的影響不僅在當(dāng)下,更在于將刺激出更大的 AI 系統(tǒng)。隨著成本的降低,市場正在變得越來越大。
Cerebras 在官網(wǎng)展示,Cerebras 的晶圓級(jí) AI 芯片,部署 DeepSeek-R1 70B 可以達(dá)到 1508 tokens / s 的性能,比 GPU 快很多。
用戶在使用包括 DeepSeek-R1 等“推理模型”時(shí),輸入提示詞后需要時(shí)間等待是一大痛點(diǎn)。因?yàn)椴捎昧嗣麨?Chain-of-thought(CoT)的方法來增強(qiáng)模型的推理能力,將多步問題分解為中間步驟,允許模型在需要時(shí)執(zhí)行額外的計(jì)算。推理時(shí)逐字進(jìn)行推理,對(duì)整段提示詞的推理需要進(jìn)行多次,需要大量算力。
客戶可以通過蒸餾將大模型的“知識(shí)”轉(zhuǎn)移到小模型來緩解痛點(diǎn),大模型通常被稱為教師模型,較小的模型被稱為學(xué)生模型。
為了改善使用 DeepSeek 模型的體驗(yàn),Cerebras 為客戶提供的標(biāo)準(zhǔn)做法是利用 DeepSeek 開源在 Hugging Face 的模型參數(shù)(權(quán)重)作為教師模型,蒸餾出一個(gè)較小的學(xué)生模型用于實(shí)際部署,Cerebras 在官網(wǎng)表示 DeepSeek R1 蒸餾到 Llama 70B 后精度幾乎沒有下降。
Feldman 表示,DeepSeek 是第一個(gè)頂級(jí)的開源推理模型,是開源 AI 的重大勝利。通過蒸餾技術(shù),開源模型只需要公開模型參數(shù)(權(quán)重),研究人員不需要訪問源碼也可以復(fù)制新 AI 模型的進(jìn)步。他認(rèn)為,DeepSeek 的經(jīng)濟(jì)性不僅震驚整個(gè)人工智能行業(yè),更可以使尖端 AI 芯片和網(wǎng)絡(luò)技術(shù)獲得更多投資。
有些人認(rèn)為計(jì)算成本的下降將導(dǎo)致市場萎縮,但過去 50 年都表現(xiàn)出降低成本反而擴(kuò)大市場容量。無論是電腦還是智能手機(jī),價(jià)格的降低都推動(dòng)了普及。
Cerebras 從去年 8 月開始提供公共推理服務(wù),自稱是“世界上最快的人工智能推理服務(wù)提供商”。該公司目前只提供蒸餾后的 70B 模型,F(xiàn)eldman 表示,405B 的模型太貴了,客戶更青睞價(jià)格實(shí)惠的模型,當(dāng)然也有一部分客戶認(rèn)為準(zhǔn)確性的提升值得更高的成本而選擇更大的模型。