IT之家 2 月 6 日消息,一份上周五發(fā)布的研究報(bào)告顯示,斯坦福大學(xué)和華盛頓大學(xué)的人工智能研究人員僅花費(fèi)不到 50 美元(IT之家備注:當(dāng)前約 364 元人民幣)的云計(jì)算費(fèi)用,就成功訓(xùn)練出一個(gè)具備“推理”能力的人工智能模型。
該模型名為 s1,在數(shù)學(xué)和編程能力測試中表現(xiàn)出與 OpenAI 的 o1 和 DeepSeek 的 r1 等頂尖推理模型相似的水平。目前,s1 模型及其訓(xùn)練所用的數(shù)據(jù)和代碼已在 GitHub 上開源。
s1 團(tuán)隊(duì)表示,他們通過“蒸餾”技術(shù)創(chuàng)建了該人工智能模型,該技術(shù)旨在通過訓(xùn)練模型來學(xué)習(xí)另一個(gè)人工智能模型的答案,從而提取其“推理”能力。研究人員透露,s1 是從谷歌的推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸餾出來的。上個(gè)月,加州大學(xué)伯克利分校的研究人員也使用了相同的蒸餾方法,以約 450 美元的成本創(chuàng)建了一個(gè)人工智能推理模型。
類似 s1 模型的出現(xiàn)也引發(fā)了關(guān)于人工智能模型商品化的問題 如果有人可以用相對較低的成本就能復(fù)制一個(gè)價(jià)值數(shù)百萬美元的模型,那么大型科技公司的“護(hù)城河”在哪里呢?
不出所料,大型人工智能實(shí)驗(yàn)室對此并不滿意,例如 OpenAI 此前就指責(zé) DeepSeek 不當(dāng)獲取其 API 數(shù)據(jù)用于模型蒸餾。
s1 的研究人員希望找到實(shí)現(xiàn)強(qiáng)大推理性能和“測試時(shí)擴(kuò)展”(即允許人工智能模型在回答問題之前進(jìn)行更多思考)的最簡單方法,這些是 OpenAI 的 o1 中的一些突破。
s1 的論文表明,可以使用一種稱為監(jiān)督微調(diào)(SFT)的方法,可以使用相對較小的數(shù)據(jù)集來蒸餾推理模型。在 SFT 中,人工智能模型會被明確指示在數(shù)據(jù)集中模仿某些行為。SFT 比 DeepSeek 用于訓(xùn)練其 R1 模型的大規(guī)模強(qiáng)化學(xué)習(xí)方法更具成本效益。
谷歌通過其 Google AI Studio 平臺免費(fèi)提供 Gemini 2.0 Flash Thinking Experimental 模型的訪問權(quán)限,但每天有使用限制。然而,其條款禁止對模型進(jìn)行逆向工程,以開發(fā)與谷歌自身人工智能產(chǎn)品競爭的服務(wù)。
S1 基于阿里巴巴旗下中國人工智能實(shí)驗(yàn)室 Qwen 提供的一款小型、現(xiàn)成的免費(fèi)人工智能模型。為了訓(xùn)練 s1,研究人員創(chuàng)建了一個(gè)僅包含 1000 個(gè)精心策劃的問題的數(shù)據(jù)集,以及這些問題的答案,以及谷歌 Gemini 2.0 Flash Thinking Experimental 給出的每個(gè)答案背后的“思考”過程。
研究人員表示,在訓(xùn)練 s1 后(使用 16 個(gè) Nvidia H100 GPU,耗時(shí)不到 30 分鐘),s1 在某些人工智能基準(zhǔn)測試中取得了良好的表現(xiàn)。參與該項(xiàng)目的斯坦福大學(xué)研究員 Niklas Muennighoff 告訴 TechCrunch,目前租用這些計(jì)算資源的成本約為 20 美元。
研究人員使用了一個(gè)巧妙的技巧來讓 s1 檢查其工作并延長其“思考”時(shí)間:他們讓它“等待”。論文顯示,在 s1 的推理過程中添加“等待”一詞,有助于模型獲得稍微更準(zhǔn)確的答案。