機(jī)器之心報(bào)道編輯:澤南QwQ 具有神奇的推理能力。
一個(gè)剛發(fā)布兩天的開(kāi)源模型,正在 AI 數(shù)學(xué)奧林匹克競(jìng)賽 AIMO 上創(chuàng)造新紀(jì)錄。本周五,知名數(shù)學(xué)家、加州大學(xué)洛杉磯分校教授、菲爾茨獎(jiǎng)得主陶哲軒(Terence Tao)介紹了第二屆 AIMO 競(jìng)賽的最新進(jìn)展。比賽在數(shù)據(jù)競(jìng)賽平臺(tái) Kaggle 上已經(jīng)持續(xù)了一個(gè)月,現(xiàn)在有隊(duì)伍快要觸發(fā)「Early Sharing Prize」的門(mén)檻了。
Early Sharing Prize 是為了鼓勵(lì) AIMO 參賽者在比賽早期分享高分模型經(jīng)驗(yàn)設(shè)立的獎(jiǎng)項(xiàng),需要選手在競(jìng)賽中第一個(gè)獲得 20/50 分,且公開(kāi)自己的 notebook,獎(jiǎng)金為額外的兩萬(wàn)美元。據(jù)陶哲軒介紹,就在不到一天前有參賽團(tuán)隊(duì)使用 QwQ-32B 的特定實(shí)例已經(jīng)拿到了 18/20 的成績(jī),該模型似乎比之前的開(kāi)源模型在解決數(shù)學(xué)競(jìng)賽問(wèn)題方面表現(xiàn)得更好。今年 7 月,陶哲軒在國(guó)際數(shù)學(xué)奧賽 IMO 上給第一屆 AIMO 的獲獎(jiǎng)團(tuán)隊(duì)進(jìn)行了頒獎(jiǎng),分享了自己對(duì) AI 在數(shù)學(xué)研究中應(yīng)用范式的思考,也打響了 AIMO 競(jìng)賽的名聲。AI 數(shù)學(xué)奧林匹克競(jìng)賽 AIMO 的初衷是讓參與者使用 AI 模型解決國(guó)際數(shù)學(xué)難題,這將有助于推動(dòng)人工智能模型的數(shù)學(xué)推理能力,并促進(jìn)前沿知識(shí)的發(fā)展。
由于大模型技術(shù)的快速進(jìn)步,人們對(duì) AI 解決數(shù)學(xué)問(wèn)題的能力寄予厚望,第一屆 AIMO 的獲獎(jiǎng)隊(duì)伍分獲了 104.8 萬(wàn)美元的獎(jiǎng)金,而現(xiàn)在第二屆,獎(jiǎng)池已經(jīng)上升到了 211.7 萬(wàn)美元。AIMO 競(jìng)賽要求參賽團(tuán)隊(duì)公開(kāi)發(fā)布其代碼、方法、數(shù)據(jù)和模型參數(shù)。剛剛結(jié)束的第一屆比賽里大家使用的模型各不相同,包括 Mixtral 8x7b、Gemma、Llama 3 等等,有的來(lái)自大廠,有的來(lái)自 AI 創(chuàng)業(yè)公司,呈現(xiàn)百花齊放的態(tài)勢(shì)。而到了這一屆,現(xiàn)在似乎已經(jīng)變成了 Qwen 系列在刷屏,其他模型偶爾出現(xiàn):
剛剛發(fā)布的 QwQ,還在把開(kāi)源大模型推向新的高度。QwQ 的能力也并不僅限于奧數(shù)這一個(gè)方面,最近社交網(wǎng)絡(luò)上也有不少人在夸它的推理能力。
HuggingFace 的產(chǎn)品設(shè)計(jì)人員也表示:測(cè)試了一下 QwQ,結(jié)果令人驚嘆:
有人說(shuō),QwQ 就是一個(gè)在冉冉升起的新神,雖然有時(shí)仍會(huì)出錯(cuò),但令人著迷的就是它的推理路徑,就像給 o1 再來(lái)一個(gè)巨大的加號(hào)。
更有趣的是,有人發(fā)現(xiàn)這個(gè)模型用于思考的原生語(yǔ)言似乎是中文:
難不成這就是 QwQ 邏輯能力強(qiáng)大的原因之一?無(wú)論如何,開(kāi)源大模型領(lǐng)域的風(fēng)向,似乎已經(jīng)變了。11 月 28 日,阿里云通義團(tuán)隊(duì)發(fā)布了全新 AI 推理模型 QwQ-32B-Preview,并同步開(kāi)源。評(píng)測(cè)數(shù)據(jù)顯示,預(yù)覽版本的 QwQ 已展現(xiàn)出研究生水平的科學(xué)推理能力,在數(shù)學(xué)和編程方面表現(xiàn)尤為出色,整體推理水平比肩 OpenAI 的 o1。
HuggingFace 開(kāi)源地址:https://huggingface.co/Qwen/QwQ-32B-Preview
HuggingFace Space 體驗(yàn):https://huggingface.co/spaces/Qwen/QwQ-32B-preview
據(jù)介紹,QwQ(Qwen with Questions)是通義千問(wèn) Qwen 大模型最新推出的實(shí)驗(yàn)性研究模型,也是阿里云首個(gè)開(kāi)源的 AI 推理模型。阿里云通義千問(wèn)團(tuán)隊(duì)研究發(fā)現(xiàn),當(dāng)模型有足夠的時(shí)間思考、質(zhì)疑和反思時(shí),其對(duì)數(shù)學(xué)和編程的理解就會(huì)深化;诖耍琎wQ 取得了解決復(fù)雜問(wèn)題的突破性進(jìn)展。
在考察科學(xué)問(wèn)題解決能力的 GPQA 評(píng)測(cè)集上,QwQ 獲得了 65.2% 的準(zhǔn)確率,具備研究生水平的科學(xué)推理能力;在涵蓋綜合數(shù)學(xué)主題的 AIME 評(píng)測(cè)中,QwQ 以 50% 的勝率證明其擁有解決數(shù)學(xué)問(wèn)題的豐富技能;在全面考察數(shù)學(xué)解題能力的 MATH-500 評(píng)測(cè)中,QwQ 斬獲 90.6% 的高分,一舉超越了 o1-preview 和 o1-mini;在評(píng)估高難度代碼生成的 LiveCodeBench 評(píng)測(cè)中,QwQ 答對(duì)一半的題,在編程競(jìng)賽題場(chǎng)景中也有出色表現(xiàn)。另外當(dāng)面對(duì)復(fù)雜問(wèn)題時(shí),QwQ 展現(xiàn)了深度自省的能力,會(huì)質(zhì)疑自身假設(shè),進(jìn)行深思熟慮的自我對(duì)話,并仔細(xì)審視其推理過(guò)程的每一步。比如,在經(jīng)典智力題「猜牌問(wèn)題」中,QwQ 會(huì)通過(guò)梳理各方對(duì)話并推演現(xiàn)實(shí)情況,它像個(gè)擅長(zhǎng)思考的人一樣,能揣摩「這句話有點(diǎn) tricky」,反思「等一下,也許我需要更仔細(xì)地思考」,最終分析得出正確答案,這似乎是以前沒(méi)有 AI 能做到的事情。面對(duì)目前高漲的熱度,通義團(tuán)隊(duì)表示,盡管 QwQ 展現(xiàn)了強(qiáng)大的分析能力,但該模型仍是個(gè)供研究的實(shí)驗(yàn)型模型,存在不同語(yǔ)言的混合使用、偶有不恰當(dāng)偏見(jiàn)、對(duì)專業(yè)領(lǐng)域問(wèn)題不了解等局限。隨著研究深入模型迭代,這些問(wèn)題將逐步得到解決。參考內(nèi)容:https://mathstodon.xyz/@tao/113568284621180843https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard