久久香综合精品久久伊人,亚洲AV网站在线

首次覆蓋超11類編程場景！字節(jié)開源最全面代碼大模型基準(zhǔn)FullStack Bench

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-05 13:26:39 瀏覽：170次

導(dǎo)讀：代碼大模型越來越卷，評估AI編程水平的“考卷”也被迫升級。12月5日，字節(jié)豆包大模型團隊開源最新代碼大模型評估基準(zhǔn)FullStack Bench，在業(yè)界首次囊括編程全棧技術(shù)中超11類真實場景，覆蓋16種編程語言，包含3374個問題，相比此前基準(zhǔn)，可以更有效地評估大模型在現(xiàn)實世界中的代碼開發(fā)能力。代碼評估基準(zhǔn)是衡量大模型編程能力的標(biāo)準(zhǔn)工具，也是推動模型優(yōu)化的關(guān)鍵驅(qū)動力。不過，當(dāng) ......

代碼大模型越來越卷，評估AI編程水平的“考卷”也被迫升級。12月5日，字節(jié)豆包大模型團隊開源最新代碼大模型評估基準(zhǔn)FullStack Bench，在業(yè)界首次囊括編程全棧技術(shù)中超11類真實場景，覆蓋16種編程語言，包含3374個問題，相比此前基準(zhǔn)，可以更有效地評估大模型在現(xiàn)實世界中的代碼開發(fā)能力。

代碼評估基準(zhǔn)是衡量大模型編程能力的標(biāo)準(zhǔn)工具，也是推動模型優(yōu)化的關(guān)鍵驅(qū)動力。不過，當(dāng)前的代碼評估基準(zhǔn)覆蓋的應(yīng)用類型和編程語言較為有限，難以反映真實世界中代碼開發(fā)場景的多樣性和復(fù)雜性。

比如，主流代碼評測集HumanEval和MBPP中近80%數(shù)據(jù)只聚焦基礎(chǔ)編程和高級編程問題；DS-1000中95%數(shù)據(jù)都集中于數(shù)據(jù)分析和機器學(xué)習(xí)任務(wù)，且僅對Python語言進行評測；xCodeEval雖覆蓋多項任務(wù)，但基本局限于高級編程和數(shù)學(xué)領(lǐng)域。

因此，字節(jié)豆包大模型團隊與M-A-P開源社區(qū)聯(lián)合提出FullStack Bench，一個專注于全棧編程和多語言編程的代碼評估數(shù)據(jù)集。為囊括在真實全棧開發(fā)中涉及的各類應(yīng)用場景，研究團隊從全球最大的程序員技術(shù)問答社區(qū)Stack Overflow中隨機抽取了50萬個問題進行分析，篩選出占總問題數(shù)前88.1%的應(yīng)用領(lǐng)域，并對其分布做了適當(dāng)調(diào)整來保證每個領(lǐng)域的魯棒性，最終形成了FullStack Bench關(guān)注的超過11種應(yīng)用場景及分布比例。

FullStack Bench包含3374個問題，每個問題均包括題目描述、參考解決方案及單元測試用例，總計15168個單元測試。為保證評估準(zhǔn)確性，問題內(nèi)容均由相關(guān)領(lǐng)域的編程專家設(shè)計，并經(jīng)AI和人工驗證進行質(zhì)量復(fù)核。在初始數(shù)據(jù)集構(gòu)建后，團隊根據(jù)主流代碼大模型測試結(jié)果，按問題難度、模糊性和可解性對數(shù)據(jù)質(zhì)量進行了交叉評估和進一步完善。

首次覆蓋超11類編程場景！字節(jié)開源最全面代碼大模型基準(zhǔn)FullStack Bench

FullStack Bench數(shù)據(jù)集構(gòu)成情況

為方便開發(fā)者對大模型代碼能力進行系統(tǒng)性測試，豆包大模型團隊還開源了一款高效的代碼沙盒執(zhí)行工具SandboxFusion，用于評估來自不同語言的不同編程任務(wù)。除了FullStack Bench，SandboxFusion還兼容超過10種廣泛使用的代碼評估數(shù)據(jù)集，支持23種編程語言。開發(fā)者在單服務(wù)器上即可輕松部署SandboxFusion，也可直接在GitHub上進行體驗。

首次覆蓋超11類編程場景！字節(jié)開源最全面代碼大模型基準(zhǔn)FullStack Bench

發(fā)布評測基準(zhǔn)及沙盒的同時，字節(jié)代碼大模型也首次曝光。研究中，豆包大模型團隊對全球20余款代碼大模型及語言大模型的編程表現(xiàn)進行了評測（詳見論文），其中包括未披露過的豆包代碼大模型Doubao-Coder。

近半年，字節(jié)在代碼大模型領(lǐng)域進展迅速，今年6月字節(jié)發(fā)布了由自研代碼基座模型支撐的AI編程助手豆包MarsCode，目前每月為用戶貢獻百萬量級代碼。

相關(guān)熱詞： 編程 fullstack 字節(jié) 編程語言代碼開源豆包測評

首次覆蓋超11類編程場景！字節(jié)開源最全面代碼大模型基準(zhǔn)FullStack Bench
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-05 13:26:39 瀏覽：170次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

首次覆蓋超11類編程場景！字節(jié)開源最全面代碼大模型基準(zhǔn)FullStack Bench 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-05 13:26:39 瀏覽：170次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

首次覆蓋超11類編程場景！字節(jié)開源最全面代碼大模型基準(zhǔn)FullStack Bench
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-05 13:26:39 瀏覽：170次