一本之道中文字幕东京热,久久久久精品无码三级

如何訓(xùn)練最強(qiáng)代碼大模型？北大aiXcoder-7B貢獻(xiàn)前沿實(shí)踐

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-12 12:39:28 瀏覽：137次

導(dǎo)讀：AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文的通訊作者是北京大學(xué)計(jì)算機(jī)學(xué)院長(zhǎng)聘教授李戈。本文一作是 aiXcoder 蔣思源和北大 ......

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文的通訊作者是北京大學(xué)計(jì)算機(jī)學(xué)院長(zhǎng)聘教授李戈。

本文一作是 aiXcoder 蔣思源和北大李戈教授課題組博士生李佳，團(tuán)隊(duì)重點(diǎn)關(guān)注融合深度學(xué)習(xí)與軟件工程的代碼建模方法。

如何訓(xùn)練一個(gè)代碼大模型？這一過(guò)程看似簡(jiǎn)單：獲取代碼數(shù)據(jù)、清洗數(shù)據(jù)，最終啟動(dòng)訓(xùn)練。如今，開源代碼數(shù)據(jù)集層出不窮；數(shù)據(jù)清洗工具也已成熟，包括開源的許可證識(shí)別工具、MinHash 算法、PII 識(shí)別模型等；而在分布式訓(xùn)練方面，像 Megatron-LM、DeepSpeed 等框架也大大降低了技術(shù)門檻。看似我們只差計(jì)算資源，就能訓(xùn)練出一個(gè)強(qiáng)大的代碼大模型。

然而，訓(xùn)練模型的初衷，應(yīng)該始終從實(shí)際開發(fā)場(chǎng)景出發(fā)。作為開發(fā)者，我們不僅需要了解定義的各種 API 接口，還需要從入口函數(shù)模擬程序的執(zhí)行過(guò)程，追蹤到每一行修改的代碼。在復(fù)雜的項(xiàng)目中，任何小小的變動(dòng)都可能影響整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn)。

但現(xiàn)有的代碼大模型并未充分考慮到軟件開發(fā)的具體場(chǎng)景，它們往往將最終版本的代碼簡(jiǎn)單地視作自然語(yǔ)言文本，試圖通過(guò)復(fù)制自然語(yǔ)言處理的成功經(jīng)驗(yàn)來(lái)處理代碼。這種方法忽略了代碼的結(jié)構(gòu)性和復(fù)雜的上下文關(guān)系，導(dǎo)致模型在實(shí)際開發(fā)中表現(xiàn)不佳。

北京大學(xué) aiXcoder 團(tuán)隊(duì)一直致力于探索如何將深度學(xué)習(xí)與軟件開發(fā)深度融合，推動(dòng)軟件開發(fā)的自動(dòng)化。2024 年 4 月，aiXcoder 開源了自研代碼大模型 aiXcoder-7B，成為這一領(lǐng)域的一次重要嘗試，旨在將代碼的抽象語(yǔ)法樹（AST）結(jié)構(gòu)與大規(guī)模預(yù)訓(xùn)練結(jié)合，以期提升模型對(duì)代碼結(jié)構(gòu)和上下文的理解能力。

近期，該篇論文被軟件工程領(lǐng)域國(guó)際頂級(jí)會(huì)議 ICSE 2025 收錄，將于 4 月 27 日 - 5 月 3 日赴加拿大渥太華參會(huì)分享研究成果。

此次論文錄用不僅是對(duì) aiXcoder 7B 代碼大模型技術(shù)前瞻性和應(yīng)用創(chuàng)新性的高度認(rèn)可，更標(biāo)志著該模型繼成功落地企業(yè)并獲各行業(yè)客戶廣泛認(rèn)可后，再次于學(xué)術(shù)界獲得權(quán)威肯定，充分彰顯了 aiXcoder 在推動(dòng)軟件工程發(fā)展中的前瞻性引領(lǐng)作用。

如何訓(xùn)練最強(qiáng)代碼大模型？北大aiXcoder-7B貢獻(xiàn)前沿實(shí)踐

論文地址：https://arxiv.org/pdf/2410.13187

開源項(xiàng)目地址：https://github.com/aixcoder-plugin/aiXcoder-7B

如何訓(xùn)練最強(qiáng)代碼大模型？北大aiXcoder-7B貢獻(xiàn)前沿實(shí)踐
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-12 12:39:28 瀏覽：137次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

如何訓(xùn)練最強(qiáng)代碼大模型？北大aiXcoder-7B貢獻(xiàn)前沿實(shí)踐 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-12 12:39:28 瀏覽：137次