展會信息港展會大全

率先挖掘AI時代的“金礦”,上海如何以語料為支點撬動AI產(chǎn)業(yè)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-23 22:08:46   瀏覽:205次  

導(dǎo)讀:語料數(shù)據(jù)(Corpus Data)指為語言分析、模型訓(xùn)練等目的系統(tǒng)化收集的真實文本或語音材料的集合,是自然語言處理(NLP)領(lǐng)域的核心資源,相當(dāng)于AI學(xué)習(xí)語言的“教材”。在AI時代,語料是人工智能發(fā)展的核心基礎(chǔ)之一,甚至被譽(yù)為AI產(chǎn)業(yè)的“金礦”,是決定模型能力上限的核心要素。隨著國產(chǎn)開源推理大模型DeepSeek的“出圈”,其思維鏈背后用到的數(shù)據(jù)合成技術(shù),再次提升了對于高質(zhì)量 ......

率先挖掘AI時代的“金礦”,上海如何以語料為支點撬動AI產(chǎn)業(yè)

語料數(shù)據(jù)(Corpus Data)指為語言分析、模型訓(xùn)練等目的系統(tǒng)化收集的真實文本或語音材料的集合,是自然語言處理(NLP)領(lǐng)域的核心資源,相當(dāng)于AI學(xué)習(xí)語言的“教材”。在AI時代,語料是人工智能發(fā)展的核心基礎(chǔ)之一,甚至被譽(yù)為AI產(chǎn)業(yè)的“金礦”,是決定模型能力上限的核心要素。隨著國產(chǎn)開源推理大模型DeepSeek的“出圈”,其思維鏈背后用到的數(shù)據(jù)合成技術(shù),再次提升了對于高質(zhì)量語料數(shù)據(jù)的需求。

政策引領(lǐng),上海戰(zhàn)略布局推動語料體系建設(shè)

上海作為中國人工智能發(fā)展的前沿陣地,AI相關(guān)產(chǎn)業(yè)正迎來蓬勃發(fā)展的機(jī)遇,而語料正是其中最為關(guān)鍵的抓手之一,語料體系建設(shè)已被納入人工智能發(fā)展的核心框架。

2024年底發(fā)布的《關(guān)于人工智能“模塑申城”的實施方案》中明確提出,到2025年底,建成世界級人工智能產(chǎn)業(yè)生態(tài),力爭全市智能算力規(guī)模突破100EFLOPS(每秒百億億次浮點運(yùn)算次數(shù)),形成50個左右具有顯著成效的行業(yè)開放語料庫示范應(yīng)用成果。方案還明確提出,要建立一批通用和專用語料庫,打造多層次語料體系,支撐基礎(chǔ)大模型研發(fā)和垂直應(yīng)用。聚焦前沿大模型訓(xùn)練需求,推動打造基礎(chǔ)大模型訓(xùn)練語料庫。聚焦金融、制造、教育、醫(yī)療、文旅、城市治理等行業(yè)需求,打造一批行業(yè)開放語料庫與測試數(shù)據(jù)集。此外,還要推動成立算力和語料基金,探索算力和語料作價入股等模式,加強(qiáng)創(chuàng)新型企業(yè)培育。

率先挖掘AI時代的“金礦”,上海如何以語料為支點撬動AI產(chǎn)業(yè)

在近期舉行的2025全球開發(fā)者先鋒大會上,語料也成為一個備受矚目的議題。2月22日,“語料筑基 智生時代”主題論壇在上海徐匯舉行,會議深度聚焦大模型語料前沿主題,匯聚產(chǎn)學(xué)研用頂尖智慧,共同探討語料數(shù)據(jù)發(fā)展的無限機(jī)遇與潛力,共建上海大模型語料繁榮生態(tài),為人工智能大模型創(chuàng)新發(fā)展和應(yīng)用注入新動能。

論壇由全球開發(fā)者先鋒大會組委會指導(dǎo),由上海庫帕思科技有限公司承辦,漕河涇開發(fā)區(qū)總公司、上海人工智能實驗室、商湯科技、階躍星辰、稀宇科技等公司聯(lián)合協(xié)辦。上海市經(jīng)濟(jì)和信息化委員會副主任張宏韜,徐匯區(qū)委常委、副區(qū)長俞林偉出席論壇并致辭。

在論壇上,張宏韜表示,上海已全面戰(zhàn)略布局人工智能大模型產(chǎn)業(yè),加速推進(jìn)“模塑申城”行動方案,為大模型提供強(qiáng)大的基礎(chǔ)底座賦能和豐富的應(yīng)用場景支持,成為產(chǎn)業(yè)界創(chuàng)新發(fā)展的理想沃土。未來,上海將持續(xù)夯實高質(zhì)量綜合語料基座,構(gòu)建數(shù)據(jù)語料核心樞紐,加快創(chuàng)新語料服務(wù)關(guān)鍵性技術(shù),加速推動“5+6”垂類領(lǐng)域語料工程,完善行業(yè)語料供給體系,構(gòu)建共贏繁榮的語料服務(wù)生態(tài),更好助力大模型創(chuàng)新發(fā)展和應(yīng)用。

率先挖掘AI時代的“金礦”,上海如何以語料為支點撬動AI產(chǎn)業(yè)

實踐先行,發(fā)力語料基建建設(shè)和生態(tài)協(xié)同

有研究表明,互聯(lián)網(wǎng)上的高質(zhì)量語言數(shù)據(jù)資源或?qū)⒃?027年消耗殆盡。與開采金礦需要在資源勘察、選礦廠建設(shè)、固定資產(chǎn)購置等方面開展大量工作,高質(zhì)量的語料數(shù)據(jù)也需要解決在獲取、治理、安全、應(yīng)用等多方面存在的挑戰(zhàn),語料基礎(chǔ)設(shè)施的建設(shè)和生態(tài)環(huán)境的形成至關(guān)重要。

上海為此已采取一系列措施來加強(qiáng)語料庫的建設(shè)和應(yīng)用,推動世界級人工智能產(chǎn)業(yè)生態(tài)的形成。在本屆全球開發(fā)者先鋒大會,上海市經(jīng)信委主任張英表示:“上海將開發(fā)者捧為主角,為這一群體傾力提供資源、政策與氛圍,努力培育繁榮的開發(fā)者生態(tài)!

率先挖掘AI時代的“金礦”,上海如何以語料為支點撬動AI產(chǎn)業(yè)

2024年3月,首家由政府主導(dǎo)成立的人工智能語料公司上海庫帕思科技有限公司正式成立,公司定位于專業(yè)化的功能性語料服務(wù)運(yùn)營平臺,致力于提供低成本、高質(zhì)量的語料數(shù)據(jù)服務(wù)。

庫帕思去年已完成構(gòu)建了“1+X”語料基座,語料服務(wù)規(guī)模達(dá)260T,鏈接合作伙伴超100家,簽署戰(zhàn)略合作協(xié)議57家,發(fā)布了9個語料團(tuán)體標(biāo)準(zhǔn),并完成了7個標(biāo)準(zhǔn)草案。目前已全面啟動具身智能、金融、制造、教育、醫(yī)療、文娛、城市治理等領(lǐng)域的行業(yè)語料庫建設(shè)。同時,為了形成高質(zhì)量的多模態(tài)語料庫,庫帕思也正在建設(shè)大模型語料超級工廠,以每天最高1000GB的速度進(jìn)行語料加工,計劃到今年年底將語料庫的總?cè)萘刻嵘?PB。

在生態(tài)協(xié)同上,徐匯區(qū)作為國家級人工智能產(chǎn)業(yè)集聚區(qū),在全市率先發(fā)展人工智能大模型產(chǎn)業(yè),市區(qū)聯(lián)手推出了全國首個大模型創(chuàng)新生態(tài)社區(qū)“模速空間”,打造了算力調(diào)度、開放數(shù)據(jù)、金融服務(wù)等五大功能平臺,為企業(yè)提供“保姆式”“專班式”服務(wù)。俞林偉表示,徐匯將持續(xù)做好落實要素保障,持續(xù)吸引全球頂尖人才,持續(xù)優(yōu)化大模型和語料服務(wù)產(chǎn)業(yè)生態(tài),把模速空間打造為“全球最大的人工智能孵化器”,打造徐匯建成全國人工智能高地的創(chuàng)新策源尖峰。

模塑申城,語料普惠計劃之語料數(shù)據(jù)智能創(chuàng)意大賽正式啟動

在本屆論壇上,市經(jīng)濟(jì)和信息化委副主任張宏韜、上海信投黨委書記、副總裁黃衛(wèi)軍、人民網(wǎng)上海分公司總經(jīng)理金煜純、上海人工智能協(xié)會秘書長鐘俊浩共同發(fā)布了模塑申城語料普惠計劃之語料數(shù)據(jù)智能創(chuàng)意大賽(簡稱CICC)。依托《模速申城語料普惠計劃》,CICC大賽面向全社會尋找“好語料、好技術(shù)、好場景”,為上!澳K苌瓿恰惫こ讨握Z料基石,打通高質(zhì)量語料數(shù)據(jù)采集、標(biāo)注、共享、應(yīng)用全鏈路。

隨后,大會隆重發(fā)布2025語料風(fēng)云榜招募令。為匯聚行業(yè)頂尖智慧、構(gòu)建開放合作生態(tài),在2024年世界人工智能大會上,庫帕思發(fā)起了首屆語料風(fēng)云榜,一批好企業(yè)、好產(chǎn)品脫穎而出。2025語料風(fēng)云榜將延續(xù)“好企業(yè)、好產(chǎn)品、好規(guī)則”的基本框架,在未來4個月完成征集與遴選,并在2025年世界人工智能大會上正式對外發(fā)布“2025中國語料生產(chǎn)商風(fēng)云榜TOP10”、“2025中國語料服務(wù)商風(fēng)云榜TOP10”。

率先挖掘AI時代的“金礦”,上海如何以語料為支點撬動AI產(chǎn)業(yè)

此外,為進(jìn)一步促進(jìn)高質(zhì)量語料數(shù)據(jù)建設(shè),在市經(jīng)濟(jì)和信息化委的指導(dǎo)下,庫帕思以普惠、鏈接、創(chuàng)新的態(tài)度,攜手首批103家企業(yè)、科研機(jī)構(gòu)和專家學(xué)者,聯(lián)合發(fā)起成立語料工作委員會。語料工作委員會將圍繞高質(zhì)量語料建設(shè),通過優(yōu)化語料平臺與各垂類應(yīng)用領(lǐng)域鏈接機(jī)制,促進(jìn)語料方、模型方、應(yīng)用場景方三方合作模式跑通落地,從而構(gòu)建高質(zhì)量、具備應(yīng)用價值的語料生態(tài)。

在可以預(yù)見的未來,上海不但是“魔都”,更將是AI產(chǎn)業(yè)的“模都”,致力于占據(jù)全球人工智能產(chǎn)業(yè)的發(fā)展高地。如今,上海正以語料為支點,撬動人工智能產(chǎn)業(yè)的全球競爭力,為全球行業(yè)發(fā)展提供新基建、新生態(tài)和新路線,這座“最懂開發(fā)者的城市”,正在書寫人工智能時代的“掘金傳奇”。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港