(資料圖片僅供參考)
2023世界人工智能大會期間,由上海數(shù)據(jù)交易所、大數(shù)據(jù)流通與交易技術(shù)國家工程實(shí)驗(yàn)室承辦的“大模型時代下的數(shù)據(jù)要素流通”主題論壇7月8日在上海世博中心舉行。記者從論壇上獲悉,上海數(shù)交所官網(wǎng)已經(jīng)于7月7日正式上線語料庫,累計掛牌近30個語料數(shù)據(jù)產(chǎn)品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運(yùn)輸和醫(yī)療等領(lǐng)域。
據(jù)悉,語料庫建設(shè)是一件長期性、專業(yè)性的工作,需要遵循相應(yīng)的質(zhì)量標(biāo)準(zhǔn)和規(guī)范,并保持持續(xù)更新和擴(kuò)充,以適應(yīng)大模型發(fā)展的新需求和新挑戰(zhàn)。上海數(shù)交所作為全國數(shù)據(jù)要素市場核心樞紐,在助力大模型語料庫建設(shè)上具有天然的優(yōu)勢。
為更好打造高質(zhì)量語料庫、圍繞語料數(shù)據(jù)共建數(shù)商生態(tài),上海數(shù)交所牽頭發(fā)起語料數(shù)據(jù)生態(tài)創(chuàng)新合作伙伴計劃,攜手首批合作伙伴上海人工智能實(shí)驗(yàn)室、商湯科技、中國知網(wǎng)、瀾舟科技、OpenKG、拓爾思、新致和蜜度正式啟動該計劃,積極引導(dǎo)不同行業(yè)、不同領(lǐng)域、具有一定規(guī)模的高質(zhì)量語料數(shù)據(jù)產(chǎn)品掛牌交易,推動人工智能大模型技術(shù)創(chuàng)新與應(yīng)用落地,進(jìn)一步豐富語料庫多樣性,助力數(shù)據(jù)要素市場建設(shè)。
上海數(shù)交所總經(jīng)理湯奇峰表示,大模型建設(shè)中,語料庫是一個非常重要的方向,語料庫采購已經(jīng)在不少大模型企業(yè)成本中占據(jù)重要比重,上海數(shù)交所希望以市場配置的方式組織數(shù)據(jù)要素推動語料庫建設(shè)。上海數(shù)交所建設(shè)語料庫主要考慮兩個維度,一是語料庫的質(zhì)量,另一個是語料庫的開放程度。“比如有的企業(yè)具有海量高質(zhì)量數(shù)據(jù)資源,開放意愿度也很高,但需要組織大量社會第三方企業(yè)幫助組織相關(guān)的大模型訓(xùn)練,我們針對四類數(shù)據(jù)產(chǎn)品開發(fā)情況不同、實(shí)際需求不同的供方企業(yè)制定了差異化工作策略,著力打造語料數(shù)據(jù)生態(tài)?!?/p>
(文章來源:上海證券報·中國證券網(wǎng))
標(biāo)簽: