首頁(yè)信用卡
上海人工智能實(shí)驗(yàn)室發(fā)布多模態(tài)語(yǔ)料
2023-08-16 20:23:03來(lái)源: 人民網(wǎng)-《人民日?qǐng)?bào)》


(資料圖片僅供參考)

本報(bào)上海8月15日電(記者沈文敏)近日,上海人工智能實(shí)驗(yàn)室宣布聯(lián)合語(yǔ)料數(shù)據(jù)聯(lián)盟成員單位,共同開源發(fā)布“書生·萬(wàn)卷”1.0多模態(tài)預(yù)訓(xùn)練語(yǔ)料。

“書生·萬(wàn)卷”1.0集合了語(yǔ)料數(shù)據(jù)聯(lián)盟成員豐富的內(nèi)容積累與上海人工智能實(shí)驗(yàn)室的數(shù)據(jù)處理能力等優(yōu)勢(shì),將為學(xué)術(shù)界及產(chǎn)業(yè)界提供高質(zhì)量大模型多模態(tài)預(yù)訓(xùn)練語(yǔ)料。本次開源的數(shù)據(jù)總量超過(guò)2TB,具備多元融合、精細(xì)處理、價(jià)值對(duì)齊、易用高效等四大特征。

本次開源的“書生·萬(wàn)卷”1.0包含文本、圖文、視頻三部分?jǐn)?shù)據(jù)集。其中文本數(shù)據(jù)來(lái)自網(wǎng)頁(yè)、百科、書籍、專利、教材、考題等,數(shù)據(jù)總量超過(guò)5億個(gè)文檔,數(shù)據(jù)大小超過(guò)1TB,覆蓋科技、文學(xué)、媒體、教育、法律等多個(gè)領(lǐng)域;圖文數(shù)據(jù)主要來(lái)自公開網(wǎng)頁(yè),經(jīng)處理后形成圖文交錯(cuò)文檔,總量超過(guò)2200萬(wàn)個(gè),數(shù)據(jù)大小超過(guò)140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會(huì)生活等多個(gè)領(lǐng)域;視頻數(shù)據(jù)主要來(lái)自中央廣播電視總臺(tái)和上海文廣集團(tuán),包含新聞、影視等多種類型的節(jié)目影像,總計(jì)視頻文件數(shù)超過(guò)1000個(gè),數(shù)據(jù)大小超過(guò)900GB,內(nèi)容覆蓋軍事、文藝、體育、自然、知識(shí)、影像藝術(shù)等方面。

《 人民日?qǐng)?bào) 》( 2023年08月16日 12 版)

關(guān)鍵詞:

京ICP備2021034106號(hào)-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com