(相關(guān)資料圖)
據(jù)人民日報海外版報導(dǎo),近日,上海人工智能實驗室宣布聯(lián)合語料數(shù)據(jù)聯(lián)盟成員單位,共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料。
“書生·萬卷”1.0集合了語料數(shù)據(jù)聯(lián)盟成員豐富的內(nèi)容積累與上海人工智能實驗室的數(shù)據(jù)處理能力等優(yōu)勢,將為學(xué)術(shù)界及產(chǎn)業(yè)界提供高質(zhì)量大模型多模態(tài)預(yù)訓(xùn)練語料。本次開源的數(shù)據(jù)總量超過2TB,具備多元融合、精細(xì)處理、價值對齊、易用高效等四大特征。
本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分?jǐn)?shù)據(jù)集。其中文本數(shù)據(jù)來自網(wǎng)頁、百科、書籍、專利、教材、考題等,數(shù)據(jù)總量超過5億個文檔,數(shù)據(jù)大小超過1TB,覆蓋科技、文學(xué)、媒體、教育、法律等多個領(lǐng)域;圖文數(shù)據(jù)主要來自公開網(wǎng)頁,經(jīng)處理后形成圖文交錯文檔,總量超過2200萬個,數(shù)據(jù)大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個領(lǐng)域;視頻數(shù)據(jù)主要來自中央廣播電視總臺和上海文廣集團(tuán),包含新聞、影視等多種類型的節(jié)目影像,總計視頻文件數(shù)超過1000個,數(shù)據(jù)大小超過900GB,內(nèi)容覆蓋軍事、文藝、體育、自然、知識、影像藝術(shù)等方面。
關(guān)鍵詞:
版權(quán)與免責(zé)聲明:
1 本網(wǎng)注明“來源:×××”(非商業(yè)周刊網(wǎng))的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。
2 在本網(wǎng)的新聞頁面或BBS上進(jìn)行跟帖或發(fā)表言論者,文責(zé)自負(fù)。
3 相關(guān)信息并未經(jīng)過本網(wǎng)站證實,不對您構(gòu)成任何投資建議,據(jù)此操作,風(fēng)險自擔(dān)。
4 如涉及作品內(nèi)容、版權(quán)等其它問題,請在30日內(nèi)同本網(wǎng)聯(lián)系。