哈佛開源含有2,420億Token的AI資料集Institutional Books 1.0

圖片來源:

Hugging Face

由微軟及OpenAI贊助、起源於哈佛法學院圖書館研究計畫的機構資料計畫（Institutional Data Initiative，IDI），上周開源了AI資料集Institutional Books 1.0，內含98.3萬本的哈佛藏書，總計3.86億頁，以及2,420億個Token與245種語言，而這也是IDI所釋出的首個公共領域圖書。

IDI於去年12月正式啟動，IDI執行董事Greg Leppert表示，AI的進步引起人們對那些存在於檔案深度的高品質資料的濃厚興趣，並準備進一步協助機構將這些資料供應給所有人；IDI將與圖書館、大學、文化團隊及政府機構等知識機構合作，幫助它們建立、分析與發布館藏資料，以支援所有用途，包括AI在內。

IDI將致力於開發AI工具以擴大及加速上述任務，也會加以評估並研究其影響，以及找出最佳實踐來推動最負責任的資料使用，同時確認機構的管理職責。

簡單地說，IDI將會建立容易取得又易懂的資料集，以讓知識機構與AI模型開發商擁有一致的目標，像是資料的完整性、全面性及可用性等，以讓每個人都能透過這些資料看到知識世界的全貌。

Institutional Books 1.0所納入的館藏，是在哈佛圖書館參與Google圖書（Google Books）專案時便曾數位化的內容，其中有40%是英文，有20個明確的主題，大多數是在19及20世紀出版，在資料集中不僅包含單純的文字，還有每一本書的元資料，包括作者、年份、語言及來源等。

此外，該資料集也進行了優化，讓系統辨識出每一行文字的位置與類型，並依據辨識結果，把原本利用光學文字辨識（OCR）擷取出的文字重新排列及組合，讓內容更接近原書的排版與邏輯結構。

IDI未來還會繼續擴充該資料集，例如正與波士頓公共圖書館合作，以掃描數百萬頁的報紙，有鑑於報紙的版面設計很難提取文字，需要利用新方法來提高準確度及可存取能力，繼之將研究這些資料對AI模型的行為與資訊檢索能力的影響，以便其它機構也能了解自身館藏的潛力。

此外，IDI也積極尋求所有類型的資料合作，包括科學及生物醫學資料，雖然會優先考慮開源，但也會秉持著對機構的尊重以妥善處理相關資料。

熱門新聞