
Hugging Face
由微軟及OpenAI贊助、起源於哈佛法學院圖書館研究計畫的機構資料計畫(Institutional Data Initiative,IDI),上周開源了AI資料集Institutional Books 1.0,內含98.3萬本的哈佛藏書,總計3.86億頁,以及2,420億個Token與245種語言,而這也是IDI所釋出的首個公共領域圖書。
IDI於去年12月正式啟動,IDI執行董事Greg Leppert表示,AI的進步引起人們對那些存在於檔案深度的高品質資料的濃厚興趣,並準備進一步協助機構將這些資料供應給所有人;IDI將與圖書館、大學、文化團隊及政府機構等知識機構合作,幫助它們建立、分析與發布館藏資料,以支援所有用途,包括AI在內。
IDI將致力於開發AI工具以擴大及加速上述任務,也會加以評估並研究其影響,以及找出最佳實踐來推動最負責任的資料使用,同時確認機構的管理職責。
簡單地說,IDI將會建立容易取得又易懂的資料集,以讓知識機構與AI模型開發商擁有一致的目標,像是資料的完整性、全面性及可用性等,以讓每個人都能透過這些資料看到知識世界的全貌。
Institutional Books 1.0所納入的館藏,是在哈佛圖書館參與Google圖書(Google Books)專案時便曾數位化的內容,其中有40%是英文,有20個明確的主題,大多數是在19及20世紀出版,在資料集中不僅包含單純的文字,還有每一本書的元資料,包括作者、年份、語言及來源等。
此外,該資料集也進行了優化,讓系統辨識出每一行文字的位置與類型,並依據辨識結果,把原本利用光學文字辨識(OCR)擷取出的文字重新排列及組合,讓內容更接近原書的排版與邏輯結構。
IDI未來還會繼續擴充該資料集,例如正與波士頓公共圖書館合作,以掃描數百萬頁的報紙,有鑑於報紙的版面設計很難提取文字,需要利用新方法來提高準確度及可存取能力,繼之將研究這些資料對AI模型的行為與資訊檢索能力的影響,以便其它機構也能了解自身館藏的潛力。
此外,IDI也積極尋求所有類型的資料合作,包括科學及生物醫學資料,雖然會優先考慮開源,但也會秉持著對機構的尊重以妥善處理相關資料。
熱門新聞
2025-12-12
2025-12-16
2025-12-15
2025-12-15
2025-12-15
2025-12-15
2025-12-16
2025-12-15