Google普查網際網路上的資料集,發現資料集大宗為社會科學26.2%,其次為地球科學19%,接下來則是生物學,約占了15%,Google提到,最近因為武漢肺炎爆發,生物學和醫學資料集的查詢需求上升。整體來說,資料集重用的方便性仍不足,因為只有11%的資料集擁有數位物件辨識碼(Digital Object Identifier,DOI)。

資料集是機器學習技術發展很重要的一環,不少人工智慧應用,需要使用適當的資料集,訓練與測試模型才能完成,而Google在2018年開始了資料集搜尋引擎專案,將網路上數百萬個資料集,和數千個資料儲存庫集結在一起,提供單一入口以提升取用資料集的方便性,這些資料集內容包羅萬象,包括帝王企鵝的食性以及遠端工作者的居住地都有。

這個資料集搜尋引擎在2020年1月的時候正式啟動,截至今日,資料集語料庫包含了來自4,600個以上網際網路網域,所提供超過3,100萬個資料集,其中一半都是來自.com網域,而.org和政府網域也占了很大的比例。

過去兩年資料集的數量大幅成長,Google調查了資料集,並且發表資料集的概況,同時也提供未來發表科學資料集最佳實踐作法,Google公開了該研究的部分資料,供其他研究人員進行分析和建構工具。

資料集主題的分布,其中有接近三分之一是社會科學,而地球科學占19%,接下來則是生物學、農業、醫學和機械工程等。Google提到,現在研究人員的共識是,透過發布詳細的相關資訊,以及在使用資料集的時候增加引用資訊,以增加資料集的可用性,目前許多機構以及學術出版商,都要求作品發布以及引用資料。

即便有許多組織共同努力耕耘,非營利組織DataCite提供資料集DOI,還有諸如identifiers.org等解析服務,提供永久可引用的辨識碼,但是在當前Google資料集搜尋引擎中,只有11%約300萬個資料集擁有DOI,其中約有230萬個資料集,是來自datacite.org和figshare.com兩個網站。

而資料集的授權,也是資料可重用的重要指標,資料集發布方可以利用schema.org元資料屬性,指定特殊的存取要求,但目前只有34%的資料集,有附加授權許可資訊,Google提到,資料集沒有授權許可,用戶就難以判斷資料集可否允許重用,因此在理想情況下,資料集添加開放授權,可大幅提升資料重用性。

另外一個影響資料可重用性的關鍵要素,便是提供可下載資訊,但是當前只有44%資料集在元資料中註明下載資訊,而之所以這項資訊提供比例偏低的原因之一,是資料集託管平臺擔心從schema.org元資料暴露的下載連結,會使得搜尋引擎或是應用程式,提供用戶直接下載資料集,因而竊取了該平臺的流量,Google特別強調,他們在資料集搜尋引擎中,不會直接顯示下載連結,使用者仍須造訪發布者網站,才能下載完整資料集。

Google提到,近期查詢資料集的情況,與搜尋引擎中擁有的資料集主題分布不同(下圖),地球科學資料集的查詢量偏低,而生物學和醫學的查詢量則大得多,可能跟武漢肺炎疫情爆發有關。隨著資料集的調查結果釋出,Google也將擁有DOI,和其他類型永久辨識碼的300萬個資料集元資料釋出,供其他研究人員執行深入分析或是使用。

熱門新聞

Advertisement