為促進全球科學研究,微軟釋出新的開放資料儲存庫,其中包含了微軟研究院累積多年用來發表研究的資料集,而開放資料集能夠簡化資料取得的門檻,幫助基於雲端技術研究人員間的協作,實現研究的可重複性。微軟提到,由於幾乎所有研究項目都需要資料的參與,因此研究社群的確需要有組織的資料集,而且不僅限於電腦科學領域,在跨科學領域及其他專業領域都有相同的需求。

微軟研究院人工智慧首席研究員John Krumm提到,他常被要求分享研究資料,而過去公開分享的這些資料現在變的更加熱門,使用Azure對這些資料進行組織與編目,無論是內部或是外部的研究員都能夠方便存取這些資料,同時也鼓勵協作風氣。微軟研究開放資料網站上有許多種類的資料集,這些資料集都由微軟的員工自己製作,並且已經用於發表的研究報告中,資料集領域包羅萬象從電腦科學到生物學都有。

微軟表示,這個開放資料儲存庫是為微軟的研究人員以及其他合作夥伴提供一個方便的平臺,以互相共享資料集、相關研究技術跟工具。微軟降低了這些資料集存取的門檻,促進使用雲端平臺的研究人員互相協作,並能夠有足夠的資料集重現研究結果,微軟承諾會繼續發展這個資料集儲存庫,並根據社群回饋增加功能。雖然現在已有存在數十個類似的資料儲存庫,但微軟仍期望這個開放資料庫能夠增強現存資料的豐富度。

微軟研究院開放資料庫遵循FAIR(Findable, Accessible, Interoperable and Reusable)資料原則,維持資料共享的品質,使用者可以直接在資料集中,找到與該資料相關的出版研究鏈結。在過去幾年間,微軟研究院廣泛的與其他研究社群合作,共同創造雲端研究基礎架構,在一年前這個開放資料集儲存庫雛形出現,現在已經趨於成熟,能夠釋出給更多的研究人員使用。

微軟認為,現在的資料量以指數成長,在2025年可獲取的資料將達150ZB以上,因此他們優先開始進行資料處理,而非仰賴網路頻寬移動資料,因為這樣成長的速度將慢上許多。而他們也認為,提供處理資料的選項是真正有幫助,因此研究人員除了可以下載資料集,也可以直接在雲端複製資料集到Azure資料科學虛擬機器上。


Advertisement

更多 iThome相關內容