圖片來源: 

GitHub

Meta的AI團隊本周開源了一個爬梳全球網路內容的AI知識語料庫Sphere,號稱是全球最大的同類型語料庫,並利用Sphere打造了一個Side模型,可用來改善維基百科(Wikipedia)所引用的資訊的關聯性與正確性。

語料庫(Corpus)為知識密集型自然語言處理(Knowledge-Intensive Natural Language Processing,KI-NLP)的基礎,KI-NLP模型爬梳數位檔案來尋求問題的解答或進行事實查核,因此,語料庫的規模愈大,所能解答的問題也愈多。

在現階段的KI-NLP研究領域中,研究人員多半是透過商業搜尋引擎或是Wikipedia來尋找答案,但Meta的研究人員認為,商業搜尋引擎就像是個黑盒子,人們可能不知道自己遺失了哪些重要訊息,而就算Wikipedia相對精確、有良好的格式,而且因為規模小而方便使用,但它畢竟是個眾包平臺,並未容納網路上的所有內容。

而Sphere即是一個奠基在全球開放網路內容的語料庫,它是開源的、通用的、未經組織的、非結構化的知識來源,因此可支援各種KI-NLP任務。它內含1.34億個文件,具備9.06億個段落,每個段落都含有100個標記,比現今最大的知識語料庫多了一個數量級。

Sphere的建置源自於Meta AI所開發的CCNet,CCNet為Common Crawl的變種,把每月固定爬梳全球網路的Common Crawl檔案去蕪存菁而來。

Meta的AI研究人員指出,Sphere與搜尋引擎最大的不同在於它開放研究人員存取完整的語料庫,研究人員不僅能夠檢視並控制語料庫,也能展開不同的實驗來推動檢索技術的發展,另一方面,開源社群也將協助Meta辨識Sphere的檢索盲點。

研究人員將可利用Sphere來訓練檢索器,以處理更廣泛的文件,或者是建置自動化系統來檢查不實資訊、噪音或不連貫的文字。

Meta AI已利用Sphere打造了一個Side模型,可用來協助強化維基百科的引用資訊,因為維基百科的編輯可能無法仔細檢查每一個引用的資訊,或是志願者在撰寫時無意中流露出的偏見。

圖片來源/Meta

目前Sphere仍是個研究中的產品,尚未實際應用於Meta自家的平臺上,也未與維基百科合作,只是以Side模型作為示範案例。

熱門新聞

Advertisement