NASA和IBM合作,要使用未標記的資料集訓練人工智慧基礎模型,並將基礎模型用於各種地球科學任務中,NASA表示,這項專案的合作目標,是要提供研究人員更簡單的方法,從學術論文或是NASA資料集中,分析並了解地球氣候奧秘。

地球氣候變遷對人類和生態系帶來許多影響,像是因為近年許多地區更熱更乾,因而助長了野火,科學家想知道,野火產生的煙霧會對空氣品質產生什麼樣的影響?而乾熱的天氣又會不會影響玉米和小麥的產量。過去要研究這些問題,科學家除了需要閱讀大量的論文,還需要來回檢視大量的衛星圖像來尋求解答。

而NASA和IBM的合作,便是要創建人工智慧基礎模型,藉由分析PB級文本和遙測資料,研究各式的地球科學議題。基礎模型將消化大量原始資料,在沒有明確指示下,找到這些資料的底層架構。IBM研究人員提到,雖然預訓練基礎模型可以使用人工標記的範例,教導模型一項特定任務,但是要將機器學習應用在遙測資料上,最主要的瓶頸就是缺乏訓練範例,因為要產生訓練範例,人類專家需要花費大量的時間標記衛星圖像中的樹木或農作物,以便讓模型知道應該關注哪些特徵。

而這項障礙在Transformer模型或許可以獲得解決,使得遙測資料分析更為可行。NASA擁有70 PB的地球科學資料,而且這些資料還會隨著NASA科學計畫的發展越來越多,所以透過基礎模型,將有望使這些NASA資料集發揮更大的作用。

NASA和IBM預計建立兩個基礎模型,第一個模型接受大量地球科學期刊訓練,使這些文獻能夠按照主題組織,讓科學家更容易搜尋和探索。第二個模型會以HLS資料集訓練,該資料集是由地球軌道衛星所捕捉的土地利用變化,能夠被用於偵測自然災害、植被追蹤,以及野生動物棲息地變化等自然資源管理。

IBM已經建立了地球科學期刊基礎模型,包含來自各個科學組織出版近30萬篇期刊文章,目前正在微調中,待訓練完成後,該模型將會整合至IBM開源多語言問答系統PrimeQA,屆時該系統將能夠回答特定科學問題,並且提供引用論文的連結和相關脈絡資料。

IBM提到,基礎模型已經在自然語言處理上成功,而現在他們正著手將其擴展至其他領域上,分析地理空間、事件序列、時間序列和其他非語言因素,解決目前最急迫的氣候問題。NASA和IBM在基礎模型上的合作,也包括之後使用大氣觀測資料集MERRA-2,建置氣候預測基礎模型。

熱門新聞

Advertisement