情境示意圖,Photo By: Jason W. Edwards, Army(https://www.defense.gov/Explore/Features/Story/Article/2175142/military-hospital-lends-research-expertise-to-global-pandemic-effort/)

由於武漢肺炎(COVID-19)疫情大流行,全世界科學家都動起來,大量發布相關的新研究,為了讓研究人員,能夠跟得上新研究的發表,易於搜尋並且取用這些新論文,Google發布了武漢肺炎研究探索工具(COVID-19 Research Explorer),這是建立在武漢肺炎開發研究資料集之上的語義搜尋介面,能夠讓使用者快速從5萬多篇期刊文章和論文預印本,搜尋出需要的資料。

大量發表的論文代表著更多科學新發現,讓研究人員可更了解武漢肺炎,但是也使得資訊量過多,研究人員難以全面掌握這些研究的內容,而搜尋工具便能夠幫助研究人員,更方便地利用這些研究。但Google提到,傳統的搜尋引擎,雖然可以用來查詢一些即時資訊,但是可能難以理解查詢背後的含義,而且使用關鍵字的傳統搜尋方法,也難以處理複雜的查詢,因此無法在武漢肺炎科學文獻庫中,找出有用的資料。

而Google新推出的這個武漢肺炎研究探索工具,可以讓研究人員快速地瀏覽文章,取得與武漢肺炎相關問題的答案或證據;當用戶在武漢肺炎研究探索工具中輸入問題時,該工具不僅會顯示一系列論文,還會重點顯示論文中的片段,這些片段可能就是使用者問題的答案。用戶可以查看這些搜尋結果的摘要,再決定是否要進一步閱讀該論文,而當使用者對於初步的結果感到滿意,也可以接著提出後續問題,對初始檢索的文章進行更深入的查詢。

Google解釋了這個工具背後的運作方法,其中一項關鍵技術便是語義搜尋,Google表示,語義搜尋的目的,不僅是捕捉查詢和文件之間的術語重疊,還能真正理解短語的意義,比對與使用者查詢意圖的關聯性。

Google舉例,像是當使用者查詢什麼調控了ACE2表達?(What regulates ACE2 expression?)這個問題,許多基於文字配對的搜尋引擎,可能無法良好地處理這個查詢,因為Regulate這個字,也可用在許多生物過程(Biological Process)上,雖然傳統資訊檢索(IR)系統會使用查詢擴展的方法,來減輕辭意困惑產生的影響,但語義搜尋的目的,便是要內隱地學習這些關係,因此更能妥善的處理這樣的問題。

而且由於ACE2這個酶本身就參與調控某些生物過程,但是實際上問題是查詢什麼東西調控了ACE2,而非ACE2調控了什麼,但是僅根據術語配對的搜尋方法,便分不清楚之間的差異,雖然傳統資訊檢索方法也會使用一些技巧解決這個問題,不過語義搜尋方法是在其核心對單詞的順序和意義建模,因此能更好地克服這個問題。

在武漢肺炎研究探索工具中,Google使用自然語言處理預訓練技術BERT,來建構神經語義搜尋技術,BERT是近來被用來提高Google搜尋品質的技術。不過,Google提到,在部分的案例中,神經模型的效能,卻又比關鍵字模型還差,因為關鍵字模型本質上是記憶程式,可以從查詢中記住術語,並且查詢包含這些術語的文件,而神經檢索模型則會歸納概念和含義,在部分精確度重要的案例上,神經檢索模型則可能過度概括。

因此Google最後建立了混合術語配對和神經檢索的模型,術語配對和神經模型都可以轉換到空間向量模型,也就是說,查詢和文件都能進行編碼,Google將兩種向量連接再一起進行查詢,控制術語配對和神經語義配對的相對重要性,來提供高精確度的生物醫學文獻檢索。

目前武漢肺炎研究探索工具釋出Alpha測試版,免費提供研究社群使用,在接下來幾個月,Google還會持續調整工具的可用性。


Advertisement

更多 iThome相關內容