圖片來源: 

DeepMind

繼打造出打敗人類圍棋世界冠軍的AI程式AlphaGo之後,DeepMind最近再次出手,挑戰的是複雜的蛋白質結構預測問題,成功打造出僅透過基因序列,準確預測蛋白3D結構的預測模型AlphaFold,並在今年投稿蛋白質結構預測競賽(CASP),在入選的團隊中,排名第一名,該預測蛋白結構的運算方法,更被競賽主辦方喻為史無前例的進展。

DeepMind指出,此研究成果是生物學的主要挑戰的一大進展,因為預測蛋白質形狀,將可以了解該蛋白質在人體內的作用,進而診斷和治療由錯誤摺疊蛋白質引起的疾病,像是阿茲海默症、帕金森氏症、亨丁舞蹈症、囊狀纖維化疾病等。

DeepMind研究團隊從兩年前就開始著手蛋白質結構的研究,透過龐大基因組資料和多年的研究,來開發預測模型,該模型產生3D結構蛋白質模型,遠比以往的研究準確,蛋白質3D結構的預測模型AlphaFold,鎖定困擾生物科學家已久的挑戰——蛋白質摺疊(protein folding)問題,蛋白質摺疊問題即是預測沒有固定結構的氨基酸序列,會如何摺疊成特定3D結構的蛋白質分子。

蛋白質是一個巨大且複雜的分子,幾乎所有生物體的機能都與蛋白質的移動和改變息息相關,像是收縮肌群、光線感知,和將食物轉為能量的行為,而這些蛋白質都在被編譯在DNA中,稱之為基因。而蛋白質有成千上萬種,每一種都有其特定的功能,功能取決於蛋白質特定的3D結構,舉例來說,免疫系統的抗體蛋白質為Y型,分叉頂端具有抗原結合位的鎖狀結構,透過特殊的結合機制,抗體蛋白能夠偵測和標記外來微生物和受感染的細胞,以誘導其他免疫機制對其進行攻擊。

不過,從基因序列識別蛋白質結構是一項非常複雜的任務,該任務的挑戰在於基因序列中,只包含部分的氨基酸殘基序列訊息,且越大的蛋白質就複雜,因為有更多的氨基酸序列的相互作用必須納入考量,以至於難以建模,如果用列舉所有可能配置的方式,要找出一個典型的蛋白質正確3D結構,可能要花上比宇宙年齡還要長的時間。

DeepMind期望透過AI技術來解決這道難題,理解蛋白質的折疊,除了有助於疾病診斷和治療、藥物開發之外,還能幫助蛋白質設計的工作,例如,生物降解酶來管理像是塑膠或是石油等污染物,以更友善的方式分解廢料,同時也能降低實驗成本和時間。

過去50年來,生物科學家都是透過大量的嘗試錯誤法,來辨識蛋白質的形狀,藉由這種實驗方法,每一個結構就要花上好幾年的時間和數千美元的成本,幸運的是,多虧基因序列成本快速降低,基因領域擁有豐富的資料,因此,近幾年,透過深度學習技術來預測蛋白質結構的方法,變得越來越熱門,DeepMind也開始投入研究,最後打造出AlphaFold。

不同的是,DeepMind沒有採用先前已建立的蛋白質當作模板,而是從頭開始,並透過2個方法來建置結構的預測,這兩項方法都是透過訓練過的深度神經網路,從基因序列來預測蛋白質的特徵,包含成對氨基酸的距離、鏈結氨基酸化學鍵的角度。

圖片來源:DeepMind

首先,DeepMind研究團隊訓練了一套神經網路來預測每對氨基酸分別的距離分佈,並將輸出的機率組合,用來評估書蛋白質結構的準確度,另外,DeepMind還分開訓練了另一套神經網路,利用距離分佈的總和來評估與正確結構的接近程度。

透過這些評分機制,系統就能找出最符合正確結構的預測結果,第一種方法是生物學中最常用的方法,反覆用新的蛋白質片段來替換蛋白質結構的片段,藉此,就能訓練出創造新片段的生成神經網路,來改善蛋白質結構的評分。第二種方法則是利用梯度下降法來優化評分,提升預測結構的準確度,為了減少預測的複雜性,該技術用於整個蛋白質鏈,而不是只用在獨立摺疊的片段。

DeepMind表示,該研究成果的成功,展現了機器學習系統,能夠整合不同來源的資料,協助科學家快速地為複雜的問題,找到創新的解決方案,就像AlphaGo和AlphaZero能夠在複雜的圍棋遊戲中協助人類一樣,DeepMind希望AI技術的突破,有一天能夠幫助人類戰勝基礎科學的問題。


Advertisement

更多 iThome相關內容