DeepMind再創新里程碑，挑戰複雜蛋白質結構問題打造準確預測模型AlphaFold

圖片來源:

DeepMind

繼打造出打敗人類圍棋世界冠軍的AI程式AlphaGo之後，DeepMind最近再次出手，挑戰的是複雜的蛋白質結構預測問題，成功打造出僅透過基因序列，準確預測蛋白3D結構的預測模型AlphaFold，並在今年投稿蛋白質結構預測競賽（CASP），在入選的團隊中，排名第一名，該預測蛋白結構的運算方法，更被競賽主辦方喻為史無前例的進展。

DeepMind指出，此研究成果是生物學的主要挑戰的一大進展，因為預測蛋白質形狀，將可以了解該蛋白質在人體內的作用，進而診斷和治療由錯誤摺疊蛋白質引起的疾病，像是阿茲海默症、帕金森氏症、亨丁舞蹈症、囊狀纖維化疾病等。

DeepMind研究團隊從兩年前就開始著手蛋白質結構的研究，透過龐大基因組資料和多年的研究，來開發預測模型，該模型產生3D結構蛋白質模型，遠比以往的研究準確，蛋白質3D結構的預測模型AlphaFold，鎖定困擾生物科學家已久的挑戰——蛋白質摺疊（protein folding）問題，蛋白質摺疊問題即是預測沒有固定結構的氨基酸序列，會如何摺疊成特定3D結構的蛋白質分子。

蛋白質是一個巨大且複雜的分子，幾乎所有生物體的機能都與蛋白質的移動和改變息息相關，像是收縮肌群、光線感知，和將食物轉為能量的行為，而這些蛋白質都在被編譯在DNA中，稱之為基因。而蛋白質有成千上萬種，每一種都有其特定的功能，功能取決於蛋白質特定的3D結構，舉例來說，免疫系統的抗體蛋白質為Y型，分叉頂端具有抗原結合位的鎖狀結構，透過特殊的結合機制，抗體蛋白能夠偵測和標記外來微生物和受感染的細胞，以誘導其他免疫機制對其進行攻擊。

不過，從基因序列識別蛋白質結構是一項非常複雜的任務，該任務的挑戰在於基因序列中，只包含部分的氨基酸殘基序列訊息，且越大的蛋白質就複雜，因為有更多的氨基酸序列的相互作用必須納入考量，以至於難以建模，如果用列舉所有可能配置的方式，要找出一個典型的蛋白質正確3D結構，可能要花上比宇宙年齡還要長的時間。

DeepMind期望透過AI技術來解決這道難題，理解蛋白質的折疊，除了有助於疾病診斷和治療、藥物開發之外，還能幫助蛋白質設計的工作，例如，生物降解酶來管理像是塑膠或是石油等污染物，以更友善的方式分解廢料，同時也能降低實驗成本和時間。

過去50年來，生物科學家都是透過大量的嘗試錯誤法，來辨識蛋白質的形狀，藉由這種實驗方法，每一個結構就要花上好幾年的時間和數千美元的成本，幸運的是，多虧基因序列成本快速降低，基因領域擁有豐富的資料，因此，近幾年，透過深度學習技術來預測蛋白質結構的方法，變得越來越熱門，DeepMind也開始投入研究，最後打造出AlphaFold。

不同的是，DeepMind沒有採用先前已建立的蛋白質當作模板，而是從頭開始，並透過2個方法來建置結構的預測，這兩項方法都是透過訓練過的深度神經網路，從基因序列來預測蛋白質的特徵，包含成對氨基酸的距離、鏈結氨基酸化學鍵的角度。

圖片來源：DeepMind

首先，DeepMind研究團隊訓練了一套神經網路來預測每對氨基酸分別的距離分佈，並將輸出的機率組合，用來評估書蛋白質結構的準確度，另外，DeepMind還分開訓練了另一套神經網路，利用距離分佈的總和來評估與正確結構的接近程度。

透過這些評分機制，系統就能找出最符合正確結構的預測結果，第一種方法是生物學中最常用的方法，反覆用新的蛋白質片段來替換蛋白質結構的片段，藉此，就能訓練出創造新片段的生成神經網路，來改善蛋白質結構的評分。第二種方法則是利用梯度下降法來優化評分，提升預測結構的準確度，為了減少預測的複雜性，該技術用於整個蛋白質鏈，而不是只用在獨立摺疊的片段。

DeepMind表示，該研究成果的成功，展現了機器學習系統，能夠整合不同來源的資料，協助科學家快速地為複雜的問題，找到創新的解決方案，就像AlphaGo和AlphaZero能夠在複雜的圍棋遊戲中協助人類一樣，DeepMind希望AI技術的突破，有一天能夠幫助人類戰勝基礎科學的問題。

熱門新聞