哈佛醫學院用新ML方法，使蛋白質結構預測快一百萬倍

圖片來源:

GitHub

根據外媒報導，哈佛醫學院的生物學家Mohammed AlQuraishi用最新的機器學習方法，來偵測已被了解的蛋白質結構模式，再將其結果應用到預測別的蛋白質結構上，雖然預測結果對蛋白質折疊的應用還不夠精準，像是開發新藥物，但這項新的預測方法，相比過去傳統的方法，至少快上一百萬倍，這項研究成果也發表於Cell System期刊，相關的軟體和研究結果都在GitHub釋出。

蛋白質折疊在過去幾十年來，一直是一個相當知名的困難計算問題，科學家預測，要確定一種典型蛋白質數千個氨基酸的所有可能結構，可能需要耗時超過138億年，過去的方法是將要新的氨基酸序列配對到預先定義的模板，或是透過基因資料來篩選辨識可能的序列，但是，Mohammed AlQuraishi指出，這樣的方法無法決定出那些先前知識未知的架構，因爲並不是僅靠著序列來預測蛋白質架構。

因此，Mohammed AlQuraishi和他的同事採用了一種機器學習方法，稱為可微分（differentiable）學習，能夠根據輸入的資料樣本，向前和向後調整模型本身的元件，來發掘出蛋白質序列和架構之間的關係，這個遞迴基因網路模型就能夠預測出最可能的氨基酸化學鍵連結和旋轉角度。

經過多個月的訓練後，預測模型在預測蛋白質結構的表現上，超越了近幾年所有的其他方法，這個模型雖然對商業應用來說還不夠準確，不過，Mohammed AlQuraishi認為，有許多機會可以優化這項方法，像是進一步整合化學和物理定律，這套模型能夠補足現有方法，預測更廣泛的蛋白質結構。

熱門新聞