作為支持基因組學(Genomics)發展的實際作為,微軟在GitHub上發布了多個相關開源專案,包括在Azure上支援科學用開源工作流程管理系統Cromwell,以及生物資訊工具儲存庫Bioconductor,並且發布基因組學用筆記本Genomics Notebook,另外,微軟也持續在Azure開放資料集平臺,添加更多的基因組學公共資料集,供相關人員免費取用。

DNA定序技術推動了基因組學的研究進展,微軟提到,在未來10年,基因組會成為臨床決策,以及醫療保健服務的核心,而基因組學資料運算需求,將呈現爆炸性成長,相關的應用需要仰賴雲端的敏捷性、可擴展儲存與運算能力,還有資料安全性的支援。

微軟持續在基因組學領域耕耘,對社群做出貢獻,現在於GitHub開源Cromwell on Azure專案,Cromwell是一個用於科學的開源工作流程管理系統,而透過Cromwell on Azure專案,科學家可以方便地運用Azure運算能力,以超大規模運算資源,加速基因研究,Cromwell能夠調度Azure Batch,協調動態運算資源,並且整合用戶的Azure Blob資料儲存,以方便存取資料進行高效能科學運算。

而微軟也在Azure上,提供方便的生物資訊工具Bioconductor,Bioconductor是用R語言開發的可擴展統計和圖形套件儲存庫,可用於分析高通量基因組與生物醫學資料,微軟與Bioconductor核心團隊合作,在Azure提供Bioconductor套件儲存庫支援。

現在,透過Docker Hub上的微軟容器註冊表,部署預先配置的Bioconductor Docker映像檔,生物資訊科學家和資料科學家,就能夠快速使用Bioconductor套件,此外,用戶還能取用Azure虛擬機器模板,部署預先配置的基因組資料科學虛擬機器,進行探索、分析和機器學習模型開發。

另外,微軟也將Azure上的Jupyter Notebook開發為Genomics Notebook,專門提供基因組研究使用。Jupyter Notebook能夠讓資料科學家,使用R或是Python進行資料分析,而生物資訊研究人員,也越來越仰賴筆記本執行基因組資料分析,並利用臨床、基因組以及EMR等資料,建置機器學習模型。

微軟的Genomics Notebook,提供方便的預配置,用戶可以在Azure工作區啟動Genomics Notebook,使用預配置的功能,進行基因組變異檢測、過濾、註釋和轉換基因組,並且建置機器學習模型。

Azure開放資料集平臺上的基因組資料湖,提供更多公開可用的基因組資料集,現在包括醫療保健、製藥和生命科學領域的用戶,可以在Azure上免費存取這些資料集,並且把這些資料,整合到分析工作流程中使用。

熱門新聞

Advertisement