全球第21大超級電腦助攻，國網中心要當產學界AI推手

國家實驗研究院國家高速網路與計算中心主任史曉斌（攝影／洪政偉）

在2018年的11月，當全球500大超級電腦排名公布時，這份排名令人眼睛一亮，因為臺灣第一次有國產超級電腦登上第20名的位置，同時也在Green 500大超級電腦中取得第10名的最佳成績，這座超級電腦正是「臺灣杉二號」，它是由財團法人國家實驗研究院國家高速網路與計算中心（簡稱國研院國網中心）所主導規畫，即使過了一年的時間，仍在2019年11月的最新排名中位居第21名。

臺灣杉二號在全球超級電腦創下臺灣的最佳紀錄，不僅超越2017年「臺灣杉一號」在當時500大超級電腦的第95名，也勝過2011年「御風者」的42名，甚至是更早之前，2007年IBM Cluster 1350的35名。

這也是國內第一個AI超級電腦，由國網中心規畫、監造，台灣大哥大負責國際級標準機房及電信級資安維運，廣達負責AI運算主機及資料儲存平臺，華碩負責雲端服務平臺、雲端伺服器及AI應用整合。

這座超級電腦由252個節點所組成，每個節點內建2顆CPU及8顆Nvidia Tesla V100 32GB，共計2,016個GPU，總計算能量達到9 PFLOPS，並有768GB記憶體容量，總儲存量達10PB。

為了解決如此大量GPU所產生的熱，採用in-row cooling氣冷與晶片直接水冷技術，以維持系統的穩定運作。另外，以間接、直接水冷達到節能的目的，並透過提高進水容許溫度至28度C，降低冰機運轉耗電，冷熱通道隔離、異質雙水溫冷卻系統等方法，讓臺灣杉二號得以登上Green 500的第10名，能源效率達11.285 GF/W，也是國內最節能的超級電腦。

國家級超級電腦肩負推動AI使命

國家級超級電腦經常被視為國家科研的基礎，也是一國實力的象徵，主要供國家科學研究、學術研究單位使用，然而，臺灣杉二號不僅如此，在2017年行政院科技部提出「AI小國大戰略」，以4年50億元催生這部超級電腦，更賦予它推動國內產業發展的使命。

經過一年的調整、測試，國網中心以臺灣杉二號的運算資源為基礎，在2019年10月正式推出TWCC（Taiwan Computing Cloud）臺灣AI雲，將國家級的AI雲服務，同時開放供學界及產業界使用。

曾以顧問身分參與臺灣AI雲建置，去年2月接任國網中心主任的史曉斌表示，過去國網中心服務的對象，大多是學校的老師，而在臺灣AI雲的計畫裡，服務對象更擴大到企業界，這也是科技部對前瞻計畫成果的期許，不僅將成果提供給學界，也能提供50%的資源給國內業界使用，「這對國網中心的同仁而言，是不一樣的體驗」。

史曉斌在1990年取得博士學位後，即加入IBM，曾參與國內大型行庫的支票自動化處理專案的他，雖曾離開IBM，但最後又回到IBM，在IBM任職超過20年，是身上流著藍色血液的IBMer。

IBMer改造國網中心工作文化

有別於過去的主任大多來自學術研究界，來自業界的他甫接下這個職位，就將IBM重視客戶的精神，「客戶的成功就是我們的成功」，列為國網中心員工考核的項目。

試圖為成立近30年國網中心重塑內部工作文化，提高對「客戶服務」的重視，也呼應了政府投資數十億元建置臺灣杉二號、提供AI運算服務給廣大的產業界的政策目標。

史曉斌認為，臺灣AI雲要能夠成功，必須要能夠被學界、產業界有效的使用，「當客戶產生好的成果、產生價值，這是客戶的成功，也是我們對計畫成功的定義」。

建置臺灣AI雲，先求可用再求好用

不過，臺灣AI雲的推出卻遭遇不小的挑戰，為了配合政府的AI戰略，超級電腦的建置時間較為短暫。

一般而言，國網中心建置超級電腦，前置規畫大約1年的時間，從公告招標到完成約為9個月時間，而這次構建規模更大的臺灣杉二號，從2018年4月招標，到同年11月完成，僅有短短7個月左右的時間，除了合作廠商，國網中心也動員各個組別，進行機房設施、主機安裝、建置小型實驗性系統、測試開源軟體、不停機升級測試、使用介面調整等等，在短時間內完成。

為了建立差異性，臺灣AI雲同時提供HPC、AI、Cloud三個雲端基礎運算服務，以滿足不同的運算需求，史曉斌認為這在當時的業界很少見，對建置團隊而言是一個新的挑戰。

2018年12月第一次驗收時，他發現有不少問題待解決，建議團隊先從使用者角度出發，建立問題解決的優先順序，到2019年1、2月第二次驗收時，基本的問題都已解決，才初步達到可用（Usable），開放少數的學界研究單位試用。

「雖然學界勉強可以接受，但以業界角度來看，還是有差距、太過粗糙，偏工程思維的結果，對使用者不太友善」，史曉斌回想當時情形說道。

為了改善使用介面，他們參考業界大型雲端運算服務，例如AWS、Azure、GCP，從使用者角度改善系統可用性。

一方面，國網中心內部的非工程人員試用這套系統，另外，也邀請少數的學界研究單位、產業界參與試用，蒐集外部使用者的意見，直到2019年5月完成第二輪的使用介面改善，向「好用」再邁進一步。國網中心投入相當多的心力改善使用體驗。

以高速互連網路改善跨節點AI運算效能

國網中心希望幫助企業看到大資料分析、AI的價值，以決定將來的投資，成為企業導入AI的推手 ─── 國家實驗研究院國家高速網路與計算中心主任史曉斌（攝影／洪政偉）

那麼，臺灣AI雲有哪些特色？如何能幫助產學界加速發展AI？

史曉斌解釋，在一般雲端服務裡，用戶可以建立一個VM，設定需要的CPU、GPU數量，接著在VM執行AI程式，一個CPU最多僅能搭配8個GPU，如果需要更多的GPU，需要再建立一個VM，再在上面自己建立叢集管理工作負載。

而臺灣AI雲將2千多個GPU建立為大型叢集，用戶只要設定好CPU、GPU數量後，不用擔心後端的資源分配問題，不需要自己管理，系統會自動幫使用者管理資源，最多能用到2千多個GPU。

他們將超級電腦中常見的InfiniBand高速互連網路技術，用於節點和節點之間。根據國網中心測試，以增加到8個節點為例，臺灣AI雲的規模延展率（Scaling ratio）仍能維持約90%，若使用一般市面上的網路則降到約60%或更低。「這是超級電腦的特色，執行的工作愈多，愈能展現超級電腦的能力」，史曉斌說。

跨節點的高速連結，適合一些題目較大的AI運算分析，當系統面對龐大的資料、較大的機器學習模型，在不用分割資料、縮小模型下，透過跨節點運算提升計算的準確性、效率。

臺灣AI雲同時支援HPC高效能運算、AI及雲端運算需求。在HPC方面，可透過Slurm管理Singularity，而AI運算需求也支援Kubernetes、Docker容器，使用者還能利用工具轉換Singularity或是Docker。

國網中心以ResNet-50作測試，發現在Slurm的Singularity，因通訊、核心使用資源較少，約有10%的效能差異。換言之，若用戶將Docker容器轉換為Slurm的Singularity容器，改在HPC平臺上執行，約有10%的效能提升。

不僅如此，使用Slurm還有其他好處，史曉斌指出，在Slurm的環境裡，GPU可使用同一節點內其他GPU的記憶體，因此單一GPU記憶體為32GB，8個GPU記憶體合計就有256GB，適合需要大量GPU記憶體的運算工作。

以國家級AI雲降低企業開發門檻

「臺灣AI雲的效能不敢稱世界第一，但絕對是世界級的，領先業界的平臺」，史曉斌自豪地說。

當初政府決定投入數十億元建置AI超級電腦，打造國家級AI雲運算服務，曾有業者提出質疑的聲音，為何政府不使用現成的商業雲端服務？史曉斌嘆了口氣反問，以臺灣AI雲現在提供給國內產學界使用的運算資源，如果使用的是商業雲端服務，費用會是多少？

基於促進國內產業的發展，臺灣AI雲的服務收費，比起業界的雲端運算服務少了約15%，降低學界、業界使用運算資源的門檻，能以比商業雲端運算服務更低的費用開發測試人工智慧應用。

自去年正式開放產學界使用，現在已有近300個專案使用臺灣AI雲，總GPU使用時間接近1,000萬個小時，雖然新創業者的專案數量不到一半，卻佔將近4成的GPU使用小時，包括DeepQ、雲象科技、盾心都使用臺灣AI雲。

以醫療影像AI新創業者雲象科技為例，他們的玻片病理影像AI識別系統，因一張數位全玻片病理影像高達幾十億畫素，超出單一GPU記憶體，難以使用一般運算設備來處理，必須切割為多個小區塊，才能進行AI模型訓練。

去年雲象和國網中心合作，利用臺灣AI雲的跨節點運算，克服了這項挑戰，他們使用8個或16個節點運算，進行全玻片的病理影像訓練AI，相較於雲象自己的運算設備，改用臺灣AI雲之後，效能提升400多倍，也節省可觀的商用運算服務費用。

更多服務助企業開發AI

今年進入「AI小國大戰略」發展的第四年，為了滿足更多運算需求，規畫將擴充臺灣AI雲的GPU種類。以VM為例，除了高階的Nvidia Tesla V100之外，也會針對GPU運算需求較低或適合推論的GPU，例如RTX系列或P40。

由於以CPU叢集為主的臺灣杉一號使用率仍然滿載， CPU運算的需求還是很大，國網中心也有意擴充CPU叢集。

另外，還準備擴大臺灣AI雲的PaaS層功能，和IBM合作推動大數據分析平臺服務，採用IBM的Cloud Pak for Data（CP4D），作為臺灣AI雲的資料分析服務。今年也準備推動市集，讓各種工具、演算法、模型增加曝光的機會。

國網中心也準備和廠商合作，以臺灣AI雲為資料蒐集平臺，並利用上面的資源協助AI運算。

史曉斌表示，今年將延攬人才，成立資料科學團隊，協助企業在開發AI、深度學習，解決資料清理、分析難題。

「國網中心希望幫助企業看到大資料分析、AI的價值，以決定將來的投資，成為企業導入AI的推手」。

CTO小檔案

史曉斌

國家實驗研究院國家高速網路與計算中心主任

學歷：美國伊利諾大學香檳分校資訊科學博士

經歷：1990年取得博士學位後，同年即進入IBM工作，曾擔任物聯網認知分析首席設計師、帶領大數分析平臺開發，1994年曾短暫回臺擔任中山大學資訊工程學系副教授一年，2000年至2004年擔任Momenta技術長/總經理，之後回到IBM直至2018年，2019年2月接任國網中心主任。

機關檔案

國家實驗研究院國家高速網路與計算中心

● 地址：新竹市東區研發六路7號

● 成立時間：1991年

● 主要業務：國內唯一共用之大型計算平臺及學術研究網路設施，肩負計算、儲存、網路、平台整合的前瞻雲端技術先導角色，提供國內各界高速計算、高品質網路、高效能儲存、大資料分析及科學工程模擬等雲端整合服務。因應未來AI智慧生活應用，更聚焦環境災防、生物醫學、數位文創等領域，進行深度學習、人工智慧等創新技術研發，並促成國內新興科技與產業發展。

● 員工數：約200人

公司大事紀

● 1991年：國家高速電腦中心成立，隸屬國科會

● 1993年：開始提供高速計算服務

● 1999年：開始提供研究網路連線服務（TANet2）骨幹1G

● 2003年：臺灣第一部自製超級電腦Formosa1，TOP500第135名

● 2004年：臺灣高品質學術研究網路TWAREN啟用（骨幹20G），並建立歐亞美跨洲學術網路連線

● 2005年：於臺南科學園區成立臺南分部，啟用為高品質網路維運中心

● 2006年：於臺中科學園區成立臺中分部，為格網維運中心

● 2007年：建置Iris主機，進入TOP500第35名

● 2011年：建置ALPS主機–「御風者」，進入TOP500第42名，運算效能177TF，臺灣第一座算圖農場啟用

● 2013年：啟動臺灣惡意程式知識庫

● 2016年：臺灣高品質學術研究網路TWAREN骨幹升級至100G

● 2017年：建置「台灣杉一號」，TOP500第95名，運算效能達1.33PF

● 2018年：建置「台灣杉二號」，TOP500第20名，Green500第10名，效能9PF

● 2019年：「TWCC臺灣AI雲」啟用，開創新一代AI大數據雲端服務

熱門新聞