國家實驗研究院國家高速網路與計算中心主任史曉斌 (攝影/洪政偉)

在2018年的11月,當全球500大超級電腦排名公布時,這份排名令人眼睛一亮,因為臺灣第一次有國產超級電腦登上第20名的位置,同時也在Green 500大超級電腦中取得第10名的最佳成績,這座超級電腦正是「臺灣杉二號」,它是由財團法人國家實驗研究院國家高速網路與計算中心(簡稱國研院國網中心)所主導規畫,即使過了一年的時間,仍在2019年11月的最新排名中位居第21名。

臺灣杉二號在全球超級電腦創下臺灣的最佳紀錄,不僅超越2017年「臺灣杉一號」在當時500大超級電腦的第95名,也勝過2011年「御風者」的42名,甚至是更早之前,2007年IBM Cluster 1350的35名。

這也是國內第一個AI超級電腦,由國網中心規畫、監造,台灣大哥大負責國際級標準機房及電信級資安維運,廣達負責AI運算主機及資料儲存平臺,華碩負責雲端服務平臺、雲端伺服器及AI應用整合。

這座超級電腦由252個節點所組成,每個節點內建2顆CPU及8顆Nvidia Tesla V100 32GB,共計2,016個GPU,總計算能量達到9 PFLOPS,並有768GB記憶體容量,總儲存量達10PB。

為了解決如此大量GPU所產生的熱,採用in-row cooling氣冷與晶片直接水冷技術,以維持系統的穩定運作。另外,以間接、直接水冷達到節能的目的,並透過提高進水容許溫度至28度C,降低冰機運轉耗電,冷熱通道隔離、異質雙水溫冷卻系統等方法,讓臺灣杉二號得以登上Green 500的第10名,能源效率達11.285 GF/W,也是國內最節能的超級電腦。

國家級超級電腦肩負推動AI使命

國家級超級電腦經常被視為國家科研的基礎,也是一國實力的象徵,主要供國家科學研究、學術研究單位使用,然而,臺灣杉二號不僅如此,在2017年行政院科技部提出「AI小國大戰略」,以4年50億元催生這部超級電腦,更賦予它推動國內產業發展的使命。

經過一年的調整、測試,國網中心以臺灣杉二號的運算資源為基礎,在2019年10月正式推出TWCC(Taiwan Computing Cloud)臺灣AI雲,將國家級的AI雲服務,同時開放供學界及產業界使用。

曾以顧問身分參與臺灣AI雲建置,去年2月接任國網中心主任的史曉斌表示,過去國網中心服務的對象,大多是學校的老師,而在臺灣AI雲的計畫裡,服務對象更擴大到企業界,這也是科技部對前瞻計畫成果的期許,不僅將成果提供給學界,也能提供50%的資源給國內業界使用,「這對國網中心的同仁而言,是不一樣的體驗」。

史曉斌在1990年取得博士學位後,即加入IBM,曾參與國內大型行庫的支票自動化處理專案的他,雖曾離開IBM,但最後又回到IBM,在IBM任職超過20年,是身上流著藍色血液的IBMer。

IBMer改造國網中心工作文化

有別於過去的主任大多來自學術研究界,來自業界的他甫接下這個職位,就將IBM重視客戶的精神,「客戶的成功就是我們的成功」,列為國網中心員工考核的項目。

試圖為成立近30年國網中心重塑內部工作文化,提高對「客戶服務」的重視,也呼應了政府投資數十億元建置臺灣杉二號、提供AI運算服務給廣大的產業界的政策目標。

史曉斌認為,臺灣AI雲要能夠成功,必須要能夠被學界、產業界有效的使用,「當客戶產生好的成果、產生價值,這是客戶的成功,也是我們對計畫成功的定義」。

建置臺灣AI雲,先求可用再求好用

不過,臺灣AI雲的推出卻遭遇不小的挑戰,為了配合政府的AI戰略,超級電腦的建置時間較為短暫。

一般而言,國網中心建置超級電腦,前置規畫大約1年的時間,從公告招標到完成約為9個月時間,而這次構建規模更大的臺灣杉二號,從2018年4月招標,到同年11月完成,僅有短短7個月左右的時間,除了合作廠商,國網中心也動員各個組別,進行機房設施、主機安裝、建置小型實驗性系統、測試開源軟體、不停機升級測試、使用介面調整等等,在短時間內完成。

為了建立差異性,臺灣AI雲同時提供HPC、AI、Cloud三個雲端基礎運算服務,以滿足不同的運算需求,史曉斌認為這在當時的業界很少見,對建置團隊而言是一個新的挑戰。

2018年12月第一次驗收時,他發現有不少問題待解決,建議團隊先從使用者角度出發,建立問題解決的優先順序,到2019年1、2月第二次驗收時,基本的問題都已解決,才初步達到可用(Usable),開放少數的學界研究單位試用。

「雖然學界勉強可以接受,但以業界角度來看,還是有差距、太過粗糙,偏工程思維的結果,對使用者不太友善」,史曉斌回想當時情形說道。

為了改善使用介面,他們參考業界大型雲端運算服務,例如AWS、Azure、GCP,從使用者角度改善系統可用性。

一方面,國網中心內部的非工程人員試用這套系統,另外,也邀請少數的學界研究單位、產業界參與試用,蒐集外部使用者的意見,直到2019年5月完成第二輪的使用介面改善,向「好用」再邁進一步。國網中心投入相當多的心力改善使用體驗。

以高速互連網路改善跨節點AI運算效能

國網中心希望幫助企業看到大資料分析、AI的價值,以決定將來的投資,成為企業導入AI的推手 ─── 國家實驗研究院國家高速網路與計算中心主任史曉斌(攝影/洪政偉)

那麼,臺灣AI雲有哪些特色?如何能幫助產學界加速發展AI?

史曉斌解釋,在一般雲端服務裡,用戶可以建立一個VM,設定需要的CPU、GPU數量,接著在VM執行AI程式,一個CPU最多僅能搭配8個GPU,如果需要更多的GPU,需要再建立一個VM,再在上面自己建立叢集管理工作負載。

而臺灣AI雲將2千多個GPU建立為大型叢集,用戶只要設定好CPU、GPU數量後,不用擔心後端的資源分配問題,不需要自己管理,系統會自動幫使用者管理資源,最多能用到2千多個GPU。

他們將超級電腦中常見的InfiniBand高速互連網路技術,用於節點和節點之間。根據國網中心測試,以增加到8個節點為例,臺灣AI雲的規模延展率(Scaling ratio)仍能維持約90%,若使用一般市面上的網路則降到約60%或更低。「這是超級電腦的特色,執行的工作愈多,愈能展現超級電腦的能力」,史曉斌說。

跨節點的高速連結,適合一些題目較大的AI運算分析,當系統面對龐大的資料、較大的機器學習模型,在不用分割資料、縮小模型下,透過跨節點運算提升計算的準確性、效率。

臺灣AI雲同時支援HPC高效能運算、AI及雲端運算需求。在HPC方面,可透過Slurm管理Singularity,而AI運算需求也支援Kubernetes、Docker容器,使用者還能利用工具轉換Singularity或是Docker。

國網中心以ResNet-50作測試,發現在Slurm的Singularity,因通訊、核心使用資源較少,約有10%的效能差異。換言之,若用戶將Docker容器轉換為Slurm的Singularity容器,改在HPC平臺上執行,約有10%的效能提升。

不僅如此,使用Slurm還有其他好處,史曉斌指出,在Slurm的環境裡,GPU可使用同一節點內其他GPU的記憶體,因此單一GPU記憶體為32GB,8個GPU記憶體合計就有256GB,適合需要大量GPU記憶體的運算工作。

以國家級AI雲降低企業開發門檻

「臺灣AI雲的效能不敢稱世界第一,但絕對是世界級的,領先業界的平臺」,史曉斌自豪地說。

當初政府決定投入數十億元建置AI超級電腦,打造國家級AI雲運算服務,曾有業者提出質疑的聲音,為何政府不使用現成的商業雲端服務?史曉斌嘆了口氣反問,以臺灣AI雲現在提供給國內產學界使用的運算資源,如果使用的是商業雲端服務,費用會是多少?

基於促進國內產業的發展,臺灣AI雲的服務收費,比起業界的雲端運算服務少了約15%,降低學界、業界使用運算資源的門檻,能以比商業雲端運算服務更低的費用開發測試人工智慧應用。

自去年正式開放產學界使用,現在已有近300個專案使用臺灣AI雲,總GPU使用時間接近1,000萬個小時,雖然新創業者的專案數量不到一半,卻佔將近4成的GPU使用小時,包括DeepQ、雲象科技、盾心都使用臺灣AI雲。

以醫療影像AI新創業者雲象科技為例,他們的玻片病理影像AI識別系統,因一張數位全玻片病理影像高達幾十億畫素,超出單一GPU記憶體,難以使用一般運算設備來處理,必須切割為多個小區塊,才能進行AI模型訓練。

去年雲象和國網中心合作,利用臺灣AI雲的跨節點運算,克服了這項挑戰,他們使用8個或16個節點運算,進行全玻片的病理影像訓練AI,相較於雲象自己的運算設備,改用臺灣AI雲之後,效能提升400多倍,也節省可觀的商用運算服務費用。

更多服務助企業開發AI

今年進入「AI小國大戰略」發展的第四年,為了滿足更多運算需求,規畫將擴充臺灣AI雲的GPU種類。以VM為例,除了高階的Nvidia Tesla V100之外,也會針對GPU運算需求較低或適合推論的GPU,例如RTX系列或P40。

由於以CPU叢集為主的臺灣杉一號使用率仍然滿載, CPU運算的需求還是很大,國網中心也有意擴充CPU叢集。

另外,還準備擴大臺灣AI雲的PaaS層功能,和IBM合作推動大數據分析平臺服務,採用IBM的Cloud Pak for Data(CP4D),作為臺灣AI雲的資料分析服務。今年也準備推動市集,讓各種工具、演算法、模型增加曝光的機會。

國網中心也準備和廠商合作,以臺灣AI雲為資料蒐集平臺,並利用上面的資源協助AI運算。

史曉斌表示,今年將延攬人才,成立資料科學團隊,協助企業在開發AI、深度學習,解決資料清理、分析難題。

「國網中心希望幫助企業看到大資料分析、AI的價值,以決定將來的投資,成為企業導入AI的推手」。

 

CTO小檔案

史曉斌

國家實驗研究院國家高速網路與計算中心主任

學歷:美國伊利諾大學香檳分校資訊科學博士

經歷:1990年取得博士學位後,同年即進入IBM工作,曾擔任物聯網認知分析首席設計師、帶領大數分析平臺開發,1994年曾短暫回臺擔任中山大學資訊工程學系副教授一年,2000年至2004年擔任Momenta技術長/總經理,之後回到IBM直至2018年,2019年2月接任國網中心主任。

 

機關檔案

國家實驗研究院國家高速網路與計算中心

● 地址:新竹市東區研發六路7號

● 成立時間:1991年

● 主要業務:國內唯一共用之大型計算平臺及學術研究網路設施,肩負計算、儲存、網路、平台整合的前瞻雲端技術先導角色,提供國內各界高速計算、高品質網路、高效能儲存、大資料分析及科學工程模擬等雲端整合服務。因應未來AI智慧生活應用,更聚焦環境災防、生物醫學、數位文創等領域,進行深度學習、人工智慧等創新技術研發,並促成國內新興科技與產業發展。

● 員工數:約200人

公司大事紀

● 1991年:國家高速電腦中心成立,隸屬國科會

● 1993年:開始提供高速計算服務

● 1999年:開始提供研究網路連線服務(TANet2)骨幹1G

● 2003年:臺灣第一部自製超級電腦Formosa1,TOP500第135名

● 2004年:臺灣高品質學術研究網路TWAREN啟用(骨幹20G),並建立歐亞美跨洲學術網路連線

● 2005年:於臺南科學園區成立臺南分部,啟用為高品質網路維運中心

● 2006年:於臺中科學園區成立臺中分部,為格網維運中心

● 2007年:建置Iris主機,進入TOP500第35名

● 2011年:建置ALPS主機–「御風者」,進入TOP500第42名,運算效能177TF,臺灣第一座算圖農場啟用

● 2013年:啟動臺灣惡意程式知識庫

● 2016年:臺灣高品質學術研究網路TWAREN骨幹升級至100G

● 2017年:建置「台灣杉一號」,TOP500第95名,運算效能達1.33PF

● 2018年:建置「台灣杉二號」,TOP500第20名,Green500第10名,效能9PF

● 2019年:「TWCC臺灣AI雲」啟用,開創新一代AI大數據雲端服務

熱門新聞

Advertisement