隨著 COVID-19 疫情延燒,甫奪得 TOP500 排行榜冠軍的日本富岳超級電腦,馬上就為醫學專家效勞,憑藉龐大運算力、分析巨量數據,加速執行 COVID-19 的新藥與疫苗開發作業;不可諱言,在高速運算的同時,幾乎容不下任何 I/O 瓶頸,換言之高效儲存設備,絕對是科研計畫中不可或缺的一環。

無獨有偶,臺灣也有來自生醫、製造自動化、安全監控⋯等等許多科研計畫正在執行,除講求豐沛 AI 運算力外, 也對高效儲存系統需求若渴;使得由慧榮科技旗下Bigtera所推出專為 PB 級巨量非結構化資料處理而設計的 VirtualStor Scaler 8.0 軟體定義儲存(SDS)解決方案,獲得諸多科研機關青睞。

慧榮科技產品企劃部協理陳建安表示,以生醫研究計畫內容為例,往往涉及基因定序, 試想一個人擁有 3 萬∼ 5 萬基因體,相當於 200~300GB 資料量,假使總樣本為 10 萬人, 即形成高達 20PB 巨大儲存容量需求;值得一提的,這些巨量資料並非只需存進儲存設備,還要隨時被取出、執行 AI 運算,所以也需要搭配絕佳的存取速度。

破除儲存孤島,彈性配置區塊、檔案與物件儲存服務

綜觀傳統儲存設備,主要支援 Scale-up 擴充模式,利用同一台控制器,向下串接不斷擴增的硬碟,但往上介接 AI 的這一段,永遠是同一條路,無從拓寬路面、容易形成瓶頸,以致經常陷入「容量增加、效能卻上不去」窘境,且受制於 Vendor Locking 效應,也容易衍生儲存孤島疑慮,凡此種種,都難以滿足科研機關的需求。

反觀奠基於 x86 標準架構的SDS,則採取 Scale - out 擴展路徑,可近乎無限制擴增節點,在增加容量的同時,也同步提升 IOPS、Bandwidth、Throughput,藉此成為支撐高效能運算(HPC)、AI 運算的強力後盾,因而相對易於贏得科研單位的青睞。

尤其以 Bigtera VirtualStor Scaler 而論,不僅如同一般 SDS,皆能自由自在匯聚跨廠牌 x86 資 源,成為一個不受供應商綁定的大型 Pool,更難能可貴的是,可同時提供區塊、檔案及物件等儲存協定,裨益用戶因應多種應用場景需求,根據同一座 Pool 靈活配置 LUN、File System 或 S3 Bucket;以 Bigtera 近年承作的國家級科研機構數據中心案件為例,該用戶便利用 VirtualStor Scaler 同時配置物件、區塊兩種服務,藉由前者滿足生醫研究專案所生成的大量檔案儲存需求, 後者則用於支持 OpenStack 架構的虛擬機運行。

S3-to-S3 無縫遷移,確保服務不中斷

更特別之處,在於 VirtualStor 從 7.0 升級為 8.0 的進化過程,增添了諸多極具亮點的特色, 對於解決科研機關長期面臨的痛點,可望產生立竿見影的助益。比方說科研機關過去在轉換新舊儲存設備時,若要進行兩端 S3 資料遷移,原本的服務必須停機一至數週,導致所有研究工作隨之停頓,堪稱用戶難以忍受之痛;如今受惠於 VirtualStor 8.0 新增的 S3-to-S3 獨家無縫遷移功能,即可在背景執行資料搬遷,既有服務照常運轉、不需停機。

慧榮科技產品企劃部資深經理陳昭斌補充說,一旦啟用 S3-to-S3 功能,讀寫閘道便移入 Bigtera SDS 設備,假設使用者(例如醫師、資料科學家)所欲存取的資料未完成遷移、還在舊設備,便會透過讀寫閘道導向該筆資料的所在地,讀取不成問題,執行中的研究計畫絲毫不受影響。他進一步指出,其實從 7.0 版本開始,已納入 NAS/SAN 無縫移轉機制,如今範圍擴大至物件儲存,至此用戶已能完整顧及資料完整性、 服務不中斷等關鍵需求,又因設備汰舊換新而達到效能倍增效果,對於加速研究專案的執行,可謂如虎添翼。

另一方面,過去用戶透過物件儲存系統存入大量檔案後,經常會面臨檔案搜尋不易的痛點;為此,Bigtera 從去年底開始祭出兩階段補強措施,至今已將難題迎刃而解。在第一階段,Bigtera 巧妙運用 Metadata 機制,詳細對應到每筆資料屬性,如此用戶只要將不同 Metadata 檔案匯出到外部 Elasticsearch引擎,便可精準地 Tag 到想要查找的檔案,大幅提升資料搜尋效率;時至今年中旬,Bigtera 完成第二階調整計畫,直接將 Elasticsearch 內建於 VirtualStor,意謂用戶可進一步省卻 Metadata 匯出程序,讓使用體驗再度優化升級。

IOPS 倍增之餘,還能節省機櫃空間

也許有人好奇,現今有大量公有雲 S3 儲存可供運用,是否意謂不需要在地端斥資佈建大型 SDS 系統?對此陳建安說明,對於科研機關而言,執行 AI 訓練的素材,往往動輒數千萬、甚至上億筆海量檔案,這些檔案經常需要從儲存空間取出, 交由 GPU Server 做標註、計算,之後再回存, 若非最終產出判斷邏輯,否則仍須進進出出無數回合,試想這些海量檔案若放置於公有雲,在雲地之間頻繁來回,勢必衍生巨大的資料傳輸費用,反倒加重總體成本負擔;顯見對於 AI 分析需求繁重的科研機關,在私有雲環境建置大型 SDS Pool 才是正解,至於確定日後使用不到的檔案, 再歸檔至公有雲即可。

論及 VirtualStor Scaler 所能帶給用戶的具體效益,以 Bigtera 參與的國家級科研單位的實例來看,歷經舊換新過程,除了讓 IOPS 性能增長一倍、大幅減少資料查找與傳輸的時間外,在硬體配置上從原本 15 台 4U 節點,縮減到 8 台 4U 節點(掛載 60 顆硬碟),使機櫃佔用空間從 60U 驟降為 32U,連帶降低能耗、冷卻成本,可謂一舉數得。

(左起)慧榮科技產品企劃部 資深經理陳昭斌、慧榮科技產品企劃部 協理陳建安、慧榮科技Bigtera台灣區 業務總監楊士明


熱門新聞

Advertisement