面對發展多時的高效能運算(HPC),以及現今大放異彩的人工智慧(AI),眾家伺服器業者所能提供的解決方案,向來局限在各式硬體設備,像是GPU伺服器,然而,今年我們看到出現一些變化,有些廠商開始提供對應的軟體平臺,並且搭配他們生產、設計的伺服器,例如,聯想在去年11月舉行的全球超級電腦大會,就推出一套AI與HPC叢集管理軟體,名為Lenovo Intelligent Computing Orchestrator(LiCO),而該公司今年4月在臺舉行的2018人工智慧高峰會,也特別介紹了這套解決方案。

在人工智慧相關應用的運算解決方案,聯想將ThinkSystem系列伺服器的部份機型,區分為訓練與推論等兩大用途,然後以Lenovo Intelligent Computing Orchestrator(LiCO),作為管理這類工作負載的主要軟體平臺。
從整體架構而言,他們也規畫了大數據、儲存、網路等不同角色的節點,考量到出更完整的面向。

基本上,LiCO是聯想針對高效能運算工作負載,以及人工智慧模型開發需求,所提供出來的一套軟體組合,能夠簡化分散式叢集環境的部署、管理與使用,當中包含了圖形化的使用介面、常用的深度學習框架(例如:Tensorflow、MXNet、Caffe)、類神經網路訓練的監控,以及AI工作負載的排程執行,以此來支援多個這類型專案同時進行的環境,並且能跨越不同解決方案的供應商來運作。

在LiCO當中,企業可以管理深度學習與機器學習的工作流程、預先訓練資料模型,以及控制與、自動排定相關的運算處理作業,同時,也支援常用的程式庫與框架,像是Tensorflow、MXNet、Caffe。

以技術架構的組成而言,LiCO採用多款開放原始碼軟體來建構叢集管理平臺,並且整合了管理、監控、排程等多項功能,像是系統管理與產生的部分,是由xCAT和Confluent負責;系統監控與應用系統監控的功能,由Nagios 和Ganglia提供;工作排程與調度指揮的功能,源於Slurm、Torque與Maui;當中也使用了容器,找來科學運算常用的Singularity擔綱。

 

LiCO提供了單一的軟體堆疊平臺,整合了程式庫、框架、工作流程範本,讓企業的多個使用者能夠透過網頁入口介面,運用聯想伺服器所搭載的Intel CPU與Nvidia GPU的強大運算效能,執行資料模型的設定、訓練、推理,同時,還能監控管理高效能運算與人工智慧的工作負載。
而在這樣的架構下,企業開發人工智慧過程的每個重要環節,能夠運行其中──從大數據的儲存、資料的訓練、推論或計分,可協助系統進行自動分類與區隔。

而有了這樣的單一平臺之後,可以簡化底層運算資源的互動作業,並且善用開放原始碼的叢集工具,降低所要耗費的心力,以及複雜度,用戶在執行高效能運算與人工智慧的工作負載時,也會比較輕鬆;同時,它又能搭配聯想提供的伺服器,發揮CPU和GPU的運算能力,因應持續改變的應用系統執行需求。

對於企業建置與發展人工智慧的需求,聯想認為LiCO具有四大特點:相關演算法的整合、提供能夠管理工作流程與範本套用的網頁入口,以及硬體最佳化、簡化的開放原始碼與叢集軟體管理。

產品資訊

聯想Lenovo Intelligent Computing Orchestrator 5.1
●原廠:聯想0800-000-702
●建議售價:廠商未提供
●支援伺服器機型:SD530、SR630、SR650
●作業系統:CentOS 7.4、RHEL 7.4、SLES 12 SP3●深度學習框架:Caffe、Intel-Caffe、TensorFlow、MxNet、Neon
●容器平臺:Singularity
●系統管理與產生平臺:xCAT/Confluent
●系統監控軟體:Nagios
●應用系統監控軟體:Ganglia
●工作排程與調度指揮平臺:Slurm、Torque與Maui
●相容軟體:IBM Spectrum LSF、GNU compilers、Intel Cluster Toolkit、IBM Spectrum Scale、Lustre

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】


Advertisement

更多 iThome相關內容