AWS機器學習服務Amazon SageMaker現在開始能夠使用,EC2中最強的P3執行個體p3dn.24xlarge,其專為分散式機器學習訓練和高效能運算,提供比其他P3執行個體多一倍的GPU記憶體,而且vCPU也多了50%,可以大幅加速大型且複雜的分散式模型訓練工作。

AWS提到,深度學習的發展突飛猛進,可以應用在偵測皮膚癌或是開發自動駕駛汽車上,具有從大量非結構化資料,擷取特徵並建構複雜模型的能力,但訓練神經網路需要大量的運算能力,而這也使得開發者轉而使用GPU加速運算,AWS在Amazon SageMaker上提供了EC2的P2以及P3執行個體選項,供有GPU運算需求的用戶使用。

這次在Amazon SageMaker服務加入的P3dn.24xlarge,是P3系列中最快的執行個體,其搭載了8個Nvidia V100 GPU,和96個AWS訂製的第二代英特爾Xeon可擴展vCPU,儲存使用1.8 TB的本機NVMe型SSD,AWS提到,由於P3dn.24xlarge提供達100 Gbps的網路傳輸量,因此開發人員能夠有效的利用16、32或 64個P3dn.24xlarge執行個體,進行分散式訓練,以縮短模型訓練時間。

除了P3dn.24xlarge提供足夠的網路之外,其使用的V100 Tensor Core GPU以及32 GB的記憶體,都能支援開發人員訓練更大型的機器學習模型,並處理更大批次的資料。目前P3dn執行個體可用於Amazon SageMaker服務,僅在美東北維吉尼亞還有美西奧勒岡區域開放,其他區域還要再等一等。


Advertisement

更多 iThome相關內容