Cloud Run GPU正式上線，支援AI推論與批次運算彈性擴展

Google正式發布Cloud Run GPU，用戶可直接在Cloud Run服務啟用Nvidia L4 GPU，無需申請配額。此功能使開發團隊能彈性部署生成式人工智慧、深度學習推論與批次運算等工作負載，同時降低資源閒置帶來的成本，提升運算彈性。

Cloud Run採無伺服器運作模式，支援自動擴展、彈性部署與簡化管理。本次新增GPU支援後，開發者可透過指令或控制臺選項啟用GPU加速。

系統提供按秒計費及自動縮減至零的調度能力，有助於降低閒置資源的費用並提升使用效益。根據Google官方測試，Cloud Run GPU服務在冷啟動時約5秒內可完成GPU與驅動程式啟動。以Gemma 3:4b模型推論為例，從冷啟動至產生第一個Token約需19秒，具支援互動性應用的能力。

在服務可靠性方面，Cloud Run GPU納入Cloud Run既有SLA，並提供分區備援與彈性部署。企業可根據營運需求部署於多個區域以提升可用性，或選擇關閉分區備援以調整資源配置。Cloud Run GPU目前已於美國、歐洲及亞洲多個區域上線，供企業在全球市場部署應用，減少跨區延遲。

Cloud Run Jobs現也已支援GPU，開發者可用於模型微調、批次推論、影片轉檔與圖像處理等非同步運算任務。開發者可根據需求啟動、執行與釋放GPU資源，無需自建基礎設施，即可執行彈性運算任務。

熱門新聞