AI新創搶先試用臺灣計算雲，大讚模型訓練速度快2倍，但仍擔心資安強度不足且API相容性不夠

盾心科技AI團隊組長曾君宇表示，TWCC的硬體非常厲害，使用後AI模型訓練速度改善很多，提高2-3倍。

圖片來源:

攝影/翁芊儒

由AI超級電腦「臺灣杉二號」所提供的臺灣計算雲服務（TWCC），即將在六月試營運，不過，已有少數臺灣業界團隊搶先試用，其中，主推智慧安防監控攝影機的盾心科技，用TWCC來優化自家ML自動化流程（pipeline），試用後發現，不僅可以加速AI模型的訓練，甚至可以些微改善模型的表現，不過研究團隊也擔心，目前TWCC資安防護強度不夠，且已釋出的API不夠多，恐影響了與主流容器調度平臺的相容性。

為讓AI監控攝影機落地應用，盾心設計打造ML自動化流程縮短人工微調時間

盾心著重使用TWCC來優化ML自動化流程。這個流程的設計，是為了縮短監控攝影機實際落地應用的時間。盾心科技AI團隊組長曾君宇表示，影像辨識在近幾年有突破性發展，很多演算法表現都很好，但在安控領域依舊難以落實，是因為真實場景的影像與訓練用影像資料有差距。舉例來說，攝影機拍攝的視角、現實生活中撐傘走路的行人、晚上昏暗的視線，或者一隻蜘蛛突然爬過攝影鏡頭，都會增加辨識的困難，讓深度學習模型判斷的正確率下降。

「其實只要蒐集夠多的資料（data），針對每一隻攝影機微調（Fine-tuning），都可以調到想要的正確率。」然而，卻也會耗費許多時間在調整模型的過程。因此，曾君宇的AI團隊設計了許多模組化的服務來組合成一個Pipeline，將攝影機落地應用過程中需要手動執行的工作，透過能自動化進行的pipeline來接管，模組中也有少數運用簡單機器學習技術的服務。

盾心科技設計出自動化、端到端的ML pipeline，並持續優化整體流程。

建立了ML pipeline之後，原先的深度學習演算法仍然是核心，但還需要自動化執行其他的環節如資料收集、特徵提取或運算分析的管理與監控等，來支援整個系統的運作。曾君宇也坦言，整個pipeline的運作需要消耗大量GPU的資源，以前用過GCP、AWS、Azure等公有雲平臺來運算分析，近幾個月則改為使用TWCC，密集測試使用後發現其所帶來的效益更勝於公有雲平臺。曾君宇表示：「速度改善很有感，能在短時間內得到回饋，加快研究的速度。」

在測試TWCC平臺的過程中，研究團隊使用單一節點多GPU來訓練模型，發現本來要花一個禮拜才能訓練好的模型縮短至兩天半就好，快了2到3倍，且模型的正確率甚至比原先還高了一點點，推測可能與超級電腦的記憶體容量更大有關；進行分散式訓練（distributed training）時，也因TWCC提供的高效運算設施（HPC）而有機會達到還不錯的成效；此外，TWCC還提供Singularity與Kubernetes兩種容器服務，研究團隊因此嘗試了沒有使用過的Singularity，使用後也提升了效能。

曾君宇表示：「目前在測試跨節點的運算，之後會考慮把一部分的ML自動化流程放在TWCC平臺上。」但他認為，TWCC仍有不少可改進之處，例如在測試期間，研究團隊對TWCC的資安防護措施仍有疑慮，因此只敢先用公開資料庫的數據來做訓練，也多次遇到系統維運而須中斷測試，另外，目前開放的API不夠多，恐無法相容於開源的容器調度平臺等。

為讓AI監控攝影機落地應用，盾心設計打造ML自動化流程縮短人工微調時間

熱門新聞