盾心科技AI團隊組長曾君宇表示,TWCC的硬體非常厲害,使用後AI模型訓練速度改善很多,提高2-3倍。

圖片來源: 

攝影/翁芊儒

由AI超級電腦「臺灣杉二號」所提供的臺灣計算雲服務(TWCC),即將在六月試營運,不過,已有少數臺灣業界團隊搶先試用,其中,主推智慧安防監控攝影機的盾心科技,用TWCC來優化自家ML自動化流程(pipeline),試用後發現,不僅可以加速AI模型的訓練,甚至可以些微改善模型的表現,不過研究團隊也擔心,目前TWCC資安防護強度不夠,且已釋出的API不夠多,恐影響了與主流容器調度平臺的相容性。

為讓AI監控攝影機落地應用,盾心設計打造ML自動化流程縮短人工微調時間

盾心著重使用TWCC來優化ML自動化流程。這個流程的設計,是為了縮短監控攝影機實際落地應用的時間。盾心科技AI團隊組長曾君宇表示,影像辨識在近幾年有突破性發展,很多演算法表現都很好,但在安控領域依舊難以落實,是因為真實場景的影像與訓練用影像資料有差距。舉例來說,攝影機拍攝的視角、現實生活中撐傘走路的行人、晚上昏暗的視線,或者一隻蜘蛛突然爬過攝影鏡頭,都會增加辨識的困難,讓深度學習模型判斷的正確率下降。

「其實只要蒐集夠多的資料(data),針對每一隻攝影機微調(Fine-tuning),都可以調到想要的正確率。」然而,卻也會耗費許多時間在調整模型的過程。因此,曾君宇的AI團隊設計了許多模組化的服務來組合成一個Pipeline,將攝影機落地應用過程中需要手動執行的工作,透過能自動化進行的pipeline來接管,模組中也有少數運用簡單機器學習技術的服務。

盾心科技設計出自動化、端到端的ML pipeline,並持續優化整體流程。

建立了ML pipeline之後,原先的深度學習演算法仍然是核心,但還需要自動化執行其他的環節如資料收集、特徵提取或運算分析的管理與監控等,來支援整個系統的運作。曾君宇也坦言,整個pipeline的運作需要消耗大量GPU的資源,以前用過GCP、AWS、Azure等公有雲平臺來運算分析,近幾個月則改為使用TWCC,密集測試使用後發現其所帶來的效益更勝於公有雲平臺。曾君宇表示:「速度改善很有感,能在短時間內得到回饋,加快研究的速度。」

在測試TWCC平臺的過程中,研究團隊使用單一節點多GPU來訓練模型,發現本來要花一個禮拜才能訓練好的模型縮短至兩天半就好,快了2到3倍,且模型的正確率甚至比原先還高了一點點,推測可能與超級電腦的記憶體容量更大有關;進行分散式訓練(distributed training)時,也因TWCC提供的高效運算設施(HPC)而有機會達到還不錯的成效;此外,TWCC還提供Singularity與Kubernetes兩種容器服務,研究團隊因此嘗試了沒有使用過的Singularity,使用後也提升了效能。

曾君宇表示:「目前在測試跨節點的運算,之後會考慮把一部分的ML自動化流程放在TWCC平臺上。」但他認為,TWCC仍有不少可改進之處,例如在測試期間,研究團隊對TWCC的資安防護措施仍有疑慮,因此只敢先用公開資料庫的數據來做訓練,也多次遇到系統維運而須中斷測試,另外,目前開放的API不夠多,恐無法相容於開源的容器調度平臺等。


Advertisement

更多 iThome相關內容