木刻思研究團隊訓練出能辨識8種肺部病徵的AI預標記模型,能內建到LabelHub平臺提供醫院專案使用。

圖片來源: 

圖/木刻思提供

三年前,木刻思團隊一次製造業Tensorflow教育訓練中,只是隨手開發了一套類似於小畫家的陽春版影像標註工具,來輔助上課對象的影像標記之用,卻意外大受對方歡迎,甚至有意購買這套工具軟體,這讓木刻思執行長張家齊發現了一個臺灣資料標註平臺的市場機會。

花了一年多研發,木刻思在2018年推出一套資料預標註平臺LabelHub,可提供標註資料與影像辨識模型訓練,連台積電都採用來訓練廠區工安機器人。張家齊表示,下一步正在開發一套可以分辨標記師品質的評分機制,可以用來改善影像資料標記的方法,希望能鎖定製造業廠區安全、產線瑕疵辨識或醫療影像疾病檢測等。

比如說,臺積電在去年臺灣最大半導體展中,展出這項廠區工安機器人的成效,可用來偵測廠區異常,加強廠區工安。木刻思採取半監督式學習(Semi-supervised learning)的訓練方式,透過兩張相同場景、但其中的物件擺放位置不同的資料,比如正常照片與異常照片對比,異常照片中可能有梯子、三角錐倒下、不明物件掉落等,直接給定哪一張照片正常、哪一張異常,讓模型透過比對,來學習異常情境可能的樣態,並由客戶進一步標記出異常照片中的物件,來定義其異常原因。

此外,木刻思團隊也以國外開源的胸腔X光片資料,運用LableHub平臺研發了一個可以辨識八種肺部病徵的影像辨識模型,辨識率達82-83%。張家齊表示,若客戶有需求,會將模型內建到平臺中供客戶使用,只要以臺灣在地化影像訓練後,就能使用於臨床上協助醫生診斷。木刻思目前也與五個醫院專案在洽談合作。

LabelHub平臺利用國外影像資料庫訓練出來的肺部病徵標記模型,可同時辨識8種肺部病徵,準確率約8成。

木刻思研發評分機制,要找出標記品質不佳的影像與標記者

一般訓練AI模型時,需要使用大量標記過的影像來訓練,但是因為,標記影像量動輒數十萬或百萬張,多半會由多位標誌師依據一套判斷規則分工標記,全部標記完後,再由一個人複查(通常專案經理PM),找出符合標準的那一批影像(稱為Ground Truth版資料),再用這批資料來訓練AI模型。

為此,木刻思也正在開發一套評分機制,要來輔助客戶訓練模型時,標記影像辨識效果複查的過程。張家齊舉例,製造業常會有高達100萬張的影像,可以用來優化瑕疵檢測模型,若有3個標註師來標記成果,可以得到人工標記的300萬張影像。此時,需要PM根據1組3張影像中,選出最符合要求或標準的正確答案(ground truth),也就是說,PM須要檢視300萬張圖片才能選出每一組圖片的Ground Truth版本,再以此來訓練模型。

LabelHub平臺評分機制則採取抽樣的方式,從前述100萬組人工標註影像中,抽樣取出1000組、共3000張影像,由專案經理找出每組三張中,最符合標準的那一張。LabelHub平臺評分機制會用其餘兩張影像與符合標準的那一張,比較標記位置的差距,來建立一個衡量標記品質的AI評分模型,差距越大分數越低,差距越小分數就越高。最後,再用這個AI評分模型,來對其他99.9萬組已標記影像進行評分,找出其中最符合標準的那一套Ground Truth影像作為訓練用的資料。

「AI標註的準確率越來越高,直到比所有標記人員強的時候,反而是人可能會標錯,所以我們有第二套評分機制,讓人與AI互評。」張家齊表示,初期模型標記功能還不強,需要透過人工複查與評分機制不斷優化,但當模型辨識精準度與效率都超越人類時,就需要轉換為另一套評分機制,讓AI也能對不同標記人員的表現評分,也就是雙向互評功能,目前已完成功能開發,正在進行最後測試階段,張家齊表示,年底前會優先釋出對影像標記成果的評分機制。

不過,張家齊表示,這套評分機制主要用途是找出資料標記有誤,或是標記表現不佳的標記者,來協助專案管理者更有效率的挑出標記正確的資料,因此適用於標記者較多的場景,比如醫院的標記成本高,通常只由1-2位醫生負責標記,就不太適用。

LabelHub五大管理功能,讓用戶快速標註影像與訓練模型

LabelHub也推出5大管理功能,包括人員權限、原始資料、標記成果、模型版本與運算資源的管理,來提高模型訓練過程的專案管理。基本的權限管理可分成資料標記人員、IT維運人員、AI工程師、系統管理者等,各有不同的操作介面和權限。資料來源則可支援存放在公有雲、私有雲、混合雲,或Hadoop平臺的儲存空間;此外也內建Kubernetes工具,直接可以監測運算資源的溫度、記憶體用量等,執行模型訓練任務時,可支援GPU和支援Google的TPU晶片。

在影像標記機制上,提供方框和塗色兩種標註工具,內建了上述的評分機制,可分類按作業流程來檢視;使用者也能自行設定模型版本控管的儲存機制,比如迭代100個Epoch儲存一版,但只限於使用LabelHub平臺訓練的模型。

LabelHub平臺使用者介面,可以看到左側能管理使用者權限、專案管理、工作管理、儲存空間管理等功能,而運算資源管理則在另一個平臺介面中。

目前,木刻思主要顧客是醫院專案,國內有5個專案在進行,LabelHub內建了胸腔X光影像辨識模型,還有牙齒X光、視網膜光學斷層掃描儀(OCT)的初步影像辨識模型,這三者都需要再優化來提高精準度,才能用於臨床診斷。未來,3D醫療影像系統的應用愈趨普及,木刻思則正在開發3D醫療影像的標記機制,預計在今年底,可支援CT與MRI影像的標記。

而木刻思目前正在募資,準備將LabelHub平臺從公司拆分出去獨立成一家公司。張家齊坦言,市場變化快,影像標記平臺的競爭已經越來越激烈了,就算是比較早推出的LabelHub也得抓緊時間,持續改版才行。


Advertisement

更多 iThome相關內容