國產影像標記平臺LabelHub要用AI評分模型，快速找出標記品質不佳的標記師

木刻思研究團隊訓練出能辨識8種肺部病徵的AI預標記模型，能內建到LabelHub平臺提供醫院專案使用。

圖片來源:

圖/木刻思提供

三年前，木刻思團隊一次製造業Tensorflow教育訓練中，只是隨手開發了一套類似於小畫家的陽春版影像標註工具，來輔助上課對象的影像標記之用，卻意外大受對方歡迎，甚至有意購買這套工具軟體，這讓木刻思執行長張家齊發現了一個臺灣資料標註平臺的市場機會。

花了一年多研發，木刻思在2018年推出一套資料預標註平臺LabelHub，可提供標註資料與影像辨識模型訓練，連台積電都採用來訓練廠區工安機器人。張家齊表示，下一步正在開發一套可以分辨標記師品質的評分機制，可以用來改善影像資料標記的方法，希望能鎖定製造業廠區安全、產線瑕疵辨識或醫療影像疾病檢測等。

比如說，臺積電在去年臺灣最大半導體展中，展出這項廠區工安機器人的成效，可用來偵測廠區異常，加強廠區工安。木刻思採取半監督式學習（Semi-supervised learning）的訓練方式，透過兩張相同場景、但其中的物件擺放位置不同的資料，比如正常照片與異常照片對比，異常照片中可能有梯子、三角錐倒下、不明物件掉落等，直接給定哪一張照片正常、哪一張異常，讓模型透過比對，來學習異常情境可能的樣態，並由客戶進一步標記出異常照片中的物件，來定義其異常原因。

此外，木刻思團隊也以國外開源的胸腔X光片資料，運用LableHub平臺研發了一個可以辨識八種肺部病徵的影像辨識模型，辨識率達82-83%。張家齊表示，若客戶有需求，會將模型內建到平臺中供客戶使用，只要以臺灣在地化影像訓練後，就能使用於臨床上協助醫生診斷。木刻思目前也與五個醫院專案在洽談合作。

LabelHub平臺利用國外影像資料庫訓練出來的肺部病徵標記模型，可同時辨識8種肺部病徵，準確率約8成。

木刻思研發評分機制，要找出標記品質不佳的影像與標記者

一般訓練AI模型時，需要使用大量標記過的影像來訓練，但是因為，標記影像量動輒數十萬或百萬張，多半會由多位標誌師依據一套判斷規則分工標記，全部標記完後，再由一個人複查（通常專案經理PM），找出符合標準的那一批影像（稱為Ground Truth版資料），再用這批資料來訓練AI模型。

為此，木刻思也正在開發一套評分機制，要來輔助客戶訓練模型時，標記影像辨識效果複查的過程。張家齊舉例，製造業常會有高達100萬張的影像，可以用來優化瑕疵檢測模型，若有3個標註師來標記成果，可以得到人工標記的300萬張影像。此時，需要PM根據1組3張影像中，選出最符合要求或標準的正確答案（ground truth），也就是說，PM須要檢視300萬張圖片才能選出每一組圖片的Ground Truth版本，再以此來訓練模型。

LabelHub平臺評分機制則採取抽樣的方式，從前述100萬組人工標註影像中，抽樣取出1000組、共3000張影像，由專案經理找出每組三張中，最符合標準的那一張。LabelHub平臺評分機制會用其餘兩張影像與符合標準的那一張，比較標記位置的差距，來建立一個衡量標記品質的AI評分模型，差距越大分數越低，差距越小分數就越高。最後，再用這個AI評分模型，來對其他99.9萬組已標記影像進行評分，找出其中最符合標準的那一套Ground Truth影像作為訓練用的資料。

「AI標註的準確率越來越高，直到比所有標記人員強的時候，反而是人可能會標錯，所以我們有第二套評分機制，讓人與AI互評。」張家齊表示，初期模型標記功能還不強，需要透過人工複查與評分機制不斷優化，但當模型辨識精準度與效率都超越人類時，就需要轉換為另一套評分機制，讓AI也能對不同標記人員的表現評分，也就是雙向互評功能，目前已完成功能開發，正在進行最後測試階段，張家齊表示，年底前會優先釋出對影像標記成果的評分機制。

不過，張家齊表示，這套評分機制主要用途是找出資料標記有誤，或是標記表現不佳的標記者，來協助專案管理者更有效率的挑出標記正確的資料，因此適用於標記者較多的場景，比如醫院的標記成本高，通常只由1-2位醫生負責標記，就不太適用。

LabelHub五大管理功能，讓用戶快速標註影像與訓練模型

LabelHub也推出5大管理功能，包括人員權限、原始資料、標記成果、模型版本與運算資源的管理，來提高模型訓練過程的專案管理。基本的權限管理可分成資料標記人員、IT維運人員、AI工程師、系統管理者等，各有不同的操作介面和權限。資料來源則可支援存放在公有雲、私有雲、混合雲，或Hadoop平臺的儲存空間；此外也內建Kubernetes工具，直接可以監測運算資源的溫度、記憶體用量等，執行模型訓練任務時，可支援GPU和支援Google的TPU晶片。

在影像標記機制上，提供方框和塗色兩種標註工具，內建了上述的評分機制，可分類按作業流程來檢視；使用者也能自行設定模型版本控管的儲存機制，比如迭代100個Epoch儲存一版，但只限於使用LabelHub平臺訓練的模型。

LabelHub平臺使用者介面，可以看到左側能管理使用者權限、專案管理、工作管理、儲存空間管理等功能，而運算資源管理則在另一個平臺介面中。

目前，木刻思主要顧客是醫院專案，國內有5個專案在進行，LabelHub內建了胸腔X光影像辨識模型，還有牙齒X光、視網膜光學斷層掃描儀（OCT）的初步影像辨識模型，這三者都需要再優化來提高精準度，才能用於臨床診斷。未來，3D醫療影像系統的應用愈趨普及，木刻思則正在開發3D醫療影像的標記機制，預計在今年底，可支援CT與MRI影像的標記。

而木刻思目前正在募資，準備將LabelHub平臺從公司拆分出去獨立成一家公司。張家齊坦言，市場變化快，影像標記平臺的競爭已經越來越激烈了，就算是比較早推出的LabelHub也得抓緊時間，持續改版才行。

木刻思研發評分機制，要找出標記品質不佳的影像與標記者

LabelHub五大管理功能，讓用戶快速標註影像與訓練模型

熱門新聞