台積AI的新挑戰，從擴大應用到AI全球維運都要靠現代化IT

台積全面智慧化的挑戰，一是Small Data的資料處理和智識萃取，其次是Scaling問題，要靠AI服務平臺化和產品化來擴大規模和廣度，第三項Operation AI挑戰，則是AI應用全球維運和安全課題。（圖片來源／台灣積體電路製造股份有限公司）

「從300mm的晶圓片上，找出約6奈米的瑕疵，就像是從臺灣南到北394公里長的距離中，找出一隻螞蟻，這就是我們要處理的問題，而且還要在相當短的時間內找出來。」台積電智慧應用整合處副處長沈文冰，一句話點出晶圓廠的超級挑戰。

這正是台積智慧製造為何必須高度自動化的原因，就像台積經常處理的瑕疵檢測問題，不只是人眼看不到，甚至有時只是幾顆原子之間的差異而已，得透過非常精密的設備才能量測。

2011年，AI技術開始進入晶圓製造，這是台積智能化元年，2013年更開始大力發展機器學習平臺，在台積待了十多年的沈文冰，在2015年時加入了台積大數據分析團隊，專心投入AI，也一路見證了台積從大數據，智慧製造到全面智慧化的發展歷程。

在台積，大數據和AI處理的資料量級都是海量資料，光在2021年生產了破千萬片的12寸晶圓，都靠全自動產線生產。每個廠區多達數千臺設備，天天都會產生龐大資料量。不只量大、類型多元，資料成長速度也飛快，從晶圓製造開始導入AI的那一年，也就是2011年為基數，至今資料量成長超過數百倍，而且持續暴增中。為了監測生產過程的狀態，生產設備設置大量感測器，每秒資料量相當驚人，為了分析龐大串流數據，台積在邊緣運算部署了很多AI應用。像晶圓片瑕疵檢測問題，會先用光學高速掃描百萬張影像，找出上千個懷疑可能出問題的區域，再用高倍電子顯微鏡放大來比對，整個過程還要在很短時間內完成，得靠AI協助才做得到。

精密製造中有很多要解決未知的挑戰，需要借重可學習的AI，不斷用資料訓練模型來改善。例如瑕疵影像辨識課題的新挑戰是，要找出過去沒看過，但可能會發生問題的瑕疵。

不只生產過程，AI在製造前也能扮演關鍵

AI對台積的價值不只是在製造過程的輔助，甚至是在製造之前就能扮演重要角色。

沈文冰指出，晶片生產周期長達3到6個月，不能等到生產過程中發現問題，再回頭修正，要在設計資料進來之初，快速檢驗，找出可能出錯的地方，事先調整。可是，「很多晶片設計都是全新、沒有看過的設計，如何判斷與調整，得靠能不斷創造、學習的AI。」

甚至，不只是在設計資料提供之初，就想辦法找出日後可能發生問題的設計，台積電進一步還想要解決的挑戰是，能不能用運用AI事前分析設計資料，從生產角度告訴晶片設計者，有哪些可以避開的晶片不良設計，來讓晶片效能更好，這不只對台積有幫助，也能有利於晶片設計者的雙贏作法。

台積電智慧應用整合處副處長沈文冰表示：「台積將AI框架維運化，維運AI從開發環境開始，在開發的前段就要引導使用者，將後續維運所需要的模組一起建置完成。」圖片來源／台灣積體電路製造股份有限公司

台積AI的3大類挑戰

綜觀幾年台積AI的發展，沈文冰表示，台積全面智慧化的挑戰，包括了資料處理與智識萃取、Scaling (AI 服務平臺化、產品化，來擴大應用規模和廣度) 和 AI 應用的全球維運與安全。

資料是AI永遠的課題，但是對台積電而言，真正的挑戰不是大數據，而是小資料（Small Data），甚至是沒有資料的課題。以瑕疵檢測來說，台積電良率非常高，雖然可以從產線設備可以蒐集到海量資料，但是絕大部分的資料都是正常運作的資料，也就是對AI訓練來說的好資料，但訓練模型需要找出造成瑕疵問題的不良資料，比例少於萬分之幾。要如何找出可用的資料，也是台積AI的重要課題之一。

小資料課題還有另一種場景，因為台積電的資料產生速度非常快，甚至最後能保留的資料受限於儲存空間的大小。等到要進行分析時，常常會發現，產線可以產生需要的資料，但因為儲存空間不足，這些資料沒有儲存下來。如何解決這樣的問題，就得思考如何對原始資料進行資料處理和智識萃取，這也是台積AI現在的重要課題，目前台積電也採用了一些做法，例如資料壓縮，資料事前過濾、特徵抽取、建立特徵資料庫等手法來因應。

第二大類挑戰是擴張（Scaling）課題，也就是如何解決AI應用廣度和規模越來越大的挑戰。台積不斷擴張，不只廠區或設備的擴張，AI應用規模和範圍也不斷擴大，越來越多來自使用者的分析需求，怎麼解決？

台積的做法是將AI服務平臺化和產品化，來降低終端用戶的AI使用門檻，讓特定使用情境的AI需求，可以由用戶自助式進行。例如建立一套工作流程，讓不是那麼熟諳AI技術的使用者，也能透過互動式的引導，從資料抓取，到機器學習模型的訓練步驟，一步一步完成，來達成他的分析需求。甚至，台積也開始利用生成式模型，來幫助使用者創造出自己需要的模型，類似像是用AI來產生AI的概念。這些都是台積為了擴大AI應用規模的對策。

除了資料和擴張問題之外，還有一類更務實的AI挑戰，就是AI應用的全球維運和安全課題，也就是Operational AI的挑戰。很多AI模型在實驗室環境中可以正常運作，但部署到正式上線的環境後，卻出現了不少問題，知名國際調查機構曾經做過統計，高達8成的AI專案，無法達成原本設定的業務目標。

從整體角度來看，「做出ML模型，只是ML維運藍圖中的小部分，資料問題，模型飄移，安全問題都是Operational AI要處理的課題。」沈文冰強調。從整套ML維運藍圖來看，資料科學家訓練出模型，只是完成了其中的關鍵核心，但是，這些模型進入正式上線環境後，資料如何持續搜集，如何驗證資料，確保資料品質，如何持續進行特徵抽取，後續如何持續重新訓練，如何發布和部署成AI服務，如何監控服務運作的狀態，遇到模型飄移時，如何不靠資料科學家也能處理等等，這些都是實際ML維運時都要處理的範圍。

所以，沈文冰表示：「台積將AI框架維運化，維運AI從開發環境開始，在開發的前段就要引導使用者，將後續維運所需要的模組一起建置完成。」

台積運用開源技術，自行打了一套內部AI開發平臺，提供很多隨插即用的套件，可以彈性地將演算法嵌入到這個平臺中，要求最後輸出的產品要以Docker容器相容方式來封裝。這個平臺也將台積自己開發的元件服務化，變成內部資料科學家可用的AI共用服務。

機器學習模型用Docker容器封裝還帶來另一個好處，台積可以集中在臺灣訓練模型後，再發布到全球各地的資料中心內部環境中部署。

「AI是需要保護的資產，所以台積選擇自己建置需要的平臺，在自己內部的環境中執行。」沈文冰強調。

訓練AI模型時，也是一種程式碼撰寫過程，所以，台積AI開發流程，也比照軟體開發流程，引進了現代化IT的CI/CD流程，甚至多了一個階段稱為持續訓練（Continious Training，簡稱CT），在這個CI/CD/CT流程中，每一段都會加上傳統軟體開發的資安，再加上AI模型的安全考量。例如除了程式碼弱點掃描，也會掃描AI模型弱點，

台積還會研究各種模型攻擊手法和攻擊場景來預先防範，像是要避免AI模型的機密遭竊，或是防範模型遭攻擊而偏移了原有設計目的等進階AI議題。

從小資料，擴張需求到AI維運的挑戰，台積這幾年現代化IT成果，讓台積AI能夠更上一層樓，挑戰更困難的課題，這正是台積IT轉型的重要影響。

相關報導

熱門新聞