台積全面智慧化的挑戰,一是Small Data的資料處理和智識萃取,其次是Scaling問題,要靠AI服務平臺化和產品化來擴大規模和廣度,第三項Operation AI挑戰,則是AI應用全球維運和安全課題。(圖片來源/台灣積體電路製造股份有限公司)

「從300mm的晶圓片上,找出約6奈米的瑕疵,就像是從臺灣南到北394公里長的距離中,找出一隻螞蟻,這就是我們要處理的問題,而且還要在相當短的時間內找出來。」台積電智慧應用整合處副處長沈文冰,一句話點出晶圓廠的超級挑戰。

這正是台積智慧製造為何必須高度自動化的原因,就像台積經常處理的瑕疵檢測問題,不只是人眼看不到,甚至有時只是幾顆原子之間的差異而已,得透過非常精密的設備才能量測。

2011年,AI技術開始進入晶圓製造,這是台積智能化元年,2013年更開始大力發展機器學習平臺,在台積待了十多年的沈文冰,在2015年時加入了台積大數據分析團隊,專心投入AI,也一路見證了台積從大數據,智慧製造到全面智慧化的發展歷程。

在台積,大數據和AI處理的資料量級都是海量資料,光在2021年生產了破千萬片的12寸晶圓,都靠全自動產線生產。每個廠區多達數千臺設備,天天都會產生龐大資料量。不只量大、類型多元,資料成長速度也飛快,從晶圓製造開始導入AI的那一年,也就是2011年為基數,至今資料量成長超過數百倍,而且持續暴增中。為了監測生產過程的狀態,生產設備設置大量感測器,每秒資料量相當驚人,為了分析龐大串流數據,台積在邊緣運算部署了很多AI應用。像晶圓片瑕疵檢測問題,會先用光學高速掃描百萬張影像,找出上千個懷疑可能出問題的區域,再用高倍電子顯微鏡放大來比對,整個過程還要在很短時間內完成,得靠AI協助才做得到。

精密製造中有很多要解決未知的挑戰,需要借重可學習的AI,不斷用資料訓練模型來改善。例如瑕疵影像辨識課題的新挑戰是,要找出過去沒看過,但可能會發生問題的瑕疵。

不只生產過程,AI在製造前也能扮演關鍵

AI對台積的價值不只是在製造過程的輔助,甚至是在製造之前就能扮演重要角色。

沈文冰指出,晶片生產周期長達3到6個月,不能等到生產過程中發現問題,再回頭修正,要在設計資料進來之初,快速檢驗,找出可能出錯的地方,事先調整。可是,「很多晶片設計都是全新、沒有看過的設計,如何判斷與調整,得靠能不斷創造、學習的AI。」

甚至,不只是在設計資料提供之初,就想辦法找出日後可能發生問題的設計,台積電進一步還想要解決的挑戰是,能不能用運用AI事前分析設計資料,從生產角度告訴晶片設計者,有哪些可以避開的晶片不良設計,來讓晶片效能更好,這不只對台積有幫助,也能有利於晶片設計者的雙贏作法。

台積電智慧應用整合處副處長沈文冰表示:「台積將AI框架維運化,維運AI從開發環境開始,在開發的前段就要引導使用者,將後續維運所需要的模組一起建置完成。」圖片來源/台灣積體電路製造股份有限公司

台積AI的3大類挑戰

綜觀幾年台積AI的發展,沈文冰表示,台積全面智慧化的挑戰,包括了資料處理與智識萃取、Scaling (AI 服務平臺化、產品化,來擴大應用規模和廣度) 和 AI 應用的全球維運與安全。

資料是AI永遠的課題,但是對台積電而言,真正的挑戰不是大數據,而是小資料(Small Data),甚至是沒有資料的課題。以瑕疵檢測來說,台積電良率非常高,雖然可以從產線設備可以蒐集到海量資料,但是絕大部分的資料都是正常運作的資料,也就是對AI訓練來說的好資料,但訓練模型需要找出造成瑕疵問題的不良資料,比例少於萬分之幾。要如何找出可用的資料,也是台積AI的重要課題之一。

小資料課題還有另一種場景,因為台積電的資料產生速度非常快,甚至最後能保留的資料受限於儲存空間的大小。等到要進行分析時,常常會發現,產線可以產生需要的資料,但因為儲存空間不足,這些資料沒有儲存下來。如何解決這樣的問題,就得思考如何對原始資料進行資料處理和智識萃取,這也是台積AI現在的重要課題,目前台積電也採用了一些做法,例如資料壓縮,資料事前過濾、特徵抽取、建立特徵資料庫等手法來因應。

第二大類挑戰是擴張(Scaling)課題,也就是如何解決AI應用廣度和規模越來越大的挑戰。台積不斷擴張,不只廠區或設備的擴張,AI應用規模和範圍也不斷擴大,越來越多來自使用者的分析需求,怎麼解決?

台積的做法是將AI服務平臺化和產品化,來降低終端用戶的AI使用門檻,讓特定使用情境的AI需求,可以由用戶自助式進行。例如建立一套工作流程,讓不是那麼熟諳AI技術的使用者,也能透過互動式的引導,從資料抓取,到機器學習模型的訓練步驟,一步一步完成,來達成他的分析需求。甚至,台積也開始利用生成式模型,來幫助使用者創造出自己需要的模型,類似像是用AI來產生AI的概念。這些都是台積為了擴大AI應用規模的對策。

除了資料和擴張問題之外,還有一類更務實的AI挑戰,就是AI應用的全球維運和安全課題,也就是Operational AI的挑戰。很多AI模型在實驗室環境中可以正常運作,但部署到正式上線的環境後,卻出現了不少問題,知名國際調查機構曾經做過統計,高達8成的AI專案,無法達成原本設定的業務目標。

從整體角度來看,「做出ML模型,只是ML維運藍圖中的小部分,資料問題,模型飄移,安全問題都是Operational AI要處理的課題。」沈文冰強調。從整套ML維運藍圖來看,資料科學家訓練出模型,只是完成了其中的關鍵核心,但是,這些模型進入正式上線環境後,資料如何持續搜集,如何驗證資料,確保資料品質,如何持續進行特徵抽取,後續如何持續重新訓練,如何發布和部署成AI服務,如何監控服務運作的狀態,遇到模型飄移時,如何不靠資料科學家也能處理等等,這些都是實際ML維運時都要處理的範圍。

所以,沈文冰表示:「台積將AI框架維運化,維運AI從開發環境開始,在開發的前段就要引導使用者,將後續維運所需要的模組一起建置完成。」

台積運用開源技術,自行打了一套內部AI開發平臺,提供很多隨插即用的套件,可以彈性地將演算法嵌入到這個平臺中,要求最後輸出的產品要以Docker容器相容方式來封裝。這個平臺也將台積自己開發的元件服務化,變成內部資料科學家可用的AI共用服務。

機器學習模型用Docker容器封裝還帶來另一個好處,台積可以集中在臺灣訓練模型後,再發布到全球各地的資料中心內部環境中部署。

「AI是需要保護的資產,所以台積選擇自己建置需要的平臺,在自己內部的環境中執行。」沈文冰強調。

訓練AI模型時,也是一種程式碼撰寫過程,所以,台積AI開發流程,也比照軟體開發流程,引進了現代化IT的CI/CD流程,甚至多了一個階段稱為持續訓練(Continious Training,簡稱CT),在這個CI/CD/CT流程中,每一段都會加上傳統軟體開發的資安,再加上AI模型的安全考量。例如除了程式碼弱點掃描,也會掃描AI模型弱點,

台積還會研究各種模型攻擊手法和攻擊場景來預先防範,像是要避免AI模型的機密遭竊,或是防範模型遭攻擊而偏移了原有設計目的等進階AI議題。

從小資料,擴張需求到AI維運的挑戰,台積這幾年現代化IT成果,讓台積AI能夠更上一層樓,挑戰更困難的課題,這正是台積IT轉型的重要影響。

 相關報導 

熱門新聞

Advertisement