圖片來源: 

攝影/余至浩

「一顆7奈米晶片從開發到設計完成,最少須上千臺高階運算主機才夠用。」聯發科HPC環境建置主管,在一場AWS技術大會上揭露這項關鍵數據。這也是聯發科研發7奈米5G手機晶片背後所要面對的龐大IT挑戰,有時,甚至得一周追加破千臺,才能滿足複雜的設計運算需求,這也成了聯發科能夠在競爭激烈的5G市場突圍的關鍵。

為了搶占5G市場的先機,全球一線手機大廠與行動晶片設計商,去年紛紛推出5G手機晶片,以便競逐今年的5G手機市場。聯發科也是其中一家,去年5月Computex期間就宣布了首款5G SoC晶片,不到半年就正式推出該產品,甚至領先了競爭對手高通一步。

為了打造這樣一顆功能強大的5G晶片,聯發科不僅耗時多年、以千人團隊,投入千億元研發,還引進諸多先進技術,採用新的晶片設計作法,將7奈米CPU、GPU、AI加速器APU,以及高速5G數據機晶片,都整進在同一顆SoC晶片裡,來開發新一代5G手機晶片。

但要完成這樣一個高度複雜的5G晶片設計,涉及大量跨平臺晶片和技術的整合,不只是研發團隊的一大挑戰,對後端支援的聯發科IT部門更是考驗,得要不斷增加更多運算資源,來滿足因為複雜晶片整合設計的大規模且密集的巨量運算需求,這是聯發科IT團隊重要的大挑戰。

負責內部高效能運算環境建置的聯發科技資訊工程本部基礎系統設計處經理黃博揚就表示:「導入混合雲技術與創新IT架構是一大關鍵。」他在近日臺灣舉行的AWS re:Invent Recap技術大會上也揭露更多細節。

一周!千臺以上HPC伺服器得完成部署

從半導體工程來看晶片設計的發展,隨著現在晶片功能越加越多,使得單位面積加大,能耗升高,常見作法就是透過製程的提升來改善,而越先進製程的晶片設計,對於半導體IT資源也是一大挑戰。舉例來說,一顆先進7奈米晶片內含的電晶體密度,是40奈米晶片的17倍多,要完成這樣一顆複雜晶片的電路設計及布線,更需要比以前高出10倍的運算工作量,用於前期的IC設計模擬及驗證,就連運算規模也變得更龐大,增加多達15倍。

以7奈米5G手機晶片為例,黃博揚表示,單要執行這樣一個專案,IT人員就需要面對消耗數千臺高效能運算主機的挑戰,但是,聯發科IT考驗還不僅於此,為了因應5G市場變化,聯發科決定將5G Tapeout交付生產進度提前,對IT而言,最直接的需求,就是要在一周內增加超過千臺以上高階伺服器,來滿足大量增長的運算需求,「一旦IT資源不到位,這個產品就沒有辦法提前搶下市場。」他說,這是一大IT考驗。

導入混合雲技術,是5G晶片設計能夠提前交付生產的關鍵

為了解決這個IT難題,聯發科IT團隊決定採用混合雲架構,所以,除了在臺灣總部的自建雲,他們去年在這個7奈米5G專案裡,就使用了AWS公有雲,來建置自己的混合雲環境,接下來,更將RD研發設計使用的EDA工具搬上AWS雲端執行,它是一個電子設計自動化開發工具,可供RD研發工程師在開發設計階段,使用它進行大量且反覆的設計驗證工作,從前期電路設計、性能分析到產生晶片電路圖,都能用它來完成。

尤其,越先進製程的晶片開發,就越需要搭配功能更強大的EDA工具來輔助RD人員開發,並安裝在性能較高的伺服器硬體上執行。在所有EDA設計流程執行完後,接著才將設計好的晶片電路交由晶圓代工廠生產,也就是所謂的Tape-out(下線),整個晶片開發設計流程才完成,之後才進到下一步量產的階段。

在改用雲端執行EDA運算任務後, 黃博揚指出,透過混合雲架構的資源彈性,讓IT團隊能夠在短時間就完成大規模高階機器的部署使用,直接在公有雲上就能執行EDA工具軟體,並安裝在千臺以上的高效能EC2運算實例上執行,再將算完產生的報告回傳,透過這些大量增加的EDA運算主機,來縮短5G SoC晶片設計的開發時程,讓設計交付可以提前完成,進到下一步量產的階段。「這也是全球第一個透過雲端執行開發完成的7奈米SoC。」他驕傲地說。

不只將RD的IC設計流程搬上混合雲,針對IC設計後段最關鍵也最耗資源的STA分析(靜態時序分析)的運算工作,聯發科也都完成導入雲端來執行,他表示,這樣一個技術突破,也是這次能夠如期完成5G晶片交付的最關鍵一環。

從這次AWS使用量來看,聯發科每次開啟千臺的高效能EC2運算實例,執行了超過1,200萬核心小時 (core-hour)用於大量模擬驗證的運算時間,並累積高達8,000TB的資料量,還要橫跨臺灣總部與美國AWS雲端兩地來進行管理。「這樣的運算規模,對於任何企業的傳統IT基礎架構來說,都是極大挑戰」他坦言,只有透過採用混合雲架構才有辦法做到。

他進一步補充,因應市場不確定性,IT更要能夠因應市場變化快速反應,如此一來,才能避免IT資源的缺口,成為RD規劃產品時程進度的瓶頸。

4個採用混合雲須克服的IT挑戰

黃博揚也歸納出這次導入混合雲架構過程,4個最重要但必須克服的IT挑戰,分別是RD使用者體驗、跨國資料傳輸、高效率運算資源利用,以及資料安全,並分享了聯發科相對應的解法。

首先,在使用者體驗方面,為了降低新導入的混合雲架構,對於RD工程師作業上可能產生的影響,聯發科IT團隊先從整合IC設計流程(design flow)下手,透過優化整個IC設計流程,來貼近雲端環境的使用需求,因此,當IT需要調度雲端資源時,就可以透過流程段的設定調整,將這些已排定處理的EDA任務,自動從本地端上傳到雲端來執行運算,再將算完產生的報告回傳,他表示,因為是透過自動化調度,所以,RD工程師即使是在雲端上執行時,也能像在本地端一樣來使用,不需重新學習一套,就能執行如任務提交或監控狀態等功能。「不論是在地上這朵雲,還是天上的雲,都得維持相同的使用者體驗。」他指出。

在跨國資料傳輸方面,聯發科IT團隊也配合整個晶片設計流程,開發客製化的資料封裝工具,先經過判讀找到需用到的設計檔案資料進行去重複化 (dedupe)動作,然後再打包傳送到雲端執行,從資料源就先達成資料的減量,並且還在混合雲部署使用一個高效能的資料傳輸應用程式工具,透過這個傳輸工具來降低臺灣和美國兩地長距離傳輸產生的網路延遲,以減少不必要的傳輸時間。

另針對資源效率部分,黃博揚也強調,並非所有的EDA設計流程都會上公有雲,目前聯發科有超過上百種的EDA工具,但只選擇少數適配的EDA設計流程,才會送交雲端來執行,其他仍在本地來執行。黃博揚也建議,企業在採用混合雲時,必須先了解哪些資源問題要解決,以及這些任務所需的運算工作樣態為何,才來選擇它所適合搭配的雲端運算實例。

更進一步,聯發科還採用一套智慧排程 (smart batching)系統,能夠整合所有IC設計流程使用的雲端資源,並可以自動調整運算資源符合使用者需求,來根據需求自動增加或縮減,而不讓雲端資源有任何閒置或浪費。

最後,為了強化雲端資料使用的安全性,在執行雲端運算任務時,系統只允許上傳必要運算使用的設計資料,並且當任務執行完,所有重要報告或是測試數據,都會自動同步回傳地端,並自動刪除雲端機器裡面所有資料。黃博揚也說,透過這樣一個安全機制,才能夠確保在雲端不會留存任何資料記錄,讓所有資料鏈結風險降到最低。


Advertisement

更多 iThome相關內容