近兩屆IDF所闡述的技術發展及趨勢

我們在上期伺服器大事報探討了記憶體安全性的相關問題以及解決方案,本期我們將討論近兩屆英特爾科技論壇(IDF,Intel Developer Forum)所闡述的技術發展及趨勢。

繼RASUM後,本屆IDF英特爾發表了RASUM II規範,這次強化的重點在於記憶體的安全性及可靠性。這也足以證明,記憶體系統已經逐漸得到伺服器廠商的重視,已經不再是被長期忽略的問題。另外,由於非揮發性記憶體擁有遠較傳統DRAM及SRAM為佳的資料可靠性,在未來除了可攜式設備的應用,在伺服器上的應用潛力亦值得期待。記憶體鏡射的改進方案

過去低階伺服器經常實作的記憶體安全功能是DIMM Sparing,原理相當的簡單:如果當記憶體控制器發現某條DIMM所發生的錯誤已經超出了臨界值(Threshold),就會開始啟動下一條沒有資料的備援DIMM,同時對出問題的DIMM及備援DIMM寫入資料。當記憶體替補引擎(Scrub Engine)確定所有記憶體位址的資料均全部寫入備援DIMM,就將出問題的DIMM予以關閉,讓備援DIMM取而代之。

不過,這種設計並不是沒有問題的,如果連續兩條DIMM都出狀況了,記憶體資料的安全便無法得到保障。也許會有人這樣問:目前雙通道記憶體控制器已經如此普及,如果可以讓兩條記憶體通道相互Mirror,不就高枕無憂了嗎?答案也是否定的,因為如果只實作相同順序的DIMM相互Mirror,當兩條DIMM一起發生狀況(例如兩條通道的第一條DIMM),問題依然存在。

英特爾將於未來Xeon平臺實作的Memory Mirror就可以解決這個問題,透過交叉Mirror的方式,無論是接連兩條DIMM損毀、甚至一整條記憶體通道失效,依然可以維持記憶體的正常運作。處理器快取記憶體也是重點

對於企業應用伺服器而言,快取記憶體基本上都是多多益善的。不過,快取記憶體的大型化並非沒有任何疑慮,因為快取記憶體並非百分之百的可靠。由於伺服器用處理器都擁有相當大的快取記憶體,要如何維持可靠性,就是一個不小的挑戰。更大的麻煩是,目前常用的ECC演算法僅能偵測2位元錯誤、糾正1位元錯誤,遇到多位元錯誤(Multi-bit Error)就力有未逮。

為了提升快取記憶體的可靠性,英特爾於本屆IDF發表代號Pellston的快取記憶體可靠性技術,可以關閉快取記憶體中錯誤的cache-line。其原理如下:處理器核心在存取cache-line前,都會先經過一次錯誤檢查。如果發現處理器存取的cache-line發生ECC錯誤,經過糾錯,Pellston演算法邏輯電路會將糾錯後的資料重新寫回該cache-line之中、再讀取內容進行比對。如果符合,代表這是1位元的ECC錯誤,該cache-line可以正常運作。如果不符,就自動關閉該cache-line不再使用。當然,如果一開始就偵測到為2位元錯誤,也就會直接關閉。英特爾將於明年新一代的雙核心架構Itanium處理器實作該技術,隨著水漲船高的快取記憶體容量,未來勢必將普及至其它的伺服器處理器。釜底抽薪的昂貴途徑:更換記憶體種類

既然現今的記憶體容易發生問題,那麼能不能直接從半導體製程上著手,甚至直接更換記憶體種類呢?答案是可行的,而且不少今日耳熟能詳的製程及記憶體技術,其實都是為了解決高放射線環境導致的軟錯誤而生,尤其是太空中的應用。

首先,採用IBM在20年前所帶頭發展的絕緣層上矽(SOI,Silicon-On-Insulator)晶圓製程,所生產的記憶體,就有著遠較傳統矽晶圓製程更低的軟錯誤發生率(SER,Soft Error Rate)。另外,蓬勃發展中的非揮發性記憶體(Non-Volatile),如磁阻性記憶體MRAM(Magnetic或Magnet-resistive RAM)及鐵電記憶體FeRAM(Ferro-electric RAM)等等,由於資料本身具備不可揮發性,而且效能與現有的DRAM媲美,自然也是可能的替代方案。不過,目前非揮發性記憶體的技術尚未成熟,密度及耐久性遠不及現有的SRAM及DRAM,應用以取代既有的快閃記憶體為主,要成為有效的DRAM替代品需要一段不短的時間,目前最有可能做為大型伺服器的外部快取記憶體之用。

值得注意的是,由於SRAM本身容易發生軟錯誤,而且實作1位元需要4至6個電晶體,複雜的電路亦導致耗電量的竄升,間接提升軟錯誤的發生率,所以嵌入式(Embedded)DRAM的重要性日益提升,也開始受到業界的關注,目前已經逐漸成為新一代快取記憶體的技術主流。像Mosys的1T-SRAM就標榜可以透過傳統邏輯製程生產,而且已經有部分伺服器廠商應用於快取記憶體(如HP PA-8800的32MB外部快取記憶體)。在未來,也許SRAM的地位會逐漸被高速嵌入式DRAM所取代。雖然所費不貲,卻值得投資

記憶體容量及密度隨著摩爾定律所預言的曲線而持續成長,發生錯誤的機率越來越高,提升記憶體安全性已經是日益迫切的工作,也成為伺服器產業界關心的焦點。但是,天下沒有白吃的午餐,投資成本的增加是絕對免不了的。我們相信,未來的伺服器將會對此投以更大的關注,企業界應該以更嚴肅的態度看待記憶體資料安全性的議題。文⊙劉人豪

熱門新聞

Advertisement