Teradata
【美國納許維爾現場報導】
在全球擁有46,000名員工,營業額超過180億美元的通用電力旗下子公司奇異醫療,其大資料技術技師Greg Gegner與Teradata Aster資料科學家Matt Mazzarell也在大會中共同發表,奇異醫療如何在8個月的時間內,運用大資料技術改進醫療器材的生產以及掌握器材使用狀況。
Matt Mazzarell表示,奇異醫療的醫療器材在全球被醫療機構廣泛地採用,因此每天都會有超過千名的病患接受GE醫療的核磁共振(MRI)掃描,而GE醫療想要分析這些核磁共振掃描所產生的結果,來增進工程技術以及器材的維護品質,其主要具體的目的有三項,第一、期望最佳化醫療器材的效能,第二、掌握醫療器材耗材老化程度,在耗材尚未耗損結束前,做預防性的例行性維護,第三、找出未知但需在意的細節。
GE醫療核磁共振掃描所產生的資料檔,是以XML的格式儲存,以GE醫療的核磁共振裝置,對女性進行0.33mm採樣區間的全身掃描,所產生之檔案約為40GB來說,要分析每天千人且長時間累積的資料,實屬超龐大的資料量。而Matt Mazzarell指出,他們面對的不只是處理的資料量龐大,還需解決資料結構複雜的問題,核磁共振掃描所產生的XML檔案類型甚至達14種。
而在這些檔案要做大資料分析之前,必須先進行ETL(Extract、Transform、Load)的前置作業,ETL的目的在於將原始未處理的資料,經過必要的類型或是結構的轉換運算,萃取出有用的資訊,再存入資料倉儲或目標資料儲存容器中。
ETL是極為繁瑣複雜,且運算量龐大的程序,甚至在某些情況還需要調度整個資料中心的運算資源,而奇異醫療因為核磁共振的資料太過複雜,ETL勢必成為關鍵工作之一,因此他們也特別得重視。
Matt Mazzarell說,奇異醫療核磁共振資料的ETL架構有幾項要求,首先這架構必須擁有處理巨大資料量的能力,另外,由於是醫療產業,所以程序的要求也比較嚴格,處理程序除了須通過通用電器自己的認證外,還需經過FDA(美國食品與藥物管理局)的調校。而且雖然處理的都是XML的檔案格式,但醫療器材所產生出來的XML檔案類型高達14種,因此需要強大的XML的解析功能,方便讀取資料用。
Matt Mazzarell表示,奇異醫療使用Teradata Aster的SQL-MapReduce作為ETL的工具。MapReduce是Google所開發用於大資料平行運算的程式架構,透過映射(Map)及簡化(Reduce)的函數式語言概念,把欲執行的任務分割,並平行化執行後,再將結果合併。
而SQL-MapReduce則是承襲MapReduce的特性,由Teradata Aster加以研發,讓開發者能在Java、C#、Python、C++以及R語言中,呼叫SQL-MapReduce的函數,進而操作Aster大資料探索平臺中進行分析,並且採用標準的SQL語法或R語言存取Aster的資料庫。
為了讀取多種XML檔案,一般的做法是為各類型的XML檔客製化函數,以不同的方法對應不同的XML結構,並為某些XML屬性定義特殊的規則。但Greg Gegner說,XML是種半結構化的資料,往往會因軟體的版本更新而有所改變,且XML中的屬性也會隨著時間或需求而增加,因此當解析XML的規則寫在程式碼中,便會增加往後應用程式維護的困難度,可以預測的是,工程師會常常因為XML結構改變而需更新程式碼,重新編譯應用程式,造成程式版本控制的工作負擔。
Matt Mazzarell說,因此奇異醫療以設定檔來控制SQL-MapReduce解析XML的方式解決這個問題,在設定檔中描述各類型XML檔的結構以及屬性,程式碼依照設定檔的描述解析XML檔案,能在不需更動程式碼的前提下,改變解析XML檔案的方式,也能隨時增加新的XML標籤屬性,以盡可能改變設定檔達成讀取目標而非改動程式碼。
而奇異醫療也不只把Teradata Aster用在ETL上而已,Greg Gegner說,Aster也被用在工程分析上,因為SQL-MapReduce中有不少實用功能,例如nPath等處理大量資料的演算法,能以各種視覺化資料的方式,使用資料科學家可閱讀的形式,了解看似雜亂的資料背後所代表的意義。
目前奇異醫療有超過225個會產生資料的系統,例如:供應鏈、銷售、財務和人資等系統,透過Imformatica ETL工具萃取過後,存放入Teradata的資料倉儲中,供後端商業智慧的工具,例如:Spotfire、Cognos或Metreo等使用。
Greg Gegner認為,傳統的BI工具僅能提供報告,而報告只能回答既有的標準問題,報告所呈現的內容是過去已存在的事實,奇異醫療之所以想導入大資料分析技術,是因為想從資料中找出潛在的資訊,以解決現在及未來商業遇到的問題。
早在2012年開始,奇異醫療就已經進行一系列的前導計畫,首先定義用來儲存工程與製造資料的資料庫形式,目標是統一固定的資料結構,例如:裝置的歷史紀錄資料、測試資料以及監控數據的資料結構,並使製造邏輯資料模型填入單一產品的資料,最後集結各種細節,發行資料指南,以利下一次流程能遵照相同的規則進行,並將前導計畫慢慢導入正式生產中,用一個網站或產品資料先移入資料庫中測試。
而Teradata Aster大資料探索平臺是Teradata UDA(Unified Data Architecture)中的一環,因此Greg Gegner說,採用Teradata Aster大資料探索平臺,能深入分析原本企業的Teradata資料倉儲中的商業資料,不需做任何改變,便能探勘出新的資料面貌(View),他們認為,這對於奇異醫療來說是一項很大的好處。
Greg Gegner也提到,SQL語法是Aster大資料探索平臺的統一的介面,即使是要用nPath演算法產生複雜的關係圖,也僅需要使用SQL語法就可以達成,因此不僅是工程師能使用這套系統,對於沒有技術背景的資料科學家、定量分析專家以及商業分析師都是福音。
Greg Gegner說,內部組織需要一段時間適應新技術,但奇異醫療僅用8個月的時間,將Aster大資料探索平臺與原有的資料倉儲整合,而且在2014年第一季便已收到來自各類裝置超過25億筆的資料,並在單一報告中顯示超過6百萬筆的資料。
奇異醫療大資料技術技師Greg Gegner說,Teradata的UDA架構,能讓後來才導入的Aster大資料探索平臺,直接使用奇異醫療已經存在的資料倉儲,對於企業來說是一大好處。
熱門新聞
2024-12-10
2024-12-10
2024-11-29
2024-12-11
2024-12-10
2024-12-08