因應成為IT主流趨勢的社交網站與行動應用,這兩種風潮下所激增的大量資料不容忽視。像Salesforce每天要分析5億篇推特貼文,這樣的成長是在3年內發生;Shazam面對的是3億用戶與2,700萬首歌曲的資料庫,並且只花了1年,使用者與歌曲數就成長1倍以上。

在特定的科學研究領域裡面,以GPU協同CPU來強化整體運算能力的應用,越來越常見,然而,過去在商業領域中罕見實際導入使用的例子。

不過,今年的情勢很不同,Nvidia在GTC 2013大會上,正式宣布了幾家商用實例,他們是雲端服務業者和開發行動應用的公司,已經將GPU用在巨量資料(Big Data)的分析與進階搜尋,而且他們的服務可同時涵蓋到消費端與商業應用。

挑戰即時分析大量推特貼文,CRM業者用PC等級GPU吞下所有資料處理
首先登場的,是以提供CRM軟體即服務(SaaS)而聞名的雲端服務供應商Salesforce,他們之所以用GPU,是因為旗下的Marketing Cloud服務替客戶提供了Social listening的功能,也就是社交網站監控與分析。而使用該服務的用戶,目前有Cisco、Dell、Gatorade(開特力)、美國紅十字會等。

Salesforce.com在此面臨的挑戰之一,主要是需處理每天來自Twitter網站上的使用者新增的5億篇貼文(tweets),這些貼文中包含了不同性質的資料,同時,每天的新貼文數還在不斷成長中,而且速度越來越快。

除此之外,Salesforce在本身的主題檔案庫中,也定義了160萬筆以上的搜尋表示式(每一筆包含12個關鍵字),這裡的資料也是隨著用戶數成長而持續增加中。

原本Salesforce所用的方法,是在一般的x86 CPU架構下,利用Apache Lucene這套Java程式庫,來獲得關鍵字索引與搜尋的布林運算機制,以及用Twitter worker程式,針對一大批推文來建立索引,並且用它來查詢所有的表示式,但這麼做,資料吞吐量低(需同時執行80個多執行緒的Twitter worker程式,並且要趕上Twitter即時發布公開推文的串流服務Firehorse速度),並且會產生很高的延遲(Twitter worker批次處理8000筆推文時需5分鐘,有時甚至要花上12分鐘)。

後來,他們改用新的方法來改善,稱之為Zapp,利用可提供高吞吐量的GPU來加速,也就是讓關鍵字比對的控制由CPU執行,而需要大量運算的工作交給GPU,大幅縮短了處理的時間,於是計算成本不再隨表達式數量的增加而呈線性成長。

Salesforce表示,只需要兩顆Nvidia GTX 580的GPU,就足以處理尖峰負載時間的所有推文,這足以省下大量硬體與人力上的資源。

因應使用者及資料量激增2到3倍,行動App開發商用GPU架構系統達到省錢之道
在今年GTC大會上,另一個實際印證GPU可應用在巨量資料處理的例子,是知名的App開發商Shazam。

他們的歌曲查詢程式Shazam,在Apple App Store和Google Play的行動裝置軟體市集中,相當受到歡迎,是音樂類應用的前五大之一。

Shazam App的主要功能是提供歌曲搜尋與辨識的服務,它可以「聽」使用者正在聽的音樂,並告知曲目資訊。目前在手機與平板電腦下載Shazam的數量,已經超過3億,而該公司後端擁有的歌曲也在2012年時,達到2,700萬筆資料。

看起來,使用這項服務的人眾多,同時所要比對的資料也非常龐大,並且是聲紋(acoustic fingerprint)比對,系統要能從數千萬首歌曲中,判斷能否與使用者上傳的範例音樂相符,困難度可想而知。

社交網站與行動應用普及,導致需分析的資料量暴增
另一個該公司要去面對的問題,是新進使用者、搜尋次數與歌曲量都在極速成長——他們每天要應付1千萬首歌的搜尋請求,每週有2百萬個新用戶,而所收錄的歌曲總數已翻2倍(2011年是1千萬首歌)。

為了加速歌曲搜尋與比對過程,以及因應倍增的使用者需求,Shazam決定使用上百顆Nvidia Tesla的GPU,建置低成本的伺服器基礎設施,因應上述的服務維運規模與成長需求。

Shazam公司的技術長Jason Titus表示,同樣花一塊錢,GPU可讓他們得以獲得兩倍CPU架構系統的效能,並且能達到自身的成長規模。


視覺搜尋辨識 基於視覺的搜尋體驗再進化

1.以手機或平板電腦App,拍攝時尚雜誌上的服裝
Cortexica提供的技術,主要是智慧型影像辨識,可做到以圖找圖的效果,而且,所根據的原始圖片,來源可以是透過手機或平板電腦所拍攝到的相片。圖中,是透過平板電腦App與設備內建的相機,拍攝了Style雜誌裡面一件由凱特.哈德森所穿著的Ann Taylor牌服裝,過程中,他選定了相機拍攝範圍,主要是針對這件衣服的樣式。而這件衣服,外觀樣式屬於亞洲花卉的風格。

2.比對eBay網站服裝圖片,尋找是否有類似款式
這個衣服的圖案樣式,大致上是由黑色與不同顏色的斑點所組成。而等到App將圖片拍攝、確定範圍後,會根據使用者所拍攝的服裝樣式圖片,分析1千個關鍵點(Key Point),到eBay拍賣網站去做線上比對,並搜尋站內全部與服裝有關的物品項目圖片(約80萬張),並能在幾秒內回傳分析、查詢後的結果,呈現與凱特.哈德森穿的衣服類似的多種服裝,並依照相似度高低排列順序。


Advertisement

更多 iThome相關內容