百度傑出科學家吳韌表示,要將機器學習做平行運算非常的困難,因此百度從軟體、硬體到演算法都重新設計,等同於設計了專用於類神經網路的資料中心。

[美國矽谷現場報導]Nvidia在美國矽谷展開一年一度為期4天的GPU技術研討會GTC(GPU Technology Conference),這次大會主題圍繞在深度學習(Deep Learning)上,除了第2天的主題演講Google的資深研究員Jeff Dean會分享有關於深度學習的相關議題外,這次大會中,也有許多來自百度的科學家會分享他們的研究成果。

例如第3天的主題演講百度的首席科學家吳恩達(Andrew Ng)會分享深度學習的未來發展,以及在百度負責圖片辨識的傑出科學家(Distinguished Scientist)吳韌,也有專題演講講解百度如何用全球最大的類神經網路超級電腦,處理深度學習的議題。

百度技術部高級總監呂厚昌表示,深度學習是機器學習類神經網路的其中一個分支,機器學習理想情況是,用來訓練的資料越多,所學習出來的結果越好,但是人們過去用來進行圖像或是語音等辨識的機器學習演算法有其極限,在訓練到一定程度後,結果不再因為訓練的資料量越多而得到改善。不過深度學習的演算法卻沒有這樣的情況,吳韌說:「目前還沒看到由深度學習獲得結果的極限」。

呂厚昌表示,量變帶來質變是深度學習的最佳寫照,因此擁有越多的訓練資料集,結果就越好,但是過去受限於運算能力的關係,能夠處理的資料有限,導致結果品質受到影響,現在由於現在的硬體運算能力大幅提升,深度學習的瓶頸有所突破,因此才一躍成為顯學。百度認為,「大資料、機器學習以及運算能力的提升」3者結合,才能真正在機器學習結果上有所突破。

由於深度學習所要處理的資料量非常的大,需要尋求以CPU運算以外的解決方案,否則將花費過多計算時間,吳韌說,他從2007年就與Nvidia有技術上的合作,2009年開始利用GPU平行運算的能力做資料分析。機器學習的多數演算法,都只適用於單臺機器,他認為,百度與其他在做深度學習的競爭對手不同之處在於,他們可以把演算法切分到超級電腦叢集中運算,而不在受限於單一個運算節點。吳韌說,這件事非常困難,其他競爭對手都想做但是做不到,百度重新設計資料中心,從硬體、軟體、演算法全部重新自己來,3者互相配合之下才能讓深度學習擁有平行運算的能力。

讀更多:臺灣資料科學家直擊:當機器學習遇上大資料技術

過去的機器學習都是在單一機器上就可以完成,當要在分散式系統上運作,會有一些優點與缺點。........

本次GTC主題演講的講者,吳恩達與Jeff Dean都是深度學習領域的翹楚,吳恩達為史丹佛大學的教授,在2006年開始研究深度學習的課題,2011年執行Google X與深度學習相關的計畫,而之後加入Google資深研究員Jeff Dean的團隊,共同開發Google大腦的專案,在2012年使用16,000臺電腦成功從1,000萬張Youtube影片截圖,讓電腦學會辨識貓。

而後吳恩達被挖角到百度矽谷辦公室繼續研究深度學習,並在2014年在舊金山舉辦的SYNC大會上,分享百度深度學習的成果,他提到百度現在於深度學習上的研究成果,可以讓機器人透過5萬張馬克杯的照片訓練後,找出擺放在辦公室中照片曾經出現的馬克杯。

吳恩達用這個例子解釋了機器學習中監督式學習以及非監督式學習間的差異,監督式學習電腦所學習的資訊來自人工準備好的範例,而非監督式學習則反之,吳恩達認為後者更符合人類的學習模式,因為沒有一個媽媽在教小孩辨識馬克杯時,需要找來5萬張的照片,而這也是百度致力讓電腦學會的事。


Advertisement

更多 iThome相關內容