深度學習技術是一種人工神經網絡,是從腦神經科學獲得啟發,效法神經元的多層次學習網絡,在圖像辨識上先將圖片分解成許多小像素,透過好幾層的處理,以擷取、結合特徵,最後對圖像中的物件提出預測。

圖片來源: 

iThome

在2016年3月12日,AlphaGo圍棋程式迎戰世界冠軍南韓棋手李世石,來到了第三局,這一天全世界都在關注這場人類史上最關鍵的人機大戰,因為前兩局已經被AlphaGo取得勝利,第三局將是決定人工智慧能否戰勝人類的關鍵。

圍棋堪稱是最複雜的棋賽,如果連最複雜的圍棋都輸給了電腦,那麼人類智慧最後的堡壘失守了,不免令人擔心電影電腦主宰人類的場景似乎也不遠了。然而就在眾所矚目下,AlphaGo又贏了第三局,確定這場世紀人機大戰由電腦程式獲勝。這場比賽規定下滿五局,雖然在接下來的第四局中,李世石以一子妙棋贏得首勝,但最終仍是一比四輸給了AlphaGo

經此一役,世人對於人工智慧有了不同的認識,AI不再被認為只是電影裏的科幻情節,已經發生在我們的生活周遭;而AlphaGo背後的人工智慧關鍵技術——深度學習(Deep Learning),也從原本只是學術研究領域的專業名詞,搖身成為街頭巷尾熱議的話題。

事實上,深度學習是近年來人工智慧領域當紅的技術,這項結合資訊科學、數學與腦神經科學的技術,運用在圖像、語音辨識及自然語言處理,擁有超過9成的高度準確率,使得沉寂了數十年的人工智慧再次復興。

深度學習打破人工智慧的寒冬

人工智慧最早的研究可追溯至1950年代,然而在之後的數十年中,在技術與應用上卻未見突破性進展,使得人工智慧的應用處於停滯的寒冬期,直到2012年的一場全球圖像辨識分類比賽——ImageNet,得獎隊伍的結果出爐後,才宣告人工智慧終於從寒冬中復甦。

ImageNet競賽的2012年冠軍,是由加拿大多倫多大學教授Geoff Hinton領軍的研究團隊,以深度學習技術寫下圖片辨識率達85%的新紀錄,而在前一屆2010年的競賽中,辨識率最高僅72%,也就是說,人工智慧技術在圖像辨識的錯誤率,在短短兩年內,就從28%大幅降低至15%,這不僅讓諸多研究者看到深度學習的技術潛力,也讓處於寒冬數十載的人工智慧迎來曙光。

為何ImageNet競賽的結果對人工智慧的發展如此重要?在這項比賽裡面,提供了兩組圖片,其中一組是數百萬張含有內容註解的圖片,例如鳥、掛勾等各式各樣的物體,由研究者先以這些包含標籤的大量圖片去訓練演算法,之後再以另一組不含標籤的圖片來檢驗演算法的辨識準確度。這些圖片由人類來辨識的結果,平均準確率達到95%。

人工神經網路重新站上舞臺

Geoff Hinton之所以能讓圖片辨識率有大幅進展,主要關鍵是研發的深層學習網路——Convolutional Neural Networks(CNN),這項技術是由腦神經網路獲得啟發,將神經元的運作原理套用到電腦視覺(Computer Vision)領域。

人類的腦神經是由許多神經元組成,每個神經元雖然構造簡單,只能接收簡單的訊號,但有意思的是神經元會將其訊號傳遞給其他的神經元,一個神經元會被其他神經元傳遞的訊號所觸發,再結合其訊號後轉發給其他的神經元,如此形成一個龐大的訊息處理網路,人腦因而能夠應付複雜的訊號。

深度學習技術在圖像辨識的運用,即模仿了視神經的運作。因為,人類具有極佳的圖像辨識能力,即便是幼兒都能輕易分辨不同的物體,但要讓電腦擁有圖像辨識能力則相當困難。所幸,研究者找到視神經的運作方式,發現人類的視神經擅於分辨物體的邊界,透過對邊界的認識,再逐步組合出圖像識別。

於是,深度學習的做法是先將圖片分解成許多小像素,做為深度學習網路的第一層輸入資料,再經過多層次的演算法處理,從個別像素擷取特徵、組合特徵,至於最後的輸出層結果,則是深度學習演算法辨識出的圖片主要特徵。

其實,Geoff Hinton早在1998年就提出了CNN的理論,但直到2012年的ImageNet才讓CNN一戰成名,因為深度學習還有兩個關鍵的要素,是在2009年之後才逐漸到位。

其一,是深度學習需要大量資料來訓練演算法模型,例如圖片辨識往往需要數百萬張圖片來訓練模型,以找出演算法最合適的權重參數,達到最佳的準確率。而隨著網際網路在2000年後風行,研究者終於得以從網際網路取得大量圖片,來訓練出最好的深度學習模型。

大資料、雲端運算、GPU為深度學習添翼

另一個讓深度學習技術大展長才的關鍵,在於運算資源的瓶頸能否突破。

人工神經網路技術發展的初期,由於缺乏龐大的運算能力,無法建立多層運算網路,所以,影響了最後輸出結果的準確度,以至於人工智慧被認為僅是科幻情節,距離實用仍太遠。然而,自2009年開始,電腦運算技術有了不同的轉變,一方面是雲端運算技術逐漸成熟,透過分散式運算技術所建構的雲端運算架構,幾乎可說是提供源源不絕的運算量;另一方面,則是研究者有了重大發現,他們看到原本給遊戲玩家使用的GPU繪圖卡,若用於深度學習演算法的運算,可獲得10倍以上的效能提升。

在大量的學習資料以及龐大的運算資源,都已不構成問題之後,相繼投入深度學習技術的研究者與廠商就越來越多,使得深度學習成為當今人工智慧的顯學。也因此,ImageNet競賽自2012年之後,幾乎全是深度學習技術的天下,包括2014年的冠軍——Google Brain、2015年的冠軍——微軟,都是基於深度學習技術。

深度學習超越人類

現在,深度學習技術的發展,已經不再只是學術領域的議題,更是Google、微軟、Facebook、Amazon等科技大公司積極投入研發的領域。也就在產學相互學習與競爭之下,近幾年深度學習技術可謂突飛猛進,深度學習不只是下棋贏過人類,在臉部辨識、物體識別及手寫文字辨識,皆已超越人類的水準。

例如,ImageNet競賽在2012年以75%的辨識率,樹立了深度學習技術的新里程碑,而時至今日,在2015年ImageNet競賽中,微軟的深度學習技術首度以96%的準確率,超越人類的水準,而在微軟建構的深度學習網路當中,竟然使用了多達152層的超級深層網路,與前一年參賽隊伍普遍使用的20至30層的網路架構相比,複雜度是呈等比級數。

深度學習不僅在圖像辨識超越人類,甚至連難度極高的中文手寫辨識,深度學習技術的準確率也已經高於人類。富士通在2015年就發表其中文手寫文字辨識的準確率,已達到96.7%,首度超越人類平均辨識準確率96.1%的水準。

回顧更早之前,富士通的中文手寫文字辨識技術於2013年的全球文件分析與辨識研討會(ICDAR)發表時,辨識準確率已經達到94.8%,但還達不到人類平均的水準。為了進一步提升辨識率,富士通一方面擴大深度學習網路的深度,也就是增加人工神經網路的層數。在前一代技術中,富士通建構的學習網路有280萬個節點,新一代技術則大舉擴充至1億5千萬個節點。

另一方面,則需要有更多的手寫文字來訓練深度學習模型,然而要蒐集大量的手寫文字並非易事,於是富士通研發人員開發出一套文字變體系統,產出大量手寫文字的變體,以此大量反覆訓練深度學習模型,終於寫下中文手寫文字辨識率超越人類的紀錄。

 運用深度學習技術的中文手寫辨識準確率超越人類 

以深度學習手法辨識文字的流程

辨識圖像文字是人類的天生能力,不需特別學習就能學會,但要教會電腦程式辨識圖像文字,卻是一件很困難的事。深度學習技術效法視神經的運作原理,借鏡人類視覺會先辨識物體邊界的方法,先針對影像做影像處理,強化邊界,再逐一分解影像,從中尋找特徵。

擴增深度學習網路的層數

為了進一步提升中文手寫文字辨識率,富士通為深度學習網絡增加更多層數,其網絡的節點由280萬個大幅擴充至1億5千萬個,辨識率也因此獲得大幅進度,超越了人類的文字辨識水準。

以文字變體技術增加訓練資料

深度學習技術提升準確率的一個重要手法,是增加更大量的訓練資料,以優化深度學習模型,然而,要蒐集大量中文手寫文字,並不容易,於是富士通的研究人員特別開發一套文字變體技術,以增加第3軸灰度值的方式,可快速產生更多樣的變體文字。

人工智慧挑戰大學升學考試

在研究人員前仆後繼投入研發之下,人工智慧技術在特定的領域都發展出近於人類的能力。人工智慧不僅對圖片、文字辨識的應用拿手,也將能用於考上大學。由日本國立情報學研究所、名古屋大學與富士通共同研發的「東大機器人」專案,正在嘗試以人工智慧技術讓電腦考上東京大學。

東大機器人首先挑戰的是日本大學入學考試的數學科,研發人員藉助深度學習技術在自然語言處理的優勢,將考題的文字與數學公式轉換成電腦程式可理解的形式,再透過代數解題程式求解。而在2013年東京大學入學考式預試實測下,東大機器人在人文組數學考題的四題中,答對了兩題,在理工組數學考題的六題中,也答對兩題。

相關報導請參考「富士通AI前進企業」


Advertisement

更多 iThome相關內容