打破技術與應用寒冬，深度學習掀起人工智慧新浪潮

深度學習技術是一種人工神經網絡，是從腦神經科學獲得啟發，效法神經元的多層次學習網絡，在圖像辨識上先將圖片分解成許多小像素，透過好幾層的處理，以擷取、結合特徵，最後對圖像中的物件提出預測。

圖片來源:

iThome

在2016年3月12日，AlphaGo圍棋程式迎戰世界冠軍南韓棋手李世石，來到了第三局，這一天全世界都在關注這場人類史上最關鍵的人機大戰，因為前兩局已經被AlphaGo取得勝利，第三局將是決定人工智慧能否戰勝人類的關鍵。

圍棋堪稱是最複雜的棋賽，如果連最複雜的圍棋都輸給了電腦，那麼人類智慧最後的堡壘失守了，不免令人擔心電影電腦主宰人類的場景似乎也不遠了。然而就在眾所矚目下，AlphaGo又贏了第三局，確定這場世紀人機大戰由電腦程式獲勝。這場比賽規定下滿五局，雖然在接下來的第四局中，李世石以一子妙棋贏得首勝，但最終仍是一比四輸給了AlphaGo。

經此一役，世人對於人工智慧有了不同的認識，AI不再被認為只是電影裏的科幻情節，已經發生在我們的生活周遭；而AlphaGo背後的人工智慧關鍵技術——深度學習（Deep Learning），也從原本只是學術研究領域的專業名詞，搖身成為街頭巷尾熱議的話題。

事實上，深度學習是近年來人工智慧領域當紅的技術，這項結合資訊科學、數學與腦神經科學的技術，運用在圖像、語音辨識及自然語言處理，擁有超過9成的高度準確率，使得沉寂了數十年的人工智慧再次復興。

深度學習打破人工智慧的寒冬

人工智慧最早的研究可追溯至1950年代，然而在之後的數十年中，在技術與應用上卻未見突破性進展，使得人工智慧的應用處於停滯的寒冬期，直到2012年的一場全球圖像辨識分類比賽——ImageNet，得獎隊伍的結果出爐後，才宣告人工智慧終於從寒冬中復甦。

ImageNet競賽的2012年冠軍，是由加拿大多倫多大學教授Geoff Hinton領軍的研究團隊，以深度學習技術寫下圖片辨識率達85％的新紀錄，而在前一屆2010年的競賽中，辨識率最高僅72％，也就是說，人工智慧技術在圖像辨識的錯誤率，在短短兩年內，就從28％大幅降低至15％，這不僅讓諸多研究者看到深度學習的技術潛力，也讓處於寒冬數十載的人工智慧迎來曙光。

為何ImageNet競賽的結果對人工智慧的發展如此重要？在這項比賽裡面，提供了兩組圖片，其中一組是數百萬張含有內容註解的圖片，例如鳥、掛勾等各式各樣的物體，由研究者先以這些包含標籤的大量圖片去訓練演算法，之後再以另一組不含標籤的圖片來檢驗演算法的辨識準確度。這些圖片由人類來辨識的結果，平均準確率達到95％。

人工神經網路重新站上舞臺

Geoff Hinton之所以能讓圖片辨識率有大幅進展，主要關鍵是研發的深層學習網路——Convolutional Neural Networks（CNN），這項技術是由腦神經網路獲得啟發，將神經元的運作原理套用到電腦視覺（Computer Vision）領域。

人類的腦神經是由許多神經元組成，每個神經元雖然構造簡單，只能接收簡單的訊號，但有意思的是神經元會將其訊號傳遞給其他的神經元，一個神經元會被其他神經元傳遞的訊號所觸發，再結合其訊號後轉發給其他的神經元，如此形成一個龐大的訊息處理網路，人腦因而能夠應付複雜的訊號。

而深度學習技術在圖像辨識的運用，即模仿了視神經的運作。因為，人類具有極佳的圖像辨識能力，即便是幼兒都能輕易分辨不同的物體，但要讓電腦擁有圖像辨識能力則相當困難。所幸，研究者找到視神經的運作方式，發現人類的視神經擅於分辨物體的邊界，透過對邊界的認識，再逐步組合出圖像識別。

於是，深度學習的做法是先將圖片分解成許多小像素，做為深度學習網路的第一層輸入資料，再經過多層次的演算法處理，從個別像素擷取特徵、組合特徵，至於最後的輸出層結果，則是深度學習演算法辨識出的圖片主要特徵。

其實，Geoff Hinton早在1998年就提出了CNN的理論，但直到2012年的ImageNet才讓CNN一戰成名，因為深度學習還有兩個關鍵的要素，是在2009年之後才逐漸到位。

其一，是深度學習需要大量資料來訓練演算法模型，例如圖片辨識往往需要數百萬張圖片來訓練模型，以找出演算法最合適的權重參數，達到最佳的準確率。而隨著網際網路在2000年後風行，研究者終於得以從網際網路取得大量圖片，來訓練出最好的深度學習模型。

大資料、雲端運算、GPU為深度學習添翼

另一個讓深度學習技術大展長才的關鍵，在於運算資源的瓶頸能否突破。

人工神經網路技術發展的初期，由於缺乏龐大的運算能力，無法建立多層運算網路，所以，影響了最後輸出結果的準確度，以至於人工智慧被認為僅是科幻情節，距離實用仍太遠。然而，自2009年開始，電腦運算技術有了不同的轉變，一方面是雲端運算技術逐漸成熟，透過分散式運算技術所建構的雲端運算架構，幾乎可說是提供源源不絕的運算量；另一方面，則是研究者有了重大發現，他們看到原本給遊戲玩家使用的GPU繪圖卡，若用於深度學習演算法的運算，可獲得10倍以上的效能提升。

在大量的學習資料以及龐大的運算資源，都已不構成問題之後，相繼投入深度學習技術的研究者與廠商就越來越多，使得深度學習成為當今人工智慧的顯學。也因此，ImageNet競賽自2012年之後，幾乎全是深度學習技術的天下，包括2014年的冠軍——Google Brain、2015年的冠軍——微軟，都是基於深度學習技術。

深度學習超越人類

現在，深度學習技術的發展，已經不再只是學術領域的議題，更是Google、微軟、Facebook、Amazon等科技大公司積極投入研發的領域。也就在產學相互學習與競爭之下，近幾年深度學習技術可謂突飛猛進，深度學習不只是下棋贏過人類，在臉部辨識、物體識別及手寫文字辨識，皆已超越人類的水準。

例如，ImageNet競賽在2012年以75％的辨識率，樹立了深度學習技術的新里程碑，而時至今日，在2015年ImageNet競賽中，微軟的深度學習技術首度以96％的準確率，超越人類的水準，而在微軟建構的深度學習網路當中，竟然使用了多達152層的超級深層網路，與前一年參賽隊伍普遍使用的20至30層的網路架構相比，複雜度是呈等比級數。

深度學習不僅在圖像辨識超越人類，甚至連難度極高的中文手寫辨識，深度學習技術的準確率也已經高於人類。富士通在2015年就發表其中文手寫文字辨識的準確率，已達到96.7％，首度超越人類平均辨識準確率96.1％的水準。

回顧更早之前，富士通的中文手寫文字辨識技術於2013年的全球文件分析與辨識研討會（ICDAR）發表時，辨識準確率已經達到94.8％，但還達不到人類平均的水準。為了進一步提升辨識率，富士通一方面擴大深度學習網路的深度，也就是增加人工神經網路的層數。在前一代技術中，富士通建構的學習網路有280萬個節點，新一代技術則大舉擴充至1億5千萬個節點。

另一方面，則需要有更多的手寫文字來訓練深度學習模型，然而要蒐集大量的手寫文字並非易事，於是富士通研發人員開發出一套文字變體系統，產出大量手寫文字的變體，以此大量反覆訓練深度學習模型，終於寫下中文手寫文字辨識率超越人類的紀錄。

運用深度學習技術的中文手寫辨識準確率超越人類

以深度學習手法辨識文字的流程

辨識圖像文字是人類的天生能力，不需特別學習就能學會，但要教會電腦程式辨識圖像文字，卻是一件很困難的事。深度學習技術效法視神經的運作原理，借鏡人類視覺會先辨識物體邊界的方法，先針對影像做影像處理，強化邊界，再逐一分解影像，從中尋找特徵。

擴增深度學習網路的層數

為了進一步提升中文手寫文字辨識率，富士通為深度學習網絡增加更多層數，其網絡的節點由280萬個大幅擴充至1億5千萬個，辨識率也因此獲得大幅進度，超越了人類的文字辨識水準。

以文字變體技術增加訓練資料

深度學習技術提升準確率的一個重要手法，是增加更大量的訓練資料，以優化深度學習模型，然而，要蒐集大量中文手寫文字，並不容易，於是富士通的研究人員特別開發一套文字變體技術，以增加第3軸灰度值的方式，可快速產生更多樣的變體文字。

人工智慧挑戰大學升學考試

在研究人員前仆後繼投入研發之下，人工智慧技術在特定的領域都發展出近於人類的能力。人工智慧不僅對圖片、文字辨識的應用拿手，也將能用於考上大學。由日本國立情報學研究所、名古屋大學與富士通共同研發的「東大機器人」專案，正在嘗試以人工智慧技術讓電腦考上東京大學。

東大機器人首先挑戰的是日本大學入學考試的數學科，研發人員藉助深度學習技術在自然語言處理的優勢，將考題的文字與數學公式轉換成電腦程式可理解的形式，再透過代數解題程式求解。而在2013年東京大學入學考式預試實測下，東大機器人在人文組數學考題的四題中，答對了兩題，在理工組數學考題的六題中，也答對兩題。

相關報導請參考「富士通AI前進企業」

熱門新聞