看富士通如何運用深度學習技術創新企業應用

富士通運用深度學習技術開發的智慧監控應用，可即時分析監控視訊的畫面，準確分辨出不同的車輛類型與行人。

圖片來源:

iThome

在我們生活周遭不乏深度學習的例子，例如電子郵件的垃圾信件過濾機制，又如Google相簿與Facebook相繼推出的自動辨識功能。

深度學習運用於企業的各種場景

在Google相簿中，你不需要先為相片加上內容註解的標籤，Google相簿就會以深度學習技術辨識影像，找出符合條件的相片，只要輸入「花」、「海」等字，Google相簿就會找出對應的相片。Facebook則能為你上傳的人物照片自動加上用戶名稱，在你為特定人物的照片標識過幾次用戶名稱之後，Facebook的程式就會學習辨識，認出照片中的人。

除此之外，深度學習技術還能夠如何運用在企業的業務場景呢？在今年日本富士通論壇上，一口氣展示好幾項人工智慧企業應用，涵蓋金融業、製造業、零售業、服務業等多個產業的業務應用，這除了象徵人工智慧是富士通未來技術開發的一大主力方向，更可從中看出人工智慧應用於企業場景的可能性。

富士通社長田中達也表示，他們自1980年代就開始研發人工智慧技術，至今已擁有超過百件技術專利，目前主流的研發技術是深度學習，因為其在影像辨識、語音處理方面有極佳的準確率，而這些技術都已經納入富士通的人工智慧平臺——Zinrai（迅雷）。

富士通的Zinrai人工智慧架構，將學習技術與先進研究這兩項主題，視為人工智慧平臺的基石，其中包含三個關鍵的機器學習技術，分別是深度學習、強化學習（Reinforcement Learning）與相關的機器學習技術。而所謂的先進研究，則包含神經科學、模擬及社會接受度。

在學習技術與先進研究的基礎上，則是整合相關技術提供三大類人工智慧應用，包括感知與辨識、知識處理、決策支援，讓企業能夠從擁有感知能力起步，接著進展到能有行動力。

要讓企業組織擁有感知與辨識能力，富士通認為，要結合影像辨識、語音辨識及情感狀態辨識，可用於防詐偵測、依據顧客反應自動調整服務等場景；要有知識處理能力，則需要自然語言處理技術、知識處理與探索、模式探索等技術，可用於醫療判斷、金融顧問等業務；要提供讓企業足以行動的決策與支援能力，則需要推理與規畫、預測與最佳化、互動與推薦等技術的結合，例如應用於交通流量疏導。

深度學習用於智慧城市影像監控

從深度學習技術的演進可見，它是結合多種已經發展多年的技術而成，而上述人工智慧的應用架構也包含許多過往常見的技術名詞，如影像辨識、語音辨識等等，但是，難道人工智慧只是新瓶裝舊酒嗎？對此，可以從富士通研發的新一代影像辨識應用找到答案。

富士通運用深度學習的新一代智慧監控技術（Smart Surveillance），可以即時分析監控視訊畫面，辨識出車輛的類型，如汽車、公車、摩托車，亦可辨別車輛的廠牌及顏色。在富士通論壇展示此項應用的技術，現場負責的人員表示，過往沒有採用深度學習的影像辨識技術，必須由影像專家事先針對影像內容定義，個別定義出汽車、公車、摩托車等各種物體的辨識條件，再將這些條件寫在程式裏，讓程式擁有辨識物體的能力。然而，傳統做法的問題在應用局限大，若是沒有事先定義的物體，辨識軟體就派不上用場了，也因此往往會有許多例外狀況。

深度學習的手法則是提供大量照片，讓演算法去參照畫面，透過程式反覆學習，而不需要特別的影像專家針對影像修正。以辨識車輛廠牌為例，富士通的研發人員會輸入數萬張同廠牌的車輛照片，讓深度學習模型學會辨識該廠牌。該技術人員指出，以辨識Audi汽車為例，他們在資料庫輸入1萬多張照片，大概花了3天，深度學習演算法就能辨識出Audi汽車。而且，深度學習技術的好處是，一旦認出Audi汽車，日後就算是不同顏色的Audi汽車，深度學習演算法都認得出來廠牌與顏色，不需要再調校。

該技術人員表示，建立深度學習模型所需的時間與運算資源也有很大的關係，以上述提供1萬多張Audi汽車照片，得以在3天內就能正確識別，需要用上2至3張GPU加速卡。當然，伺服器的運算規模越強大，則能縮短學習時間，此外，深度學習演算法需要平行運算架構及平行運算資料庫。

同時，富士通這項影像辨識技術除了辨識車輛，還可運用於停車場車位監控（Smart Parking），可即時掌握車位的停車狀況。此外，也可以辨識行人的年紀、服裝類型，例如西裝、襯衫、褲子、裙子等等，以及服裝顏色，可運用於快速追蹤老人或幼兒走失的問題。

目前富士通的Smart Parking車位監控應用已經商品化，單一視訊監控影像可辨識100個停車位，在杜拜實際導入的成果，辨識率達到98％。至於Smart Surveillance的智慧監控應用，則可望在今年商品化。

能區別多臺汽車與路人
富士通運用深度學習技術開發的智慧監控應用，可即時分析監控視訊的畫面，準確分辨出不同的車輛類型與行人。

自動辨識車輛的廠牌
運用深度學習的手法，在輸入上萬張同一個廠牌的車輛照片，智慧監控系統就可以自動辨識該廠牌的車輛，不需要影像專家事先設定辨識條件。

停車位自動辨識
富士通的智慧監控技術亦可應用於停車場的車位辨識，可由單一攝影機的視訊影像，自動監控100個停車位的狀況，準確率達98％。

深度學習用於網路攻擊偵測與鑑識

富士通也將深度學習技術應用於資訊安全，這是由富士通研究所研發的技術——運用異數學習技術（Outlier Learning）的資安攻擊檢測。在場負責展示的富士通研究所人員表示，現今資訊安全面臨最大的威脅就是未知的針對型攻擊，這類型攻擊往往躲藏在大量的攻擊活動中，不僅是一般資安防護軟體檢驗不出來，就算是從Log檔分析，若缺乏有效的分析技術，只靠有限的人力，往往無法從大量的Log檔資訊中，找到蜘絲馬跡。

然而，網路攻擊即便是未知的手法，但也有其模式可辨別，只是依照人們過往的經驗可能無法輕易識別，但若由訓練過的深度學習演算法來識別攻擊模式，應當會比人們來得可行。富士通研究所人員指出，他們研發的這項網路攻擊檢測技術，是採用非監督式（unsupervised）的深度學習技術，目前雖然尚未商品化，但已經運用在富士通全球的各個雲端資料中心，而且，最近還因此發現一個未知的攻擊行動。

非監督式深度學習技術

所謂的非監督式深度學習技術，是在無提供標籤內容的情況下，讓演算法自動歸納模式，若將這種方法運用於檢測未知網路攻擊威脅時，特別有效。

富士通研究所也為這個網路攻擊檢測技術，賦予一套既直覺又酷炫的視覺化介面，能將攻擊行為分別呈現，將涉及的主機數量與連線以雲狀圖呈現，如此除了藉由雲狀圖的大小，可快速掌握攻擊的規模，同時，一些如APT這類故意分散攻擊的行為，也會被呈現出來。

此外，富士通研究所也將相同的技術延伸至網路攻擊鑑識，可以將攻擊的路徑、受攻擊的網段、主機IP位址之間的連線關係，以即時視覺化圖表呈現。

以深度學習分析網路攻擊

經過分析歸納後，這套系統會將每個攻擊活動以雲狀關聯圖呈現，即時反應攻擊活動的範疇、頻率，有助於管理者迅速掌握狀況。

強化資訊安全鑑識分析力

網路活動記錄經過分析歸納後，可再由資訊安全鑑識工具進一步分析，攻擊活動的路徑、主機與IP位址的關聯，都能即時呈現。

即時呈現攻擊關連

在這套資安鑑識工具上，除了提供即時互動儀表板，呈現網路攻擊的過程，也提供整個事件的路徑關係圖。

深度學習用於工廠管理

現今智慧型手機用戶早就習慣的語音助理，其實背後也是藉助於深度學習與自然語言處理技術。富士通也將此技術應用在工廠管理。

在實際的展示中，一位工廠管理人員以平板開啟數位助理程式，他以麥克風詢問：「目前工廠的狀況如何？」在程式解析其語意後，就連結工廠資訊系統並回報狀況，幾秒後數位語音助理回答：「滋賀工廠的A生產線有警示。」此時，平板螢幕也同步顯示工廠的監控數據。接著，管理人員又再問：「告訴我A生產線的詳細情形。」數位助理隨即回答：「了解。」然後，螢幕上呈現A生產線的幾個監控數據圖。於是，管理人員又再問：「請調查原因。」數位助理回覆：「感應器的感應下降了20％。」管理人員於是詢問：「這個裝置該如何處理？」而數位助理回答：「我需要分析過往的數據，請稍等。」過了幾秒鐘，數位助理回答：「建議儘快更換感應器。」

在上述的應用情境下，人工智慧不僅具有監控的功能，同時還提供知識處理，以及建議行動的能力。

深度學習用於金融防詐與客戶服務

自然語言處理技術也可運用在防範金融詐欺，不過，富士通除了將深度學習技術用於分析來電者的語言，甚至也分析來電者講話的語調，從語意及語調的模式，分辨出詐欺的可能性。此一技術可運用在銀行業者，亦可運用在一般人防範電話詐欺。

以深度學習防範金融詐欺

在防範金融詐欺的應用上，在以自然語言處理技術了解來電者語意的同時，也利用深度學習技術分析來電話的語調，能夠快速分辨電話詐欺。

至於客戶服務則可透過自然語言分析語意，再連結相關知識庫，自動找出相關的客戶服務或技術支援所需的資訊，協助客服人員提供更好的客戶服務。

富士通同時還展示一個正在研發中的ATM主動服務技術，這個應用需再結合富士通的眼球追蹤技術，只要在ATM提款機加裝一個紅外線發射與感應器，就能將提款者的眼球運動記錄下來，也就是掌握了提款者的視線路徑，而這些訊息再經過深度學習技術的模式，分辨來判斷提款者是否有操作上的問題，一旦發現操作上有困難的提款者，系統就自動連結客服人員，透過提款機的螢幕與語音通訊即時提供協助。

自動追蹤ATM使用者的狀況

富士通眼球追蹤技術與深度學習技術的結合，亦可運用於ATM提款機，透過掌握使用者的視線，可即時發現使用者的狀況。

可由感測器探知顧客視線

透過視線檢測系統搭配的小型視線感應器，可運用相機鏡頭與LED照明所各自反射的光線，判斷出顧客眼睛所注視的位置。

客服即時協助顧客

透過行為模式辨識，一旦系統分析出使用者的視線路徑顯示操作有困難，就會立即通知客服人員，透過ATM的螢幕與通話提供即時協助。

更準確辨識人的動作

富士通研究所把混沌理論與CNN深度學習技術一起使用，先利用混沌理論將穿戴式裝置收集的時序性資料轉換成向量表示，再由CNN學習來歸類，在識別人的行為上有更高的準確率。

相同的技術也可運用在餐飲業的自助點餐系統，透過追蹤操作者的視線，可了解他對於哪些食物比較有興趣，系統就可以進一步挑選對應的餐點來呈現。至於該如何掌握不同年齡或不同族群消費者的飲食喜好，富士通也進行一項深度學習技術的研發，將2萬多張餐點照片輸入資料庫，讓深度學習演算法自動學習不同族群的用餐喜好。

依顧客反應自動推薦餐點

富士通將深度學習與眼球追蹤技術運用於自助點餐機，透過眼球追蹤可掌握消費者當下的喜好，再由深度學習分析推薦合適的餐點。

以深度學習分析飲食習慣

藉助深度學習技術在圖像辨識的強項，透過分析不同世代族群的餐桌照片，即可分析出不同年齡層的飲食習慣。

運用深度學習，提升彩妝App建議能力

藉助深度學習技術擅長的臉部分析，可進一步設計客製化的彩妝App，針對每個人不同的臉型，提供最佳的化妝建議。

深度學習快速崛起，促使人工智慧再進化

由上述應用可見，深度學習帶動的人工智慧復興，確實在許多應用上帶來更多創新的可能性。不過深度學習技術畢竟發展才不過幾年，其潛力有多大，其所能帶動的人工智慧復興，會掀起多大的浪潮尚無人得知。

然而，正如Google執行長Sundar Pichai所言：「未來不再是行動優先，而是AI優先。」的確，整個世界已經從行動世代，往人工智慧世代移動了。

相關報導請參考「富士通AI前進企業」

熱門新聞