富士通運用深度學習技術開發的智慧監控應用,可即時分析監控視訊的畫面,準確分辨出不同的車輛類型與行人。

圖片來源: 

iThome

在我們生活周遭不乏深度學習的例子,例如電子郵件的垃圾信件過濾機制,又如Google相簿與Facebook相繼推出的自動辨識功能。

深度學習運用於企業的各種場景

在Google相簿中,你不需要先為相片加上內容註解的標籤,Google相簿就會以深度學習技術辨識影像,找出符合條件的相片,只要輸入「花」、「海」等字,Google相簿就會找出對應的相片。Facebook則能為你上傳的人物照片自動加上用戶名稱,在你為特定人物的照片標識過幾次用戶名稱之後,Facebook的程式就會學習辨識,認出照片中的人。

除此之外,深度學習技術還能夠如何運用在企業的業務場景呢?在今年日本富士通論壇上,一口氣展示好幾項人工智慧企業應用,涵蓋金融業、製造業、零售業、服務業等多個產業的業務應用,這除了象徵人工智慧是富士通未來技術開發的一大主力方向,更可從中看出人工智慧應用於企業場景的可能性。

富士通社長田中達也表示,他們自1980年代就開始研發人工智慧技術,至今已擁有超過百件技術專利,目前主流的研發技術是深度學習,因為其在影像辨識、語音處理方面有極佳的準確率,而這些技術都已經納入富士通的人工智慧平臺——Zinrai(迅雷)。

富士通的Zinrai人工智慧架構,將學習技術與先進研究這兩項主題,視為人工智慧平臺的基石,其中包含三個關鍵的機器學習技術,分別是深度學習、強化學習(Reinforcement Learning)與相關的機器學習技術。而所謂的先進研究,則包含神經科學、模擬及社會接受度。

在學習技術與先進研究的基礎上,則是整合相關技術提供三大類人工智慧應用,包括感知與辨識、知識處理、決策支援,讓企業能夠從擁有感知能力起步,接著進展到能有行動力。

要讓企業組織擁有感知與辨識能力,富士通認為,要結合影像辨識、語音辨識及情感狀態辨識,可用於防詐偵測、依據顧客反應自動調整服務等場景;要有知識處理能力,則需要自然語言處理技術、知識處理與探索、模式探索等技術,可用於醫療判斷、金融顧問等業務;要提供讓企業足以行動的決策與支援能力,則需要推理與規畫、預測與最佳化、互動與推薦等技術的結合,例如應用於交通流量疏導。

深度學習用於智慧城市影像監控

從深度學習技術的演進可見,它是結合多種已經發展多年的技術而成,而上述人工智慧的應用架構也包含許多過往常見的技術名詞,如影像辨識、語音辨識等等,但是,難道人工智慧只是新瓶裝舊酒嗎?對此,可以從富士通研發的新一代影像辨識應用找到答案。

富士通運用深度學習的新一代智慧監控技術(Smart Surveillance),可以即時分析監控視訊畫面,辨識出車輛的類型,如汽車、公車、摩托車,亦可辨別車輛的廠牌及顏色。在富士通論壇展示此項應用的技術,現場負責的人員表示,過往沒有採用深度學習的影像辨識技術,必須由影像專家事先針對影像內容定義,個別定義出汽車、公車、摩托車等各種物體的辨識條件,再將這些條件寫在程式裏,讓程式擁有辨識物體的能力。然而,傳統做法的問題在應用局限大,若是沒有事先定義的物體,辨識軟體就派不上用場了,也因此往往會有許多例外狀況。

深度學習的手法則是提供大量照片,讓演算法去參照畫面,透過程式反覆學習,而不需要特別的影像專家針對影像修正。以辨識車輛廠牌為例,富士通的研發人員會輸入數萬張同廠牌的車輛照片,讓深度學習模型學會辨識該廠牌。該技術人員指出,以辨識Audi汽車為例,他們在資料庫輸入1萬多張照片,大概花了3天,深度學習演算法就能辨識出Audi汽車。而且,深度學習技術的好處是,一旦認出Audi汽車,日後就算是不同顏色的Audi汽車,深度學習演算法都認得出來廠牌與顏色,不需要再調校。

該技術人員表示,建立深度學習模型所需的時間與運算資源也有很大的關係,以上述提供1萬多張Audi汽車照片,得以在3天內就能正確識別,需要用上2至3張GPU加速卡。當然,伺服器的運算規模越強大,則能縮短學習時間,此外,深度學習演算法需要平行運算架構及平行運算資料庫。

同時,富士通這項影像辨識技術除了辨識車輛,還可運用於停車場車位監控(Smart Parking),可即時掌握車位的停車狀況。此外,也可以辨識行人的年紀、服裝類型,例如西裝、襯衫、褲子、裙子等等,以及服裝顏色,可運用於快速追蹤老人或幼兒走失的問題。

目前富士通的Smart Parking車位監控應用已經商品化,單一視訊監控影像可辨識100個停車位,在杜拜實際導入的成果,辨識率達到98%。至於Smart Surveillance的智慧監控應用,則可望在今年商品化。

能區別多臺汽車與路人
富士通運用深度學習技術開發的智慧監控應用,可即時分析監控視訊的畫面,準確分辨出不同的車輛類型與行人。

自動辨識車輛的廠牌
運用深度學習的手法,在輸入上萬張同一個廠牌的車輛照片,智慧監控系統就可以自動辨識該廠牌的車輛,不需要影像專家事先設定辨識條件。

停車位自動辨識
富士通的智慧監控技術亦可應用於停車場的車位辨識,可由單一攝影機的視訊影像,自動監控100個停車位的狀況,準確率達98%。

深度學習用於網路攻擊偵測與鑑識

富士通也將深度學習技術應用於資訊安全,這是由富士通研究所研發的技術——運用異數學習技術(Outlier Learning)的資安攻擊檢測。在場負責展示的富士通研究所人員表示,現今資訊安全面臨最大的威脅就是未知的針對型攻擊,這類型攻擊往往躲藏在大量的攻擊活動中,不僅是一般資安防護軟體檢驗不出來,就算是從Log檔分析,若缺乏有效的分析技術,只靠有限的人力,往往無法從大量的Log檔資訊中,找到蜘絲馬跡。

然而,網路攻擊即便是未知的手法,但也有其模式可辨別,只是依照人們過往的經驗可能無法輕易識別,但若由訓練過的深度學習演算法來識別攻擊模式,應當會比人們來得可行。富士通研究所人員指出,他們研發的這項網路攻擊檢測技術,是採用非監督式(unsupervised)的深度學習技術,目前雖然尚未商品化,但已經運用在富士通全球的各個雲端資料中心,而且,最近還因此發現一個未知的攻擊行動。

非監督式深度學習技術

所謂的非監督式深度學習技術,是在無提供標籤內容的情況下,讓演算法自動歸納模式,若將這種方法運用於檢測未知網路攻擊威脅時,特別有效

富士通研究所也為這個網路攻擊檢測技術,賦予一套既直覺又酷炫的視覺化介面,能將攻擊行為分別呈現,將涉及的主機數量與連線以雲狀圖呈現,如此除了藉由雲狀圖的大小,可快速掌握攻擊的規模,同時,一些如APT這類故意分散攻擊的行為,也會被呈現出來。

此外,富士通研究所也將相同的技術延伸至網路攻擊鑑識,可以將攻擊的路徑、受攻擊的網段、主機IP位址之間的連線關係,以即時視覺化圖表呈現。

以深度學習分析網路攻擊

經過分析歸納後,這套系統會將每個攻擊活動以雲狀關聯圖呈現,即時反應攻擊活動的範疇、頻率,有助於管理者迅速掌握狀況。

強化資訊安全鑑識分析力

網路活動記錄經過分析歸納後,可再由資訊安全鑑識工具進一步分析,攻擊活動的路徑、主機與IP位址的關聯,都能即時呈現。

即時呈現攻擊關連

在這套資安鑑識工具上,除了提供即時互動儀表板,呈現網路攻擊的過程,也提供整個事件的路徑關係圖。

深度學習用於工廠管理

現今智慧型手機用戶早就習慣的語音助理,其實背後也是藉助於深度學習與自然語言處理技術。富士通也將此技術應用在工廠管理。

在實際的展示中,一位工廠管理人員以平板開啟數位助理程式,他以麥克風詢問:「目前工廠的狀況如何?」在程式解析其語意後,就連結工廠資訊系統並回報狀況,幾秒後數位語音助理回答:「滋賀工廠的A生產線有警示。」此時,平板螢幕也同步顯示工廠的監控數據。接著,管理人員又再問:「告訴我A生產線的詳細情形。」數位助理隨即回答:「了解。 」然後,螢幕上呈現A生產線的幾個監控數據圖。於是,管理人員又再問:「請調查原因。」數位助理回覆:「感應器的感應下降了20%。」管理人員於是詢問:「這個裝置該如何處理?」而數位助理回答:「我需要分析過往的數據,請稍等。」過了幾秒鐘,數位助理回答:「建議儘快更換感應器。」

在上述的應用情境下,人工智慧不僅具有監控的功能,同時還提供知識處理,以及建議行動的能力。

深度學習用於金融防詐與客戶服務

自然語言處理技術也可運用在防範金融詐欺,不過,富士通除了將深度學習技術用於分析來電者的語言,甚至也分析來電者講話的語調,從語意及語調的模式,分辨出詐欺的可能性。此一技術可運用在銀行業者,亦可運用在一般人防範電話詐欺。

以深度學習防範金融詐欺

在防範金融詐欺的應用上,在以自然語言處理技術了解來電者語意的同時,也利用深度學習技術分析來電話的語調,能夠快速分辨電話詐欺。

至於客戶服務則可透過自然語言分析語意,再連結相關知識庫,自動找出相關的客戶服務或技術支援所需的資訊,協助客服人員提供更好的客戶服務。

富士通同時還展示一個正在研發中的ATM主動服務技術,這個應用需再結合富士通的眼球追蹤技術,只要在ATM提款機加裝一個紅外線發射與感應器,就能將提款者的眼球運動記錄下來,也就是掌握了提款者的視線路徑,而這些訊息再經過深度學習技術的模式,分辨來判斷提款者是否有操作上的問題,一旦發現操作上有困難的提款者,系統就自動連結客服人員,透過提款機的螢幕與語音通訊即時提供協助。

自動追蹤ATM使用者的狀況

富士通眼球追蹤技術與深度學習技術的結合,亦可運用於ATM提款機,透過掌握使用者的視線,可即時發現使用者的狀況。

可由感測器探知顧客視線

透過視線檢測系統搭配的小型視線感應器,可運用相機鏡頭與LED照明所各自反射的光線,判斷出顧客眼睛所注視的位置。

客服即時協助顧客

透過行為模式辨識,一旦系統分析出使用者的視線路徑顯示操作有困難,就會立即通知客服人員,透過ATM的螢幕與通話提供即時協助。

更準確辨識人的動作

富士通研究所把混沌理論與CNN深度學習技術一起使用,先利用混沌理論將穿戴式裝置收集的時序性資料轉換成向量表示,再由CNN學習來歸類,在識別人的行為上有更高的準確率。

相同的技術也可運用在餐飲業的自助點餐系統,透過追蹤操作者的視線,可了解他對於哪些食物比較有興趣,系統就可以進一步挑選對應的餐點來呈現。至於該如何掌握不同年齡或不同族群消費者的飲食喜好,富士通也進行一項深度學習技術的研發,將2萬多張餐點照片輸入資料庫,讓深度學習演算法自動學習不同族群的用餐喜好。

依顧客反應自動推薦餐點

富士通將深度學習與眼球追蹤技術運用於自助點餐機,透過眼球追蹤可掌握消費者當下的喜好,再由深度學習分析推薦合適的餐點。

以深度學習分析飲食習慣

藉助深度學習技術在圖像辨識的強項,透過分析不同世代族群的餐桌照片,即可分析出不同年齡層的飲食習慣。

運用深度學習,提升彩妝App建議能力

藉助深度學習技術擅長的臉部分析,可進一步設計客製化的彩妝App,針對每個人不同的臉型,提供最佳的化妝建議。

深度學習快速崛起,促使人工智慧再進化

由上述應用可見,深度學習帶動的人工智慧復興,確實在許多應用上帶來更多創新的可能性。不過深度學習技術畢竟發展才不過幾年,其潛力有多大,其所能帶動的人工智慧復興,會掀起多大的浪潮尚無人得知。

然而,正如Google執行長Sundar Pichai所言:「未來不再是行動優先,而是AI優先。」的確,整個世界已經從行動世代,往人工智慧世代移動了。

相關報導請參考「富士通AI前進企業」

熱門新聞

Advertisement