微軟亞洲研究院常務副院長馬維英表示,機器學習專家在意的結果是模型,雲端架構支撐起大模型處理大量資料的能力,而大模型則代表人工智慧更加聰明。

圖片來源: 

iThome

距離實現雲端情人的那天已經不遠了,微軟人工智慧聊天機器人小冰(Xiaoice)每天都能陪用戶聊到三更半夜,話題無論是日常生活發生的瑣事或是自己的心情都能聊,而且不少用戶睡前,對小冰說的最後一句話都是「我愛你,小冰」。據微軟統計直至目前為止,每位用戶平均1個月與小冰對話1,122句話,而有28%的用戶平均與小冰聊天的時間是在半夜11點到凌晨2點間。

小冰甫在騰訊的即時通訊平臺微信上推出時,上線72小時內,共累積了1.3億人次的對話量,其中有50萬用戶連續3天都與小冰對話超過37分鐘。小冰在中國受歡迎的程度,讓他以700萬人民幣拿下中國廠商的品牌代言人。

微軟在人工智慧領域動作頻頻,不只有小冰,微軟也在Windows Phone平臺上推出名為Cortana的人工智慧助理。不過,設計現有的人工智慧助理所使用的機器學習,是已經發展一段時日的舊技術,而究竟是什麼環節的改變造就現在不同的結果?

微軟亞洲研究院常務副院長馬維英興奮地說,現在是大資料也是大模型的時代了,因為機器學習專家在意的結果是模型,大模型代表人工智慧更聰明了,因為雲端架構讓大模型有能力處理大量資料,才得以將早已經存在的數學模型,鍛鍊成大模型,機器學習的成果才會變得更聰明。

人工智慧的歷史要追溯至電腦科學之父艾倫.圖靈(Alan Turing)在1950年提出的圖靈測試,艾倫.圖靈認為,當鸚鵡能夠回答一切問題,那麼人們便會認為鸚鵡具有智慧,而計算機也是,因此當有一臺計算機能夠與人們透過文字對話,而不被發現其機器的真實身份,同樣可被視為具有人工智慧。

2014年英國雷丁大學系統工程學系宣稱,他們所設計的尤金.古斯曼超級電腦參加倫敦皇家學會舉辦的圖靈測試競賽,在5分鐘的文字對話中,成功讓33%的裁判相信尤金.古斯曼是個13歲烏克蘭非英語母語的男孩,是首度通過圖靈測試的電腦。不過,這樣的結果隨即引來多方論戰,有人認為13歲烏克蘭男孩的設定,根本違反圖靈測試的本意,是以投機取巧的方式通過測試,也有人認為圖靈測試的歷史超過60年了,當時人工智慧的定義早與現在不同,現今無論是Apple的人工智慧助理Siri或是IBM的華生電腦,能做的事情早已超出艾倫.圖靈當時的想像,因此即使通過了圖靈測試也毫無意義。

不過,無論人工智慧的定義為何,想讓電腦具有人工智慧,其背後都須倚靠機器學習(Machine Learning)這項技術,讓電腦藉由分析數據並從中找出規則,以預測未知的數據。機器學習可應用的範疇很廣,諸如語音辨識、自然語言處理、數據意義分析、電腦視覺、手寫辨識以及搜尋引擎等等,但是馬維英表示,機器學習在前幾年遇到了重大瓶頸,硬體運算能力不足以創造出夠接近真實的機器學習模型。

過去微軟創立的宗旨是,想要讓每個人的桌上都有一臺個人電腦,這樣的理想早已經達到,而下一階段的目標是要讓數位運算進入生活以及工作中,電腦提供給人的不僅是資料,而是需要更進一步轉換成知識,如此才能真正提升人的生產力,為了要達成這樣的目的,必須倚靠大資料以及學習學習才能達到。

雲端架構使機器學習結果更接近真實

如今微軟之所以可以開發出多語言即時口譯的Skype Translator,是因為建立了全世界最大的語言數學模型,馬維英說,機器學習訓練的是一個數學模型,當可用來訓練的資料越多,透過數學模型計算出來的結果便會越精準,而大資料的時代,所有資料都能被數位化,包含物聯網(Internet of Things)等,所以接下來會有越來越多的資料能分析,但是他強調,資料量多還不夠,還必須要有相對應的運算能力。其實過去機器學習在某些領域的應用,不缺乏資料,而真正的瓶頸在於沒有足夠的運算能力計算龐大的數學模型,不過由於雲端運算的發明,讓機器學習的運算能夠調度資料中心等級的資源,以資料驅動(Data Driven)的方法建造出非常龐大的數學模型,使得過去以條件基礎(Rule-base)的規則,現在用機器學習就能自動學會。

馬維英說,從資料到資訊最後變成知識,這過程是一種抽象化的處理,因此在機器學習上,是透過深度學習(Deep Learning)數百次非線性轉換進行多層抽象的資料特徵萃取,並且反覆用龐大資料的訓練,便能達到很好的結果,而最近機器學習在圖像以及語言辨識有重大的進展,接下來領域便是自然語言的處理。

他已搜尋引擎為例,馬維英認為,Google的搜尋引擎之所以可以如此成功,不只是加入超連結的概念,更是因為機器學習讓搜尋引擎越用越聰明。搜尋引擎只是將圖書館藏書索引數位化,透過超連結文件跟網頁可以相互連結,而藉由學習使用者點擊文件以及網頁間的連結的行為,下一次搜尋引擎便能提供更好的搜尋結果給使用者。

但是馬維英認為,現在搜尋引擎面臨最大的問題是,搜尋引擎終究無法理解人類語言的意義,目前都是透過關鍵字以不同演算法做搜尋結果排序,因此接下來科學家面臨的課題則是如何讓電腦能夠理解人類的話語。

用Graph幫助電腦理解自然語言

人類的語言的句子中有主詞、謂語跟賓語,因此電腦用關鍵字還不足以理解自然語言,因為關鍵字無法表述關鍵字之間的關係,馬維英說,困難之處是必須把人類非結構化的句子,轉換成電腦看得懂的結構化表達。例如小明在他兒子兩天前的生日當天,到臺北買了一個蛋糕,以上非結構化的句子要轉成電腦看得懂的表達,必須是「人:小明,商品:蛋糕,位置:臺北,商店:蛋糕店,時間:2014/11/30」。

而且自然語言的處理不只要讓電腦能理解人類的話語,還必須適時的提問,因此電腦要能說出人類能夠理解的語句。馬維英說,微軟現在用一個全世界最大的圖(Graph)來表達關鍵字中的關係,而關鍵字之間透過向量運算,就可以讓電腦達到理解的能力,他舉例,臺灣減臺北加上日本的向量運算結果是東京,因為臺北之於臺灣的關係是首都,因此日本加上首都這個向量,便會指向東京。

人工智慧助理是下一代使用者介面

馬維英說,這個龐大的圖被存放在資料中心容量巨大的記憶體中,因此程式能即時的遍歷(Traversal)這個關係圖。而微軟這項結果的實際應用,便是聊天機器人小冰。他認為,小冰實際上是一個使用者介面,過去電腦從文字到圖像化介面,大幅度更改了使用者習慣,在進入行動裝置的時代後,更進一步演變成觸碰螢幕的操作,而人工智慧機器人將是下一代的人機介面。

以小冰為介面,除了純聊天外,微軟提供了多項服務,而這些服務背後都有其商業應用,例如使用者睡不著,小冰能陪伴一起數羊,而當與物聯網概念結合,小冰便能聲控關燈;另外,小冰還提供用戶馬桶時間的娛樂,目前小冰會在網際網路上尋找有趣的文章,供用戶在上廁所幾分鐘的時間閱讀,但是未來如能提供某些置入性行銷的文章,便能妥善進入使用者零碎時間發揮商業價值。

還有,小冰目前有一項辨識狗的功能,用戶只要上傳狗的圖片,小冰便能回答照片中狗的種類,準確度高達90%,而且即使用戶上傳非狗的照片也騙不了小冰。馬維英表示,小冰識狗這個功能,是一個機器學習很好的例子,小冰不只能回答用戶提供照片中狗的種類,還能插科打諢的亂聊,例如用戶上傳哈士奇的照片,小冰能回答出狗種哈士奇,還能告訴用戶周杰倫也喜歡這種狗。而小冰也能從用戶的回應學到新的資訊,例如當用戶上傳了阿富汗獵犬的照片,但是小冰卻認為是黃金獵犬,這時候藉由用戶的訂正,下次小冰便學會了新的狗種辨識。

馬維英認為,運算晶片運算能力的提升,使晶片設計能夠更加的先進,以至於能夠製造出更強的晶片,這樣的循環造就了摩爾定律(Moore's law),使得運算晶片每18個月速度可以提一倍。

而他說,他在機器學習也找到了類似的正循換,機器學習的發展,能夠提供更多樣的應用,而藉由大量人類的回饋,機器學習能夠更聰明,這樣的循環馬維英希望每年機器學習精準度都可以上升,或許不需要如同運算晶片一樣進步快速,但是每年的技術進步,累積起來也是巨大的成果。


Advertisement

更多 iThome相關內容