谷歌工程總監人工智慧趨勢大預測

iThome

人工智慧無所不在，發展趨勢再也不受我們掌控。透過簡訊、電郵或手機跟人聯繫這種簡單行為，就是利用智慧演算法來發送資訊。現在，我們接觸到的每一種產品，幾乎都是由人腦和人工智慧共同設計，再經由工廠自動生產出來。如果明天所有人工智慧系統都決定要罷工，文明社會就會陷入癱瘓：我們不能從銀行領錢，存款可能化為烏有，通訊、交通和製造也全部停擺。幸好，我們的智慧機器還沒聰明到能策劃這種陰謀。

現在，人工智慧的最新發展就是，這項技術已公開的應用實例都讓眾人大開眼界。舉例來說，Google的無人駕駛車（截至我撰寫本書時，這種車在城鄉的行駛哩程已超過20萬英哩），這項技術可以大幅減少車禍事故、提高道路流量、降低人們在開車時的操作複雜性，還有其他許多好處。雖然無人駕駛車可能到本世紀末才會在世界各地廣泛使用，但只要遵守某些規定，無人駕駛車已經可以在內華達州的公共道路上合法行駛。這些車已經裝設自動觀察路況，以及提醒司機注意危險的功能。這項技術有一部分是以麻省理工學院湯馬索．波吉歐（TomasoPoggio）教授成功研發的大腦視覺處理模型為基礎。

口語是我們人類使用到的第一種技術，書面語是第二種。我自己在人工智慧領域的研究一直偏重語言這方面，畢竟，精通語言就等於握有極具影響力的能力。IBM開發的超級電腦華生已經閱讀過幾億網頁，並掌握這些文件中包含的知識。到最後，機器將能掌握網路上的所有知識，也就是我們的人機文明（human-machine civilization）的全部知識。

人工智慧的尖端領域：在能力上逐步提升

英國數學家艾倫．圖靈（Alan Turing, 1912-1954）曾設計一種圖靈測試（Turing test），以測試電腦以文字訊息進行自然語言交談的能力。圖靈認為語言包含並呈現人類的所有智慧，任何機器都無法只運用簡單的語言技巧就通過圖靈測試。雖然圖靈測試只牽涉到書面語，但是圖靈堅信，電腦通過這項測試的唯一方法就是：擁有相當於人類的智慧。評論家指出，對人類智慧水準的真正測試應當包括對視覺和聽覺資訊的掌控能力。由於我自己從事的人工智慧專案中，很多都牽涉到教導電腦掌握像是人類語言、字母形狀和音樂聲音等感官資訊，因此別人當然認為我會贊同在名符其實的智慧測試中加入這些資訊形式。不過，我也贊同圖靈最初的看法，其實只進行文本資訊的測試就足夠了。事實上，在測試中增加視覺輸入或聽覺輸入，並不會增加通過該測試的難度。

就算我們不是人工智慧專家，也會對超級電腦華生在《危險境地！》中的表現大感驚訝。雖然我知道華生內部一些關鍵子系統所使用的方法，但這並不會影響我觀看它（他？）作答時的情緒反應。即使完全了解華生所有元件系統如何運作──其實沒有人能做到這一點──也無法協助你預測華生在某種情境下會如何反應。因為這部超級電腦包含了幾百個互相影響的子系統，每個子系統又要同時處理幾百萬個可能的假設，所以我們不可能預測華生的實際反應。如果要在事後針對華生的思考過程做一次詳盡的分析，那麼光是華生回答一個3秒鐘問題的思考過程，就會讓人類花掉幾百年的時間。

繼續講我在人工智慧方面的研究經歷。1980年代末期和1990年代，我們開始研究某些領域對自然語言的理解。我們開發出一種名為「庫茲威爾聲音」（Kurzweil Voice）的產品，你可以對著它講任何你想講的話，只要是跟編輯文件檔案有關即可。（舉例來說：「將前一頁第三段移到這裏。」）在這個有限卻實用的領域中，庫茲威爾聲音運作得相當好。我們還設計出具備醫療領域知識的系統，醫生可以將病患的報告口述給系統聽。這類系統對於放射學和病理學等領域有足夠的知識，如果報告有不清楚之處，系統就會向醫生提出疑問，並在報告過程中引導醫生。這些醫療報告系統已經發展成為Nuance公司價值十億美元的業務。

了解自然語言已經成為主流，尤其是在自動語音辨識方面的應用。在我撰寫這本書時，iPhone 4S上自動個人助理Siri已造成轟動。你可以交代Siri做任何智慧型手機可以做到的事（譬如「附近哪裏可以吃到印度食物」，或者「發簡訊給我老婆，說我正在路上」）。而且，大多數情況下Siri都會回答。Siri還會講出一些沒有意義的閒聊來娛樂發問者。如果你問它生活的意義為何，它會回答「42」，因為電影《星際大奇航》（The Hitchhiker's Guide to the Galaxy）的粉絲知道，42就是「生命、宇宙和一切終極問題的答案」。「聊天機器人」（chatbots）已經成為一個研究領域，它們什麼事都不做只是閒聊。如果你想要跟我們研發、名為拉蒙娜（Ramona）的聊天機器人聊天，請造訪我們的網站KurzweilAI.net，並點擊「Chat with Ramona（跟拉蒙娜聊天）」。

如今，普羅大眾跟掌上電腦以自然語言交談，為一個嶄新的時代揭開序幕。人們往往會因為第一代技術有所侷限，就忽略這種技術的重要性。就算多年後這項技術確實運作良好，人們還是不會予以好評，因為這項技術已經不新了。但是看起來，Siri的第一代就表現驚人，而且這類產品顯然只會愈來愈夯。

如何設計人工智慧系統？

1984年時，道格拉斯．萊納特（Douglas Lenat, 1950-）以雄心壯志推動循環（Cyc, 代表enCYClopedic）專案，致力於設計出能將日常「常識性」知識編碼的規則。這些規則以一個龐大的層級結構加以編排，每條規則本身又包含一個線性狀態序列。舉例來說：一條循環規則可能表示狗有一張臉。然後，這個循環系統就連結跟臉型結構相關的一般規則：臉有兩隻眼睛、一個鼻子、一張嘴等等。我們不必為狗的臉設計一套規則，再為貓的臉設計另一套規則，雖然我們可能會想新增一些規則來區別狗的臉和貓的臉。這個系統還包括一個推論引擎：如果有規則陳述獵犬是一種狗，狗是一種動物，動物要吃食物，而我們打算問推論引擎獵犬吃不吃東西，系統就會提出肯定的回答：獵犬要吃東西。在未來二十年內，將會集結數千人投注心力，將有幾百萬條這類規則被撰寫與測試。

在此同時，持反對意見的學派認為，想要理解自然語言或是設計一般的智慧系統，最佳做法就是讓系統處理想要掌握的大量現象實例，讓系統從中自動學習。Google翻譯（Google Translate）就是這類系統的一個重要例子，Google翻譯可以在五十種語言之間互譯。那就等於2,500種不同的翻譯組合，儘管Google翻譯無法將大多數語言直接互譯，但它會將來源語先譯成英語，再翻譯為目的語。因此，Google需要的翻譯器就減少到98個（外加少數不透過英文、直接互譯的翻譯器）。Google翻譯器並不使用語法規則，而是依據語言軟體「羅塞塔石」（Rosetta stone）這種大型語言庫中兩種語言間的翻譯文件，為每組來源語和目的語的普通互譯建構龐大資料庫。針對聯合國的六種官方語言，Google已使用聯合國的文件資料，因為聯合國就是以這六種語言出版資料。至於較不常用的語言，Google就使用其他資源。

Google翻譯的結果常讓人驚訝。美國國防部先進研究計畫署每年都會舉辦競賽，選出不同語言間的最佳自動語言翻譯系統，Google翻譯經常在某些語言翻譯競賽中勝出，打敗那些以語言學家直接設計語言規則的翻譯系統。

我並不打算更正我的預測──電腦在2029年能通過圖靈測試──但是華生這類系統目前的進展，應該能讓世人相信，圖靈等級的人工智慧不久就會出現。──Google工程總監　Ray Kurzweil（圖片來源／Ray Kurzweil）

IBM華生如何在複雜的語言遊戲比賽打敗人類冠軍

IBM結合幾個頂尖的自然語言程式，設計出一個能參加《危險境地！》比賽的系統。2011年2月14日到16日，華生跟該節目兩位冠軍參賽者同場較勁──布拉德．拉特（Brad Rutter）在這個益智競賽節目中贏得最多獎金；肯．詹尼斯（Ken Jennings）則是打破紀錄，連續七十五天穩坐冠軍寶座。

順便一提，我在1980年代中期撰寫第一本著作《智慧型機器時代》時，就在書中預測電腦會於1998年成為西洋棋冠軍。我還預測屆時我們可能不像以前那樣認為人類智慧有多麼了不起，並開始對機器智慧刮目相看；不然我們就是開始認為西洋棋不像以前那般重要。如果歷史是一位嚮導，那麼我們會看到西洋棋的地位不復重要。後來，我的預測全都應驗了，這些事在1997年都發生了。當IBM設計的超級電腦「深藍」（Deep Blue）打敗西洋棋王蓋瑞．卡斯帕洛夫（Garry Kasparov）時，我們馬上面對這樣的爭辨：電腦在西洋棋賽中會贏是意料中的事，因為電腦是有邏輯的機器，而西洋棋本來就是邏輯遊戲。因此，深藍的勝利就被人們當成既不令人驚訝，也不那麼重要。許多評論家繼續爭辨，認為電腦絕不可能掌握人類語言的細微差別，包括隱喻、明喻、俏皮話、雙關語和幽默。

這是華生的勝利具有劃時代意義的一個原因；《危險境地！》就是一個相當複雜，極具挑戰性的語言遊戲。通常，這節目中的提問包括人類語言千奇百怪的不同說法。許多觀察家可能沒有發現，華生不僅正確回答那些出乎意料、複雜難懂的提問，更驚人的是，華生使用的大部分知識都不是由人工編碼。華生閱讀過二億頁自然語言文件並從中獲取知識，包括維基百科和其他百科全書的資料，總計有4兆位元組（4TB）的語言知識。如同本書讀者所知，維基百科不是用LISP或CycL等程式語言撰寫的，而是以包含歧義和語言本身複雜邏輯的自然語言撰寫。華生在回答一個問題時，必須參考這4TB的資料再作答（我發現《危險境地！》的作答過程，其實是在尋找問題，但這只是一個技術性的工作，其實答案本來就是問題）。如果華生能在三秒內依據二億頁知識來了解問題並作答，那麼類似的系統也能在網路上讀取幾十億網頁資料。事實上，這方面的努力已在進行中。

1970年代到1990年代，我們在研發字元和語言辨識系統及早期的理解自然語言系統時，就用到結合「專家經理」（expert manager）的一種方法論。我們開發幾個系統，每個系統運用不同方法解決同一個問題。系統之間會有些許的差異，比方說：只有控制學習演算法之數學方法的參數不同而已。不過，有些差異比較重要，譬如使用以規則為主的系統代替以層級統計學習為主的系統。「專家經理」本身是一種軟體程式，透過檢視模擬現實世界的績效，了解這些不同系統的優缺點。專家系統的理論基礎是，這些系統的優點都呈現直角分布：即一個系統在某方面比其他系統更為優異。實際上，利用「專家經理」軟體負責訓練並設計出組合系統後，整體績效遠比個別系統的績效要好很多。

華生的運作方式也是如此。利用非結構化資訊管理架構（Unstructured Information Management Architecture, 後稱UIMA），華生運用了幾百個不同的系統，其中有許多個別語言元件跟市面上的理解自然語言系統是一樣的，這些系統設法直接對《危險境地！》的提問作答，不然至少要解釋提問中某些語意不明的歧義。基本上，UIMA就扮演「專家經理」的角色，運用人工智慧將不同系統的運算結果巧妙整合。UIMA遠遠超越早期開發的系統，譬如Nuance的前身研發出的系統，因為就算本身個別系統沒有提供最終答案，還是能對最終結果做出貢獻，畢竟，如果子系統能協助縮小解答的範圍，這樣也就足夠了。另外，UIMA能計算出最終答案的答對機率。人腦也能這樣做，在被問到自己母親的姓氏時，我們就會自信滿滿地回答，但是被問到一年前偶遇某人的姓氏時，我們回答時就沒那麼有把握。

因此，IBM的科學家們並不打算找到一個理解《危險境地！》固有語言問題的簡潔方法，他們反而把能取得的所有先進語言理解模組加以結合。UIMA根據每個系統實際使用過程中的成效，以最適化的方式將不同系統加以整合。但是，輿論對華生系統有一些誤解，認為IBM創造華生系統的專家們過度關注UIMA，意即IBM設計的專家經理軟體。因此，有些觀察家認為華生系統並沒有真正理解語言，因為我們很難知道這種理解發生在系統的哪個部分。雖然UIMA架構也會從本身的經驗學習，但華生對語言的理解無法單獨在UIMA找到，而是分散在系統眾多構成部分中。

在決定應該在《危險境地！》中以哪個答案作答時，超級電腦華生的某個特定部分的技術會使用UIMA估計答案的信心水準。雖然華生系統是特別設計用來參與這種益智問答，但其核心的語言及知識搜尋技術，只要經過一些修改，就能用於完成其他工作。或許有人認為，分享較不常用的專業知識，例如醫學知識，要比參與《危險境地！》競賽所需的常識更難。但事實正好相反：跟常識相比，專業知識通常更有組織性、更結構化、語意也更明確，所以華生可以利用這些技術，輕而易舉地理解這些精準的自然語言。同前所述，目前IBM正在跟Nuance公司合作，改寫出醫學領域適用的華生系統。

華生參加《危險境地！》益智問答時的對話非常簡單：主持人提出一個問題，華生就尋找相應的一個答案。（從技術上來說，就是找出問題並作答。）在這種對話中，華生並不需要回顧以前所有對話內容（Siri系統則需回顧部分內容：如果你要求Siri發簡訊給你老婆，Siri第一次接到這種要求時，會要求你先確認你老婆是誰，之後程式就會記住，無需重複確認）。回顧對話中的所有資訊（這顯然是通過圖靈測試需要做到的事），是一項額外但卻重要的工作，但對於華生作答益智問題的難度來說，回顧對話並不算太難。畢竟，華生已經閱讀了幾億頁的資料，其中顯然包括許多故事，所以它能夠追蹤複雜的序列事件。因此，華生應該也有辦法回顧自己以往的對話，在後續回答問題時做為參考。

《危險境地！》這種益智問答節目的另一個侷限是，問題的答案都比較簡單。例如，節目不會提問，請競賽者指出《雙城記》（A Tale of Two Cities）的五個重要主題。某種程度上，華生可以找出討論這本小說主題的文件，只要適當地調整一下系統就有辦法作答。但是如果要它光靠著閱讀這本書就找到答案，而不是抄襲其他思考者的想法（書面文字或口語），那就不簡單了。以目前來說，要讓華生自己閱讀小說找出答案，顯然是一個高難度的工作，我認為這種工作就是跟圖靈測試程度相當的工作。（話說回來，要大多數人閱讀小說作答，通常也無法提出自己的原創觀點，而是參考同輩或意見領袖的想法。）畢竟現在是2012年，不是2029年，所以我不會期待電腦具有可以回答圖靈測試的智慧水準。而且我還要強調：要抓出小說中的重要主題並評估作答，本來就沒有一個正確答案。要是有人被問到《獨立宣言》（Declaration of Independence）由誰簽署這種問題，我們可以判斷對方給的答案對不對。但是對於掌握一件創意作品的主題這種高難度問題，我們無法輕易判斷答案正確與否。

值得注意的是，雖然華生的語言能力不及一個受教育者的語言能力，但它卻能順利打敗在《危險境地！》中表現最好的兩位參賽者。因為華生利用機器具備的高度精準回憶功能與記憶能力，將本身的語言能力和知識理解做結合。這就是為什麼我們要把個人、社會或歷史的記憶儲存在電腦系統的原因。

我並不打算更正我的預測──電腦在2029年能通過圖靈測試──但是華生這類系統目前的進展，應該能讓世人相信，圖靈等級的人工智慧不久就會出現。如果有人打算研發出專門用於圖靈測試的華生系統，那麼這個目標就會更快實現。

當觀察家批評華生只會對語言進行統計分析，無法像人類那樣真正理解語言時，這種說法實在既滑稽又可笑。人腦在處理各種假設時，也是依據統計推論（新皮質層級結構的每一層都是如此），進行層級統計分析。華生和人腦都是依據類似層級理解的做法來學習和做出反應的。從許多方面來看，華生具備的知識比個人具備的知識更全面。沒人敢說自己精通維基百科內的所有知識，而維基百科的知識只是華生知識庫的一部分。但是，人類目前可掌握的概念層級卻比華生來得多，只是這種差距日後當然會被超越。（摘錄整理自第七章）

人工智慧的未來（How to Create a Mind）

雷．庫茲威爾（Ray Kurzweil）／著

陳琇玲／譯

經濟新潮社出版

售價：500元

作者簡介

雷．庫茲威爾（Ray Kurzweil）

他是全球公認最頂尖的發明家、思想家和未來學家，擁有三十年神準預測的傲人記錄；現擔任Google的工程總監。

《華爾街日報》稱他為「永不滿足的天才」（restless genius），《富比士》雜誌說他是「終極的思考機器」（ultimate thinking machine）。

熱門新聞