Siri與智慧型代理人技術大眾化

當iPhone 4S發表時，世人所知道最重要的事情，並不是它硬體規格的大幅提升、也不是外觀上有什麼更新潮的設計，其中最引人注目的東西，就是一個叫做Siri的軟體。

在iPhone 4S剛發表的時候，我可以感受到身邊朋友對於iPhone 4S的失望（尤其是Apple發表的並非iPhone 5時）──「什麼？只有這個叫做Siri的玩意？不過就只是能夠接受語音、進行辨識、然後對iPhone做控制的軟體嘛！」甚至，還有不少人把Siri當玩具來看待，把它當做是個能吐出新奇對話的互動軟體。

不過，隨著人們開始使用Siri，才逐漸發現Siri的強大之處。

語音辨識技術的難度
首先，其實就技術上來說，光是語音辨識技術就是一個難度頗高的技術。我曾用過Google在Android上的搜尋引擎及Google Maps上的地點搜尋功能，它們都支援中文語音辨識，其準確度之高，著實讓我感到驚訝。

從大方向來說，在手持裝置或像車用裝置上引入語音辨識技術絕對是必然的。

因為這類型的裝置，無論是使用情境或裝置本身的特性，都不像在桌上型電腦上或筆記型電腦上適合輸入文字。倘若能夠透過語音準確的輸入，的確可以大幅提高便利性。

Google的搜尋引擎，以及Google Maps的地點或地址搜尋，相較而言，是比較簡單的語音辨識問題，因為它並不涉及「語意」的理解，只需要準確分析出字詞即可。不過，以中文語音辨識來說，軟體從語音上能夠分辨字的「音」，有著相同發音的字卻有許多，要如何解決這個問題呢？

我的看法是，這恰好和Google的本行──搜尋引擎相關。

怎麼說呢？Google因為搜尋引擎的關係累積了大量的語料（例如，使用者所下的關鍵字為何、每個關鍵字被查詢的次數有多少、每個關鍵字符合的網頁數量、等等），這使得軟體在處理一連串的字音時，得以更容易畫分出字詞的邊界（也就是斷詞），同時可以知道究竟在一個中文詞中，每個字音對應的字究竟應該是那一個。這可以說是一個超級優勢，因為，Google基於搜尋引擎所累積的語料是十分可觀的。

因為計算和巨量的語料都可以在雲端處理的關係，所以這種計算模式很適合行動裝置運用。手機只需要利用麥克風接受聲音，分析聲音的特徵（feature），接著就把特徵資訊丟到雲端上，讓雲端上的服務接手後續的辨識工作。在手機上，並不會耗費太多的計算量，也不需要儲存大量的語料庫。

用語音來做搜尋，大大簡化了你控制行動裝置的方式，而且真的很方便。

令人聯想到智慧型代理人的應用
當Siri推出之後，更把人類對行動裝置的控制，從語音輸入更大幅的往前邁向一大步。雖然Siri剛問世時，也被誤解成只是個語音控制的軟體，不過，隨著對它的了解增加，也讓人回想起，Siri分明就是十年前曾經一度十分熱門「智慧型代理人（Intelligent Agent）」。

為什麼Siri不單只是個語音控制的軟體呢？因為Siri會嘗試著了解「她（對，Siri是位女性）」所對應的那位專屬使用者的個人偏好，而且會從過去互動及對話的經驗，不斷修正她對使用者偏好的了解。她也會從使用者在手機上留下的記錄及設定，例如個人資料、通訊聯絡簿以及行事曆的內容，藉以做為理解使用者「語意」的情境，並且據以做出使用者意圖完成的動作。

做為一名使用者，你或許不需要過多的描述，但是因為軟體本身能夠基於你過去的偏好及背景資訊，而協助你完成或許一連串或複雜的動作，這正是過去研究者嘗試發展智慧型代理人的原因。

一般來說，智慧型代理人具備幾個特性，包括：自主性、社會性、適應性、而且能是個人化、目標導向的。

自主性，意謂著他能夠在人類不介入的情況下，自主地基於他所知的資訊，包括人類使用者的偏好、目前所處的環境、所收到來自於人類的控制命令，自行進行具有智能的決策，而採取一連串的行動，來達成人類使用者所交付的工作及目標。

而社會性則是指智慧型代理人之間可以相互溝通甚至協調，以便從多個智慧型代理人之間可能相互衝突的目標中，找出一個折衝的方案。

至於適應性，則是指智慧型代理人能夠因應環境的變化，而調整執行工作的方式及決策。有一些軟體代理人，甚至可以從某個執行環境（例如某一部主機）移動到另一個執行環境去執行，這類的軟體代理人就稱為「行動式代理人（Mobile Agent）」。

智慧型代理人的應用情境
以前我們常舉旅遊智慧型代理人的例子，來說明智慧型代理人的概念。例如，使用者想要安排一個為期一週的旅行，希望造訪一些指定的景點，然後預算也有一定的考量，接著就將他的期望告訴智慧型代理人。

智慧型代理人就可以依據他對使用者偏好的了解，還有輸入的限制條件，幫使用者決定交通方式，像是飛機、巴士（包括那一家航空公司、客運公司）、旅遊路線，甚至也可以幫使用者訂好合適的旅館、餐廳。

在我們的期望中，還希望智慧型代理人可以幫使用者安排一些娛樂活動，像是欣賞歌劇等。這個例子雖然簡單，卻也點出了智慧型代理人的特性及能發揮的作用。

在過去，針對智慧型代理人有非常多研究上的努力。要達成上例中的目標也絕非簡單的事情。而在Siri上面，我們看到了一個初步的成功普及化實現，而Siri的成功，背後也是倚靠相當多在電腦科學的理論及技術研究，才有辦法做到。

Siri的問世，象徵軟體、尤其是行動裝置上的軟體開發，又來到了一個新的里程碑。而在未來，基於智慧型代理人的應用軟體，也勢必成為一個重要的發展方向。

Siri所提供的人機互動介面簡單直覺，但背後需要的理論及技術卻是十分的高深。可以想見，Siri在近期內意味著一個不容易突破的技術障礙，如果，除了Apple以外的手機製造商或手機軟體開發商，想要仿照Siri的模式，提供類似的功能及操作介面，就必須先跨過這個技術門檻才行，而這並不是一件簡單的事情。

未來發展相當可觀
在臺灣，我們有一流的硬體製造商，但從目前手持式裝置的發展趨勢來看，藏在雲端之上與設備做整體搭配的軟體架構及服務，其重要性不在成本低、效能好的硬體之下。Siri雖然只是個起步，但也十足展現它在未來改造世界的潛力。人們和電腦互動的介面及模式，都能因此呈現出全新的面貌，而背後也暗藏著難以估計的商業價值。

相關的電腦科學理論及技術需要長時間的研究及投入，才能夠有所成果。我們若身為iOS上應用軟體的開發，當然也可以做為附庸，期待Apple有朝一日釋出Siri的整合介面及開發工具，讓我們基於iOS所開發的應用程式，得以和Siri整合，成為Siri所能控制或控制Siri的一環。但是，對於有志與Apple一較高下的臺灣公司而言，對於相關或其他的軟體技術，此時開始佈局，猶未晚矣。

Siri與智慧型代理人技術大眾化

專欄作者

熱門新聞