當iPhone 4S發表時,世人所知道最重要的事情,並不是它硬體規格的大幅提升、也不是外觀上有什麼更新潮的設計,其中最引人注目的東西,就是一個叫做Siri的軟體。

在iPhone 4S剛發表的時候,我可以感受到身邊朋友對於iPhone 4S的失望(尤其是Apple發表的並非iPhone 5時)──「什麼?只有這個叫做Siri的玩意?不過就只是能夠接受語音、進行辨識、然後對iPhone做控制的軟體嘛!」甚至,還有不少人把Siri當玩具來看待,把它當做是個能吐出新奇對話的互動軟體。

不過,隨著人們開始使用Siri,才逐漸發現Siri的強大之處。

語音辨識技術的難度
首先,其實就技術上來說,光是語音辨識技術就是一個難度頗高的技術。我曾用過Google在Android上的搜尋引擎及Google Maps上的地點搜尋功能,它們都支援中文語音辨識,其準確度之高,著實讓我感到驚訝。

從大方向來說,在手持裝置或像車用裝置上引入語音辨識技術絕對是必然的。

因為這類型的裝置,無論是使用情境或裝置本身的特性,都不像在桌上型電腦上或筆記型電腦上適合輸入文字。倘若能夠透過語音準確的輸入,的確可以大幅提高便利性。

Google的搜尋引擎,以及Google Maps的地點或地址搜尋,相較而言,是比較簡單的語音辨識問題,因為它並不涉及「語意」的理解,只需要準確分析出字詞即可。不過,以中文語音辨識來說,軟體從語音上能夠分辨字的「音」,有著相同發音的字卻有許多,要如何解決這個問題呢?

我的看法是,這恰好和Google的本行──搜尋引擎相關。

怎麼說呢?Google因為搜尋引擎的關係累積了大量的語料(例如,使用者所下的關鍵字為何、每個關鍵字被查詢的次數有多少、每個關鍵字符合的網頁數量、等等),這使得軟體在處理一連串的字音時,得以更容易畫分出字詞的邊界(也就是斷詞),同時可以知道究竟在一個中文詞中,每個字音對應的字究竟應該是那一個。這可以說是一個超級優勢,因為,Google基於搜尋引擎所累積的語料是十分可觀的。

因為計算和巨量的語料都可以在雲端處理的關係,所以這種計算模式很適合行動裝置運用。手機只需要利用麥克風接受聲音,分析聲音的特徵(feature),接著就把特徵資訊丟到雲端上,讓雲端上的服務接手後續的辨識工作。在手機上,並不會耗費太多的計算量,也不需要儲存大量的語料庫。

用語音來做搜尋,大大簡化了你控制行動裝置的方式,而且真的很方便。

令人聯想到智慧型代理人的應用
當Siri推出之後,更把人類對行動裝置的控制,從語音輸入更大幅的往前邁向一大步。雖然Siri剛問世時,也被誤解成只是個語音控制的軟體,不過,隨著對它的了解增加,也讓人回想起,Siri分明就是十年前曾經一度十分熱門「智慧型代理人(Intelligent Agent)」。

為什麼Siri不單只是個語音控制的軟體呢?因為Siri會嘗試著了解「她(對,Siri是位女性)」所對應的那位專屬使用者的個人偏好,而且會從過去互動及對話的經驗,不斷修正她對使用者偏好的了解。她也會從使用者在手機上留下的記錄及設定,例如個人資料、通訊聯絡簿以及行事曆的內容,藉以做為理解使用者「語意」的情境,並且據以做出使用者意圖完成的動作。

做為一名使用者,你或許不需要過多的描述,但是因為軟體本身能夠基於你過去的偏好及背景資訊,而協助你完成或許一連串或複雜的動作,這正是過去研究者嘗試發展智慧型代理人的原因。

一般來說,智慧型代理人具備幾個特性,包括:自主性、社會性、適應性、而且能是個人化、目標導向的。

自主性,意謂著他能夠在人類不介入的情況下,自主地基於他所知的資訊,包括人類使用者的偏好、目前所處的環境、所收到來自於人類的控制命令,自行進行具有智能的決策,而採取一連串的行動,來達成人類使用者所交付的工作及目標。

而社會性則是指智慧型代理人之間可以相互溝通甚至協調,以便從多個智慧型代理人之間可能相互衝突的目標中,找出一個折衝的方案。

至於適應性,則是指智慧型代理人能夠因應環境的變化,而調整執行工作的方式及決策。有一些軟體代理人,甚至可以從某個執行環境(例如某一部主機)移動到另一個執行環境去執行,這類的軟體代理人就稱為「行動式代理人(Mobile Agent)」。

智慧型代理人的應用情境
以前我們常舉旅遊智慧型代理人的例子,來說明智慧型代理人的概念。例如,使用者想要安排一個為期一週的旅行,希望造訪一些指定的景點,然後預算也有一定的考量,接著就將他的期望告訴智慧型代理人。

智慧型代理人就可以依據他對使用者偏好的了解,還有輸入的限制條件,幫使用者決定交通方式,像是飛機、巴士(包括那一家航空公司、客運公司)、旅遊路線,甚至也可以幫使用者訂好合適的旅館、餐廳。

在我們的期望中,還希望智慧型代理人可以幫使用者安排一些娛樂活動,像是欣賞歌劇等。這個例子雖然簡單,卻也點出了智慧型代理人的特性及能發揮的作用。

在過去,針對智慧型代理人有非常多研究上的努力。要達成上例中的目標也絕非簡單的事情。而在Siri上面,我們看到了一個初步的成功普及化實現,而Siri的成功,背後也是倚靠相當多在電腦科學的理論及技術研究,才有辦法做到。

Siri的問世,象徵軟體、尤其是行動裝置上的軟體開發,又來到了一個新的里程碑。而在未來,基於智慧型代理人的應用軟體,也勢必成為一個重要的發展方向。

Siri所提供的人機互動介面簡單直覺,但背後需要的理論及技術卻是十分的高深。可以想見,Siri在近期內意味著一個不容易突破的技術障礙,如果,除了Apple以外的手機製造商或手機軟體開發商,想要仿照Siri的模式,提供類似的功能及操作介面,就必須先跨過這個技術門檻才行,而這並不是一件簡單的事情。

未來發展相當可觀
在臺灣,我們有一流的硬體製造商,但從目前手持式裝置的發展趨勢來看,藏在雲端之上與設備做整體搭配的軟體架構及服務,其重要性不在成本低、效能好的硬體之下。Siri雖然只是個起步,但也十足展現它在未來改造世界的潛力。人們和電腦互動的介面及模式,都能因此呈現出全新的面貌,而背後也暗藏著難以估計的商業價值。

相關的電腦科學理論及技術需要長時間的研究及投入,才能夠有所成果。我們若身為iOS上應用軟體的開發,當然也可以做為附庸,期待Apple有朝一日釋出Siri的整合介面及開發工具,讓我們基於iOS所開發的應用程式,得以和Siri整合,成為Siri所能控制或控制Siri的一環。但是,對於有志與Apple一較高下的臺灣公司而言,對於相關或其他的軟體技術,此時開始佈局,猶未晚矣。

 

專欄作者

熱門新聞

Advertisement