深入淺出AI演算法

碁峰資訊

所謂的智慧是一個謎，這個概念至今仍然沒有一個統一的定義。一般來說，具備自主性與適應性的事物可視為具有智慧。自主性表示不需要持續的指令，而適應性則代表該事物會隨著環境或問題空間而改變行為。當我們在觀察生物或機器時，會發現運作的核心要素是資料。所見所聞皆為資料，對於周圍一切事物之測量也全都是資料。我們使用、處理並根據這些資料做出決定，因此，對周邊資料的概念有基本的了解，在理解人工智慧（AI）演算法上至關重要。

定義AI

在此粗略把AI定義為能夠表現出「智能」行為的綜合系統。與其試圖定義某種事物是否為AI，不如來談談它與AI的相似性。某些事物可能會表現出部分智能，因為它可以幫助我們解決難題並提供價值與效益。通常，模擬視覺、聽覺等自然感官的AI實作會被視為類AI。能夠在適應新資料與環境的同時自主學習的解也是類AI。

以下為具備AI性質的一些例子：

●可以玩多種複雜遊戲的系統。

●癌症腫瘤檢測系統。

●基於少量輸入資訊便可生成藝術作品的系統。

●自動駕駛汽車。

侯世達（Douglas Hofstadter）曾說：「所有未竟之事都是AI。」在上述舉例中，自動駕駛汽車因為還沒有被完善，所以看起來非常先進聰明。這和不久前能夠計算加法的電腦被認為非常聰明，現在卻被視為稀鬆平常是一樣的概念。

追根究柢，AI是一個模稜兩可的詞彙，對不同人、行業或學科來說都有著不同的意義。本書中的演算法從以前到現在都被歸類為AI演算法，是否能夠賦予AI一個明確的定義其實並不重要，重點是它們能夠用於解決難題。

認知到資料是AI演算法的核心

資料為執行近乎神蹟的美妙演算法提供了輸入資訊。如果資料選擇不當、代表性不足或缺失，演算法便無法正確運算，因此輸入資料的品質關乎到結果的好壞。這個世界充滿了各種資料，有些甚至以我們無法感知的形式存在。資料能夠以數值的方式呈現，像是北極當前的溫度、池塘中有幾條魚、或是以天數為單位的目前年齡。上述舉例皆涉及根據事實而獲取的準確數值，因此很難誤判。特定時間地點的溫度是絕對真實的，不會受到任何偏差的影響。這類資料被稱為定量資料。

資料也可以代表觀察值，例如花香或是某人對特定政治家政策的認同程度。這類資料被稱為定性資料，有時候不好解讀因為它不是絕對真實，而是某個人對真相的感知。

資料為事物的原始事實，因此記錄通常不存在偏見。然而事實上，資料是在特定脈絡與使用方式等前提下被人們蒐集、記錄與連結。基於資料而建立有意義的觀點以回答問題的行為稱為建立資訊。基於過往經驗來活用資訊，並且有意識地應用資訊則產生了知識。這便是我們嘗試要以AI演算法模擬出來的部分。

不同的人會根據各自對該領域的理解和對世界的看法對資料、訊息和知識做出不同的解釋，這無庸置疑地會影響到解的品質──因此使得科學觀點在創造各種科技時變得額外重要。藉由遵循可重複的科學過程來獲取資料、實驗並精準報告，我們便可以確保在使用演算法處理資料時，能得到更準確的結果與更優秀的解。

問題類型與解決問題範式

AI 演算法很強大，但也不是可以解決所有問題的靈丹妙藥。但話說回來，什麼是問題？本章將著眼於在電腦科學中常見的各種類型問題，帶領讀者如何對這些問題產生基本概念。這種基本概念可以幫助我們在現實世界中辨別出問題，並引導我們選擇正確的演算法。

您會看到幾個在電腦科學和人工智慧中用於描述問題的術語，再根據其脈絡與目標來分類問題。

搜尋問題：找到通往解的路

搜尋問題用於可能出現多個解之情況，每個可能性都代表一條通往目的地的步驟（路徑）。有些可能包含了路徑中重疊的子資料集，有些路徑比其他選擇更好，而有些是比其他方案便宜。「比較好」的解取決於手上有哪些具體的問題，而「便宜」的方案表示執行計算上的花費較小。以從地圖上找到城市與城市之間的最短路徑為例，路徑可以有很多條，每一條的距離跟路況都不一樣，但其中有些路徑確實比其他選擇好。許多AI演算法都是以找到解空間的概念為基礎。

最佳化問題：找到一個良好解

最佳化問題通常存在著大量的有效解，但卻很難找到最好的。最佳化問題經常有著多到數不清的可能性，而每一種可能性在解決問題的能力上都有所不同。一個很好的例子是，想辦法將後車箱的空間利用最大化，好塞進所有行李。當然，這樣的排列組合多不勝數，但如果堆疊的方式越得當，可以放進去的行李就越多。

區域最佳解vs全域最佳解

由於最佳化問題存在著許多解，又因為這些解存在於搜尋空間的不同點上，因此區域最佳解和全域最佳解的概念便登場。區域最佳解是搜尋空間中特定區域內的最佳解，而全域最佳解則是在整個搜尋空間中最好的解。通常會有很多個區域最佳解，但只會有一個全域最佳解。這個概念可以理解為找出最適合的餐廳。您在住家附近找到的最好餐廳，不見得會是全國或全世界最好的。

預測與分類問題：從資料模式中學習

預測問題代表我們有關於某件事情的資料並試圖找出模式。例如，我們可能有關於不同車輛的資料、引擎大小和油耗數據。我們可以單就引擎的大小來預測出新車款的油耗嗎？如果引擎大小與油耗資料之間存在著某種關聯，那麼就有可能。

分類問題跟預測問題很像，但並非試圖找出像是油耗這種準確的預測，而是根據某事物的特徵試圖找出它的分類。如果單就車輛尺寸、引擎大小和座位數量，我們是否能夠判斷該車輛是摩托車、轎車還是跑車呢？分類問題需要在資料中找出分類案例的模式。在尋找資料模式時，插補法是一個很重要的概念，因為我們是根據已知資料來估算新的資料點。

叢集問題：辨別資料中的模式

叢集問題需要從資料中發現趨勢和關係。可運用不同的方式搭配資料的各面向來將案例分組。例如，基於餐廳的成本與位置等資料，我們可能會發現年輕人傾向於光顧餐點較為便宜的地方。

叢集的目的是從資料中找出關聯性，即使尚未提出明確的問題。這個方法也能夠幫助我們理解資料的用途。

確定性模型：每次計算的結果皆相同

確定性模型是在提供特定輸入之下必定會得到相同結果的模型。例如，特定城市的中午時段一定會是白天；而如果是午夜時段，則必然會是黑夜。當然了，這個簡單的例子沒有考慮到地球兩極附近較為奇特的日照時間。

隨機／概率模型：每次計算的結果都可能不同

概率模型是在提供特定的輸入之下，從一組可能的結果中得到輸出的模型。概率模型通常具有可控的隨機性元素，有助於得到可能的結果。例如，假設時間為中午，天氣可能會是晴天、陰天或雨天，沒有固定的天氣。

新舊 Al

有時候我們會使用新舊AI這個概念。舊AI常見的定義是經由人類寫了程式而讓演算法表現出智慧行為的系統──通常透過對問題的深入理解或反覆試驗。舊AI的一個例子便是手動建立決策樹，以及整棵樹中的規則和選項。新AI旨在建立可以從資料中學習的演算法和模型，並建立出自己的規則，其效能可能跟人類建立的一樣準確，甚至更好。不同之處在於後者可能會在資料中找到人類可能永遠都無法察覺，或者需要更多的時間才能找到的重要模式。

搜尋演算法通常被視為舊AI，但對此演算法的深入了解，有助於學習更複雜的方法。（摘錄整理自《凡人也能懂的白話人工智慧演算法》第一章，碁峰資訊提供）

圖片來源_碁峰資訊

書名 凡人也能懂的白話人工智慧演算法（Grokking Artificial Intelligence Algorithms）

Rishal Hurbans／著；CAVEDU教育團隊曾吉弘／譯

碁峰資訊出版

定價：580元

圖片來源_Rishal Hurbans

作者簡介

Rishal Hurbans

自孩提時期，Rishal便已醉心於電腦、科技與各種瘋狂的點子。在他的職業生涯中，他帶領了許多專案團隊、軟體工程、策略規劃以及針對許多國際企業來設計端對端的解決方案。他也曾經在其公司、社群與產業中積極推動關於實用主義、學習與技術發展的風氣。

Rishal對於商業技巧與策略、帶領個人與團隊成長、設計思考、人工智慧與哲學有極大的熱情。Rishal推出了多款數位產品來提高個人與企業的生產力，同時專注於最重要的事情。他也曾頻繁於全球各大研討會分享，致力讓複雜的觀念變得更好理解，以及幫助人們提升自我。

熱門新聞