量化內容特徵，自在演算

在前文中提到了基於內容的推薦，為了決定是否將某特定的內容推薦給某一使用者，通常我們會依據內容之間的相似或相異程度來做決定。

那麼要如何決定內容的相似或相異程度呢？通常是利用預先決定的內容特徵，像是文章中出現的字詞以及字詞的頻率，或是音樂的音量、音高，或是音量變化、音高變化等等。利用這組預先決定的內容特徵，便得以讓我們得以將原本抽象的「內容」概念，表示成為電腦可以計算的量化數字，進而判斷內容兩兩是否相似或是相異，同時評估出它們相似、相異的程度有多高。

能夠評估出相似或相異的程度，就有辦法做推薦了。比如說，我們可以做到「推薦和你現在正在觀看的影片最相像的十則影片」或是「依據你設為最愛的所有歌曲，推薦和它們相像，而且是這個月內才發表的新歌」等等的推薦。

所以說，為什麼我們可以基於內容來做推薦，它的基礎是假設和你感興趣的內容相似的，便很有可能就是你也感興趣的。就像是你之所以會觀看某一則影片，那是因為你多半對它感興趣，所以和它相似的，也就有可能是你也感興趣的。

從使用者感興趣的內容來判定特徵
從這邊你可能就可以想到，內容有其特徵，使用者也有其特徵，而使用者的特徵便是來自於其感興趣的內容。

我們可以綜合使用者在一段時間區間內所感興趣的內容之特徵，來做為使用者的特徵。時間區間可以是長期的，這樣的話，所得到的特徵所代表的，便是使用者長期的喜好用特性。時間區間也可以是很短期的、很即時的，如此一來，它所代表的特徵就是使用者短期的喜好特性。

你可以依據應用來選擇，究竟要用使用者短期或是長期的喜好特性。若能建立使用者的偏好特性表示，就可以從內容中，挑選出和使用者偏好相似的內容來做推薦。

如何計算內容的相似性
但是，我們還沒提到怎麼評估相似程度。事實上，選用不同的特徵、運用在不同的應用上，就有可能使用不同的相似性指標，以及不同的計算方法。一般來說，有很多現成已經發展好的相似性指標可以使用，例如常見的餘弦（cos）相似度。

在一個向量空間中，每個向量都具有相同的維度，而兩個向量之間的夾角，就意謂著它們的相近程度。使用其夾角的的餘弦值（ cos θ）便可以得到一個落在0與1之間的值。當兩向量餘弦值為零（用二維空間的術語就是垂直），代表這兩個向量互無瓜葛，相反的，若餘弦值為一，代表這兩個向量的方向完全一致。

當我們利用夾角的餘弦值來表示相似度時，我們所選用的特徵，就成了向量中的每一個維度，我們若選了n個特徵，就等於用一個n維的向量來表示一份內容。

舉例來說，我們可以用一份詞庫來表示文件的特徵，假設詞庫中有一萬個詞，那麼每一份文件就相當於是一個一萬維度空間中的向量，而該文件在每個維度下的值，可以是詞庫中所對應的詞在該文件中出現的總次數（或是像TFIDF之類的值）。

用這種方式，我們想要判斷兩個文件相似的程度有多高，就只需要基於一組詞庫，或是基於斷詞演算法處理後的結果，將每個文件都轉換成為一個向量，那麼就可以套用餘弦值的計來評估其相似度。

如此一來，我們就可以做到以文找文的功能，當使用者正在閱讀某一篇文章之際，系統便可以推薦給他和正在閱讀該文或最近的幾篇相似的文章。系統也可以綜合使用者長期的閱讀行為，每當系統收錄了新的文章時，據以判斷是否該推薦給使用者。當然，既然能夠處理文字，當然就有機會可以處理圖片。你可以利用類似的概念來做以圖找圖，或者是圖片的推薦。

可應用的相關演算法

將各式各樣的內容轉換成為可以處理的向量，有很大的意義，因為這個動作意謂著我們將沒有結構的資料，轉換成為電腦容易處理結構性資料。像文字、圖片、聲音都是較不具特定結構的資料，但是一旦轉換成為向量數值資料之後，就變成更有結構而且電腦容易處理的資料了。

而且，對於處理在向量空間中的資料，人們早就發展出許多的應用及滿足這些應用的演算法。

例如所謂群集（clustering）的演算法，可以自動將相近的向量群集在一起。一旦我們可以將各式內容轉換成為向量，就可以套用現成的群集演算法，將相近的內容自動聚集在一塊。對文章的應用來說，群集的演算法就可以做到將內容相近的文章聚集起來分組，甚至可以找出這些內容相似文章的共同點。

倘若套用階層式群集的演算法時，還可以將文章以階層式的架構來做分群，大群之下再細分出小群，而這些都有現成的演算法，像是K-Means或Fuzzy K-Means等等。

像K-Means演算法，其實早在1967年就已經被提出，這說明了人們處理相關的應用及資料，已經有很長的一段時間了。所以這些應用方式（像群集、分類）以及對應用的演算法，都是現成的。對於我們來說，核心的議題反而是：（1）如何挑選這些應用的方式來做推薦（2）如何將自己要處理的內容，轉換成為演算法可以處理的資料（3）選擇合適的演算法，以及搭配的參數。

例如，你可以運用分群的演算法，將使用者依據其過去的喜好予以自動分類。每當系統中有新的內容時，便計算該內容和各群的相似程度，自動將該內容推薦給相似度夠高的群。這就是挑選一種應用方式來做推薦。

當然，你也可以利用分類的演算法來做。像現在有一些電子郵件系統，會建立分類的模型，將電子郵件區分出垃圾郵件（SPAM）或是重要郵件（像Gmail中的Important分類），每當有新的郵件進來時，就自動將其分類。

廣義來說，這種電子郵件的分類，甚至是過濾機制，也像是一個推薦的系統。因為它能夠提示使用者那些郵件是重要的，若是每日收到的郵件量繁多時，可以優先閱讀重要的郵件。相反的，被認為是垃圾郵件的內容，就可以不需要花費時間去細看。而這樣的推薦系統便是基於資料分類的應用來做的，有很多現成的分類演算法，像Bayesian Network，或是Hidden Markov Model等方法，都可以拿來做分類。

演算法是現成的，但是，該怎麼將特定的應用領域中的資料，例如電子郵件的分類及推薦，轉換成為這些分類演算法可以處理的資料，就成了一個大關鍵。

事實上，你可能要做的工作就是：選擇合適而且效果好的特徵，決定如何將內容轉換成為所選定特徵的表示方式，挑選合適而且效果好的演算法，以及搭配合宜的參數。

想要基於內容做推薦，方法和技術都和現在處理內容的其他應用相近。例如，有人做「以歌點歌」的系統，基本上就是讓使用者哼上一段旋律，接著系統將錄到的使用者音訊，依據所選定的特徵，轉換成以這些特徵所表示的資料，接著再套用相似的演算法，找到資料庫中相似的歌曲。

雖然方法技術都接近甚至相同，不過套用在推薦系統上，目的又不盡相同就是了。

量化內容特徵，自在演算

專欄作者

熱門新聞