微軟影片索引器Video Indexer更新，可從語音、字幕及人物辨識推理影片主題

微軟的影片索引器服務（Video Indexer）以多模態主題推理（Multi-modal Topic Inferencing），為使用者提供更直覺的影片分類方法，還能最佳化其內容探索功能。微軟提到，由於影片索引器可以理解媒體中的內部關係，因此比手動標記影片內容更加高效且低成本。

大型媒體服務常會面臨媒體內容管理的問題，而且要對媒體進行內容探索，也會因規模的關係變得更加困難，雖然將影片按主題分類是一個好方法，但是內容分類是需要演繹推理的，影片中不一定會明確的顯示，微軟舉例，像是醫療保健相關的影片，內容並不一定會出現醫療保健這個詞。有不少企業轉而手動標記內容，但微軟表示，手動不只成本高昂且耗時，容易發生錯誤並且無法有效擴展。

為了解決這個問題，微軟在其影片索引器加入了多模態主題推理，該功能使用跨頻道模型，索引媒體內容以自動推理主題。該模型會將影片概念投影到3個本體（Ontology），並以3大訊號包含轉譯影片語音還有字幕OCR的文本，以及對影片進行名人人臉辨識結果，來推論影片主題。

影片索引器用於推理影片主題的本體包括IPTC、維基百科和影片索引器分層主題。IPTC本體在媒體企業中很受歡迎，提供超過1,100個術語的媒體主題分類。而維基百科的170萬個類別，也可用作主題標籤，優點是這些類別受到良好的維護，主題與文章採用的類圖連結，使其成為一種高解析的本體。影片索引器分層主題本體則是一個最大深度為3層，擁有超過2萬條目的專有的分層本體。

影片索引器過去使用關鍵字萃取模型，強調經轉譯與字幕OCR的重要詞彙，微軟以Build 2018開發人員大會的開幕主題演講為例，透過萃取關鍵字索引主題，會出現網頁開發、單詞嵌入、無伺服器運算等關鍵字。微軟提到，關鍵字萃取與主題推理模型最大的差異在於，關鍵字是影片中明確提到的術語，而主題是推論出來的，像是使用知識圖透過（Knowledge Graph）彙整相似的概念，以推論出高階內隱概念。

影片索引器應用兩個模型來萃取主題，第一個是深度神經網路，根據大型專有資料集，直接對原始文本進行評分和排名，該模型會將影片轉譯文本，映射至影片索引器本體與IPTC。第二個模型則是對影片中提到的命名實體，使用光譜圖演算法（Spectral Graph Algorithms），該演算法利用經辨識名人的維基百科ID，以及OCR和翻譯文本的訊號。

由於這兩類訊號分屬結構化和非結構化的資料，因此微軟使用ELIS（Entity Linking Intelligent Service）會在自由格式文本中識別命名實體，將非結構化資料轉成結構化，以便之後能完全利用結構化資料進行主題擷取。

微軟利用維基百科頁面實體的相似度，以及從影片頁面擷取到的不同概念，建置出圖，並在最後階段，根據後驗機率（Posteriori Probability）排名維基百科類別，以找出適合的主題。

熱門新聞