微軟的影片索引器服務(Video Indexer)以多模態主題推理(Multi-modal Topic Inferencing),為使用者提供更直覺的影片分類方法,還能最佳化其內容探索功能。微軟提到,由於影片索引器可以理解媒體中的內部關係,因此比手動標記影片內容更加高效且低成本。

大型媒體服務常會面臨媒體內容管理的問題,而且要對媒體進行內容探索,也會因規模的關係變得更加困難,雖然將影片按主題分類是一個好方法,但是內容分類是需要演繹推理的,影片中不一定會明確的顯示,微軟舉例,像是醫療保健相關的影片,內容並不一定會出現醫療保健這個詞。有不少企業轉而手動標記內容,但微軟表示,手動不只成本高昂且耗時,容易發生錯誤並且無法有效擴展。

為了解決這個問題,微軟在其影片索引器加入了多模態主題推理,該功能使用跨頻道模型,索引媒體內容以自動推理主題。該模型會將影片概念投影到3個本體(Ontology),並以3大訊號包含轉譯影片語音還有字幕OCR的文本,以及對影片進行名人人臉辨識結果,來推論影片主題。

影片索引器用於推理影片主題的本體包括IPTC、維基百科和影片索引器分層主題。IPTC本體在媒體企業中很受歡迎,提供超過1,100個術語的媒體主題分類。而維基百科的170萬個類別,也可用作主題標籤,優點是這些類別受到良好的維護,主題與文章採用的類圖連結,使其成為一種高解析的本體。影片索引器分層主題本體則是一個最大深度為3層,擁有超過2萬條目的專有的分層本體。

影片索引器過去使用關鍵字萃取模型,強調經轉譯與字幕OCR的重要詞彙,微軟以Build 2018開發人員大會的開幕主題演講為例,透過萃取關鍵字索引主題,會出現網頁開發、單詞嵌入、無伺服器運算等關鍵字。微軟提到,關鍵字萃取與主題推理模型最大的差異在於,關鍵字是影片中明確提到的術語,而主題是推論出來的,像是使用知識圖透過(Knowledge Graph)彙整相似的概念,以推論出高階內隱概念。

影片索引器應用兩個模型來萃取主題,第一個是深度神經網路,根據大型專有資料集,直接對原始文本進行評分和排名,該模型會將影片轉譯文本,映射至影片索引器本體與IPTC。第二個模型則是對影片中提到的命名實體,使用光譜圖演算法(Spectral Graph Algorithms),該演算法利用經辨識名人的維基百科ID,以及OCR和翻譯文本的訊號。

由於這兩類訊號分屬結構化和非結構化的資料,因此微軟使用ELIS(Entity Linking Intelligent Service)會在自由格式文本中識別命名實體,將非結構化資料轉成結構化,以便之後能完全利用結構化資料進行主題擷取。

微軟利用維基百科頁面實體的相似度,以及從影片頁面擷取到的不同概念,建置出圖,並在最後階段,根據後驗機率(Posteriori Probability)排名維基百科類別,以找出適合的主題。


Advertisement

更多 iThome相關內容