微軟今年內將讓Word、Outlook及PowerPoint具備AI圖說功能

翻攝自：https://www.youtube.com/watch?v=ubpEUksa3v0&feature=emb_logo

微軟本周宣布，繼將利用人工智慧自動產生圖說的能力整合到Azure認知服務與Seeing AI之後，今年也將把該功能嵌入Windows版與Mac版的Word與Outlook，以及Windows版、Mac版及Web版的PowerPoint，可替文件中的圖片自動產生圖說。

微軟研究實驗室的首席研究經理Lijuan Wang指出，圖說為電腦視覺學科的一項核心挑戰，它要求AI系統要能理解及描述照片或圖片中的重要內容或動作，AI必須能夠理解發生了什麼事，或是物件與行動之間的關係，並能將之摘錄再用自然語言將它描述出來。

過去圖說系統通常是利用內含圖片並搭配文字敘述的資料集來訓練，但這樣一來系統就無法辨識在資料集中未曾出現的物件，因此微軟預先訓練了一個大型的AI模型，它配備一個豐富的資料集，可圖片搭配的卻是文字標籤，每個標籤都可對應圖片中的特定物件，該團隊把此一模型稱為視覺詞彙，如同小孩學習的過程。

之後再以圖說資料集進行訓練，讓視覺詞彙模型能夠學習如何組成句子，而讓新的圖說系統能夠更準確地辨識並描述圖片，而且成效優於人類。例如之前的圖說系統在看到一堆咖啡豆時，產生的圖說是「食物的近照」，但經過單字與圖說資料集訓練的圖說系統，則能直接產生「一堆咖啡豆」的圖說。

Azure認知服務技術長Xuedong Huang則說，改善圖說的AI能力是一項突破，但將它應用在實際的服務上又是另一項突破，而且圖說是電腦視覺能力中，最能被廣泛應用的功能之一。在最近5年來，Azure認知服務已有5個AI系統達到與人類相當的水平，從語音辨識、機器翻譯、會話式回答、機器閱讀理解，到現在的圖說。

目前Azure認知服務已允許開發人員在自己的服務中使用AI圖說，而Seeing AI則是一款用來協助視障人士的行動程式，使用者只要點選圖片中的物件，程式就能直接唸出圖片或照片上的內容，以及物件間的空間關係。

熱門新聞