翻攝自:https://www.youtube.com/watch?v=ubpEUksa3v0&feature=emb_logo

微軟本周宣布,繼將利用人工智慧自動產生圖說的能力整合到Azure認知服務與Seeing AI之後,今年也將把該功能嵌入Windows版與Mac版的Word與Outlook,以及Windows版、Mac版及Web版的PowerPoint,可替文件中的圖片自動產生圖說。

微軟研究實驗室的首席研究經理Lijuan Wang指出,圖說為電腦視覺學科的一項核心挑戰,它要求AI系統要能理解及描述照片或圖片中的重要內容或動作,AI必須能夠理解發生了什麼事,或是物件與行動之間的關係,並能將之摘錄再用自然語言將它描述出來。

過去圖說系統通常是利用內含圖片並搭配文字敘述的資料集來訓練,但這樣一來系統就無法辨識在資料集中未曾出現的物件,因此微軟預先訓練了一個大型的AI模型,它配備一個豐富的資料集,可圖片搭配的卻是文字標籤,每個標籤都可對應圖片中的特定物件,該團隊把此一模型稱為視覺詞彙,如同小孩學習的過程。

之後再以圖說資料集進行訓練,讓視覺詞彙模型能夠學習如何組成句子,而讓新的圖說系統能夠更準確地辨識並描述圖片,而且成效優於人類。例如之前的圖說系統在看到一堆咖啡豆時,產生的圖說是「食物的近照」,但經過單字與圖說資料集訓練的圖說系統,則能直接產生「一堆咖啡豆」的圖說。

Azure認知服務技術長Xuedong Huang則說,改善圖說的AI能力是一項突破,但將它應用在實際的服務上又是另一項突破,而且圖說是電腦視覺能力中,最能被廣泛應用的功能之一。在最近5年來,Azure認知服務已有5個AI系統達到與人類相當的水平,從語音辨識、機器翻譯、會話式回答、機器閱讀理解,到現在的圖說。

目前Azure認知服務已允許開發人員在自己的服務中使用AI圖說,而Seeing AI則是一款用來協助視障人士的行動程式,使用者只要點選圖片中的物件,程式就能直接唸出圖片或照片上的內容,以及物件間的空間關係。

熱門新聞

Advertisement