微軟讓人工智慧看圖說故事，靠一張照片就能寫出驚悚故事

微軟釋出了Pix2story，讓使用者只要指定圖片，人工智慧就能看圖說故事。微軟提到，他們試圖教導人工智慧創意，試圖將人工智慧發展至另一個層次，而在Pix2story中，他們讓人工智慧發揮創意結合特定類型產生故事。

微軟提到，說故事是人的天性之一，在寫作被發明之前，人們就透過講故事分享價值觀，而編寫故事並非一件簡單的事，特別如果是光靠看圖片，並以各類藝術類型（Genre）寫出故事。自然語言處理技術發展至今，是作為推動電腦與人類互動革新的領域，微軟試著讓自然語言處理能以更自然和更聚焦的方式敘事。

微軟在Azure上開發了Pix2Story，這是一個應用類神經網路的網頁應用程式，使用者只要選擇圖片，Pix2Story就會發揮創意為該張照片編寫出一小段冒險、科幻和驚悚類型風格的故事。而該系統的架構設計，首先要從上傳的照片取得圖說，並將這些圖說輸入至遞迴神經網路（Recurrent Neural Network）模型，根據圖片以及文體產生故事。

產生輸入照片圖說的方法，微軟以MS COCO圖說資料集的30萬張圖片，訓練了視覺語意嵌入模型，對上傳的圖像進行分析和產生的圖說。視覺語義嵌入負責將輸入的圖片轉換成圖說，這部分包含兩個模型，第一個是卷積神經網路，用於萃取稱為註釋向量的特徵向量。第二個模型則是長期短期記憶（Long Short-Term Memory）網路，透過上下文向量、先前的隱藏狀態以及先前產生的單詞，一次產生一個單詞。

另外，還要以不同的藝術類型產生故事，為此微軟以2千部小說，花費兩個星期訓練編碼解碼（Encoder-Decoder）模型。微軟將小說的段落映射到Skip-thought向量（Vector），而這是一種可以生成用於不同任務的通用型語句表達的模型。微軟提到，在這個專案中，他們訓練編碼解碼模型，並使用書本中文字的連續性，來重建編碼段落周圍的句子。編碼器會將句子映射到向量中，而解碼器接著對該向量進行調整，為來源句子進行類型翻譯。

由於視覺語意嵌入模型輸入給Skip-thought模型短句子，則輸出也會是短句子，因此當結果想要輸出是更加敘事的段落，則需要對輸入做風格轉換，這意味要使用Skip-thought向量表達，將輸入設置加上成想要輸出包含的特徵，這個操作的公式為Skip-thought的輸入等於，圖片編碼圖說減去平均所有圖說編碼，再加上相似長度的編碼段落以及預期輸出的特徵。

熱門新聞