圖片來源: 

Nvidia

最近以色列特拉維夫大學研究團隊,開發出一套根據食譜敘述自動產生餐點圖片的深度學習系統,在電腦視覺的研究中,根據文字敘述自動生成圖片是相當複雜的,需要有創造力,該系統透過recipe1M作為資料集,訓練和評估深度學習模型,根據對餐點的敘述來產生256 x 256高畫質的圖片,值得注意的是,這些食譜敘述較長,且並沒有包含直接描述圖片內容的資訊,該研究成果已經在arXiv上發布

特拉維夫大學研究團隊是透過深度學習框架PyTorch,搭配Nvidia Titan X GPU,訓練了條件式對抗生成網路(Conditional GAN),包含52,000份手寫食譜和相對應的圖片,經過訓練後,模型就能夠產生與食譜敘述相對應的圖片,該篇論文的共同作者Ori Bar El表示,該系統的輸入資訊只有食譜的敘述文字,就能從無到有生成系統認為食譜敘述的餐點圖片,其中,很重要的一點是,該系統並沒有擷取食譜標題的資料,如果有食譜標題,這項任務將會變得很簡單,也因此,這項自動生成餐點圖片的任務,對電腦系統而言是項艱鉅的挑戰,甚至對人類而言,也是相當困難。

為了評估系統透過兩種方法產生的圖片,研究團隊用人工的方式對圖片評分,評分標準從1~5,該系統目前已成功產生許多食物圖片,像是義大利麵、飯、湯、沙拉等,但是針對獨特形狀的食物,像是漢堡、雞肉或是飲料等,還持續在努力研究中。


Advertisement

更多 iThome相關內容