| google | 視覺語言 | PaLM-E | 多模態 | 機器人

Google發表具5,620億參數的多模態語言模型PaLM-E,實體機器人更能解決複雜長任務

Google透過將影像和感測器訊號,編碼成語言模型能夠執行的向量序列,持續輸入至PaLM-E,交由強大的Transformer網路進行處理,以解決實體機器人任務以及視覺語言問題

2023-03-09

| google | 資料集 | 維基百科 | 多模態資料集WIT | 機器學習 | 視覺語言 | AI

Google釋出目前最大型的圖文資料集WIT

研究人員擷取維基百科中的圖片以及相關解說文字,創建出具有3,750萬筆圖文樣本,涵蓋108種語言的圖文資料集WIT

2021-09-23