AI趨勢周報第133期：35億張照片訓練而成！臉書亮相通用商品辨識AI

臉書利用一套商品辨識預訓練模型GrokNet來自動偵測、分類商品，並根據照片屬性，來自動貼標並給予購物建議。

圖片來源:

臉書

重點新聞(0522～0528)

臉書市集 商品辨識 電腦視覺

臉書亮相通用商品辨識AI，家具、快時尚和跑車各種屬性都難不倒

臉書日前揭露一款通用商品辨識AI系統GrokNet，可用來分割、偵測和分類商品，藉此來了解商品該擺在什麼地方，並提供購物建議。這套系統，已用於臉書市集和最新推出的電商服務Facebook Shops，該服務可讓企業免費設置一個線上商店，並讓消費者在臉書和Instagram上消費。

進一步來說，GrokNet用96個Nvidia Tesla 100 GPU和7個資料集（共35億張照片、1萬7千個標籤）訓練而成，這些資料來自上百萬名使用者貼出和買賣的商品照片，橫跨數十種商品種類，像是SUV休旅車、細跟高跟鞋和床邊桌等等。

商用版的GrokNet擁有83個損失函數，可預測給定圖片的上萬種屬性，像是類別、可能出現的搜索查詢等。雖然GrokNet只用了256 bits來表示每個產品，但可產生內嵌資訊，就像指紋一樣，可用於不同任務如商品辨識、視覺搜索、以圖搜圖，以及排名和個人化推薦等。

臉書表示，GrokNet可辨識數十億張照片中的產品，不管這些產品是一模一樣、相似，還是一張照片中有多種商品存在，都難不倒它；而且GrokNet的準確度，比起臉書市集上一代的演算法，要好上2倍。臉書希望用GrokNet來改善買賣體驗，讓使用者更容易找到想要的產品。（詳全文）

個資保護 差分隱私 深度學習

鎖定個資保護需求，微軟推出AI差分隱私工具包

微軟在今年度開發者大會上，發布一款與哈佛社科研究院共同打造的差分隱私工具包WhiteNoise，使用者可在微軟Azure機器學習服務中使用，也能從GitHub上下載程式碼。

微軟解釋，差分隱私透過兩步驟來保護資料，首先是在少部分個別資料點中增添統計雜訊，來保護個人隱私，再來是計算每個查詢中揭露的資訊量，只要超過總量允許範圍，就會自動停止查詢。

WhiteNoise平臺中包含各種元件，供開發者自由組合使用。其中，WhiteNoise Core裡有個開源函式庫，提供差分隱私演算法和機制，此外也提供快速安全的原生Runtime。另一方面，WhiteNoise Core也提供API來定義分析，以及一個驗證器來評估這些分析、建立資料集的總隱私損失。（詳全文）

賽靈思 抗輻射FPGA 即時推論

賽靈思抗輻射20奈米FPGA問世，在太空進行即時AI推論不是問題

賽靈思日前推出最新20奈米FPGA：XQRKU060，號稱是業界首款航太20奈米產品。它具備抗輻射性、超高傳輸量和頻寬等效能，可在太空中進行即時機器學習推論，也具有無限在軌（On-orbit）可重組能力，讓數位訊號處理效能提升 10 倍以上。這個特點，可讓衛星即時更新，也能在飛行中即時處理複雜的演算法。

這款FPGA支援了常見的深度學習框架如TensorFlow、PyTorch，此外，它具可擴展精度和大型內建記憶體，能有效執行計算，針對深度學習優化的INT8峰值，還能達到每秒 5.7 兆次運算，是上一代65奈米產品的 25 倍。（詳全文）

影像處理 邊緣運算 AI晶片

中研院聯手玉山金控，成立AI研發中心攻FinTech

中研院日前聯手玉山金控，宣布在中研院生技園區成立AI研發中心，要在未來兩年內，加強研究交流、資訊產業價值、培訓資訊人才等三大領域。這項計畫鎖定文本分析、異常偵測和自然語言生成，參與計畫的核心人員包括中研院資創中心副研究員王釧茹、合聘助研究員蔡銘峰，以及資訊所副研究員古倫維。其中，王釧茹擅長財務工程和資料分析，蔡銘峰和古倫維負責自然語言處理、資訊檢索和情感分析。雙方計畫將這些技術，用來發展金融科技。（詳全文）

微軟 OpenAI 超級電腦

微軟聯手OpenAI打造超級電腦，要加速通用AI發展

微軟在開發者大會Build 2020上宣布聯手OpenAI，要在Azure建立超級電腦。這款超級電腦由28.5萬CPU核心、1萬顆GPU，每臺GPU伺服器還有每秒400 gigabits的網路連線，規格等同世界五百大超級電腦的第5名。

架構在Azure的超級電腦，還享有其他現代雲端的好處，像是部署快速、高可續性及可使用Azure多種服務。雙方打造超級電腦的目的，是要開發通用人工智慧（AGI），要透過微軟提供硬體技術，來輔助OpenAI訓練大型AI模型，並在Azure上訓練、執行AI模型，特別是發展能進行多工任務的大規模AI。（詳全文）

Cloud 解釋性 機器學習 問責

微軟推三大工具，要打造更公平、安全的AI應用

為了提高AI解決方案的透明度，微軟和Aether委員會共同研發許多工具，整合在Azure上提供問責機器學習服務（Responsible ML）。其問責功能聚焦於三大部分：理解模型、保護個人與資料，以及控制端到端機器學習程序。

第一部分是InterpretML工具包，企業可用於模型可解釋性，進一步理解模型行為，並向終端用戶和業務相關人士，解釋機器學習所產生的結果。再來是Fairlearn工具，以專門的演算法來評估模型公平性，提供視覺化功能。最後是差分隱私工具包WhiteNoise，可用來防止個人資料被辨識。（詳全文）

時間序列 TimescaleDB 多節點

上百萬下載次數的時間序列資料庫TimescaleDB，釋出多節點1.7版本

擁有數千萬下載次數，連西門子、富士通和Comcast都在用的開源時間序列資料庫TimescaleDB，近日開源最新1.7多節點版本，內含資料保存（Data Retention）政策、降採樣和資料重新排序政策等企業功能。

TimescaleDB是一個新興資料庫，可部署到各式平臺，像是Kubernetes、Docker，也能直接使用官方提供，在AWS、Azure和GCP上提供的全託管企業級服務。這次免費開放的重要功能，是可以透過跨多節點的平行化操作，以及增加聚合磁碟的IOPS，來擴展讀寫能力，且能利用聚合下推（Push-Down Aggregation）來更快查詢。另外，TimescaleDB的橫向擴展能力，可以為線上的系統直接增加新的資料節點，而資料備份則可提供完善的容錯和負載平衡能力。（詳全文）

Nvidia 資料視覺化工具 雲端市集

可用GPU加速叢集！Nvidia資料視覺化工具登上Google雲端市集

Google雲端市集近日上架Nvidia的資料視覺化工具IndeX，可讓研究人員即時視覺化操作超大量的資料集。IndeX可提供準確且高品質的資料視覺化、資料表達和註釋功能，而且支援高擴展性，對GPU架構最佳化，因此可跨多個GPU進行運算。

IndeX上架到Google雲端後，可用GPU加速叢集，還能強化嵌入幾何和多值體積資料的運算。Nvidia指出，IndeX還可透過Web API部署成為渲染伺服器，讓客戶端應用程式也可以整合使用大規模資料集。（詳全文）

圖片來源／臉書、微軟、賽靈思、玉山金控

AI趨勢近期新聞

1. 開發團隊現可利用GitHub Action自動更新IntelliCode完成功能

2. Google釋出最新評估文字生成強健性的自動化指標BLEURT

3. OpenAI發表1750億個參數的超大自然語言模型GPT-3

4. 百度開源Paddle Quantum量槳工具包，來推進AI量子研究

資料來源：iThome整理，2020年5月

重點新聞(0522～0528)

熱門新聞