圖片來源: 

臉書

臉書(Facebook)於本周四(8/18)開源釋出人工智慧(AI)函式庫FastText,結合自然語言處理和機器學習技術,分別用來處理文字分類和學習單詞向量表示(Word Vector Representation)。另外,FastText函式庫支援C++11標準,目前已在GitHub上釋出。

FastText是臉書的人工智慧研究團隊(Facebook AI Research,FAIR)所開發的AI函式庫,用來建立文字的表述和分類,以管理與分類臉書上每天大量的內容與資料,為了能夠有效率地在大量的資料集中處理文字,FastText使用階層式分類器(Hierarchical Classifier)取代扁平結構,將不同的文字種類組織成樹狀架構。

而FastText有別於傳統深度學習使用單詞順序的方式,FastText採用Huffman演算法來建立階層式樹狀架構,以分類文字的種類,Huffman演算法可以計算字串中每個相異單字元出現的頻率與機率,並建立出一棵二元樹,這種方式加強了FastText深度學習分類器的準確度。

臉書也宣稱,FastText在標準多核CPU的環境中,可以在10分鐘內訓練機器學習模型超過10億個單詞,且FastText訓練機器學習模型的時間也從幾天大幅降低為幾秒鐘。另外,FastText除了可以用在英文上,也支援其他語言,包含德文、西班牙文、法文和捷克文。

臉書FastText與其他深度學習分類器的比較,從表中可以看出FastText在文字分類的時間與準確度都表現優秀。(圖片來源/臉書)

熱門新聞

Advertisement