Yandex開源具備1,000億個參數的YaLM 100B語言模型

圖片來源:

GitHub

俄羅斯最大網路公司Yandex周四（6/23）開源了具備1,000億個參數的YaLM 100B語言模型，宣稱這是全球最大的類生成型已訓練變換模型（Generative Pre-trained Transformer，GPT）的神經網路。

嚴格說來YaLM 100B並不是最大的開源語言模型，因為Meta的AI實驗室在今年5月所釋出的OPT-175B擁有1,750億個參數，與號稱全球最強大語言模型的OpenAI GPT-3相當，不過，OpenAI GPT-3並未開源，而OPT-175B則支援非商業性授權，僅供研究人員、政府與產業研究實驗室免費使用，但YaLM 100B採用Apache 2.0授權，同時允許研究及商業免費使用。

Yandex是在一個聚集800個A100繪圖卡的叢集上，利用來自網路、書籍與眾多來源的英文及俄文等17TB的資料，花了65天的時間來訓練YaLM 100B，而且將它應用在Alice數位語音助理及搜尋引擎上的時間已經超過1年。

Yandex表示，大型語言模型近年來已成為自然語言處理的關鍵，這些模型愈來愈大也日益複雜，但訓練它們必須要耗費數年的時間並斥資數百萬美元，導致只有大型的科技業者才能存取此一最先進的技術，但必須允許全球的研究人員與開發者存取這些解決方案，否則便會拖慢該領域的成長，因而決定與全球的開發社群分享。

Yandex已透過GitHub發布YaLM 100B，並於官網上公布訓練YaLM 100B的經驗，該公司表示，人們或許會以為藉由超級電腦來訓練大型模型只是小菜一碟，但實際上並非如此，他們仍然必須想辦法加快訓練時間、檢查瓶頸、使用快速資料類型，以及完全發揮GPU的潛力等，期待經驗的分享可用來協助開發者訓練其它模型。

熱門新聞