Open AI不需特定領域資料，就能訓練新一代通用語言模型

圖片來源:

Open AI

Open AI最近發布新一代的大型語言模型GPT-2，該模型有15億個參數，利用了800萬頁的網頁資料作為訓練資料，以預測所有輸入文字的下一個字作為訓練目標，而也因為資料集的多樣性，讓模型不需要針對特定的任務進行訓練，以上述單純的目標，就能涵蓋了許多跨領域的任務，目前該模型能夠在機器翻譯、回答問題、閱讀理解、總結段落等語言任務中生成與段落一致的文字內容，不過，為了預防惡意的使用行為，OpenAI並不會釋出訓練完的模型，只會發布技術論文和一個相較之下規模小很多的模型，提供研究人員做實驗。

GPT-2模型在許多語言任務中，都達到了很好的表現，舉例來說，給定模型一段文字，模型就能產生接續段落的文字，而該模型的表現，也超越了用特定領域訓練資料訓練而成的模型，像是維基百科、新聞或是書籍等特定訓練資料。此外，在像是問題回答、閱讀理解、段落總結，以及翻譯等語言任務中，GPT-2模型是從原始的文字資料開始學習，沒有透過特定任務的資料來訓練，而最終模型在這些任務上的表現也超越了現今效果最好的模型。

Open AI表示，通用的語言模型將能夠對社會產生很大的影響，也能夠促成許多相關的應用，Open AI期望像GPT-2這樣的模型能夠被用來創造寫作AI助理、更有能力的對話機器人、跨語言的非監督翻譯模型、更好的語言理解系統等，但是同時，Open AI也擔憂這樣的模型會被用於惡意的用途，像是製造誤導新聞、偽造他人、在社群平臺自動產生假內容，或是垃圾訊息等，因此只會釋出小型的GPT-2模型，並不會釋出訓練資料集、程式碼和模型的權重。

熱門新聞