| YaLM 100B | Yandex | 開源 | 語言模型

Yandex開源具備1,000億個參數的YaLM 100B語言模型

Yandex強調YaLM 100B是全球最大的類生成型已訓練變換模型(GPT)的神經網路

2022-06-24

| Meta | Open Pretrained Transformer | OPT-175B | 語言模型

Meta釋出具備1,750億個參數的Open Pretrained Transformer語言模型

OPT-175B語言模型所使用的參數數量,與號稱全球最強大語言模型的OpenAI GPT-3一樣多,不過,Meta強調它們只使用了16個Nvidia的V100 GPU就完成該模型的訓練與部署

2022-05-04

| OpenAI | 語言模型 | GPT-3 | Codex

語言模型GPT-3現新增文字編輯和插入功能

語言模型GPT-3現在可以參考文字前後段落,插入連結兩段落的文字,或是修改現有內容的語氣和結構

2022-03-16

| Deepmind | AI | 紅隊 | 語言模型

Deepmind以紅隊模型自動化探索語言模型的有害行為

Deepmind利用紅隊語言模型來生成測試使用案例,以自動發現語言模型的各種有害行為

2022-02-08

| google | AI | 語言模型 | MoE

Google讓模型依任務學習路由,有效提高大型語言模型推理效率

Google發表新的新型混合專家模型TaskMoE,大小不只是典型混合專家模型TaskMoE的七分之一,吞吐量更是提升達2倍

2022-01-18

| 吳恩達 | 多模態AI | Transformer | 語言模型 | 達摩院 | 趨勢預測 | IT周報

AI趨勢周報第182期:吳恩達看2022年AI趨勢:多模態AI起飛

吳恩達提出2022年AI趨勢預測,多模態AI將起飛、參數破兆模型會更多、AI生成音檔將成主流;理解力媲美高中生!DeepMind無心插柳柳成蔭,造出超大語言模型Gopher;微軟用Transformer打造通吃多種CV任務的多模態AI,還用來優化Azure認知服務;阿里達摩院發表2022年科技趨勢預測:綠能AI崛起

2021-12-30

| Deepmind | Gopher | 語言模型

Deepmind開發具有2,800億參數的語言模型Gopher,探索模型規模對效能的影響

Deepmind發現增加模型的參數量,並不會全面增加模型的能力,只有特定領域能力大幅增加,且部分領域沒有顯著改善

2021-12-10

| 封面故事 | 機器學習 | AI | 日本Yahoo | Line | AI生產力 | HyperCLOVA | 語言模型 | 語料庫

【Line AI生產力關鍵1:通用NLP模型】以HyperCLOVA發展企業NLP服務,下一步搶攻通用AI

Line揭露一款820億個參數的大型語言模型HyperCLOVA,並以此為核心引擎發展一系列企業AI工具,接下來還要結合電腦視覺,打造更通用的AI產品

2021-11-22

| google | 語言模型 | 零樣本

Google利用指令微調技術增加語言模型的泛化能力

Google使用指令微調技術訓練語言模型,使得語言模型能夠懂得遵循指令,並且處理未曾見過的任務

2021-10-07

| google | 語言模型 | Transformer

Google發表可讓查詢更加精準快速的語言模型MUM

MUM採用Transformer架構,並經過75種語言和多種任務訓練,可以更全面理解世界,快速解決用戶的查詢任務

2021-05-21

| AI | 微軟 | 拼寫校正 | 語言模型 | Speller100 | Bing | 搜尋

微軟揭露目前規模最大的語言拼寫校正系統Speller100

Speller100可對超過100種語言的查詢,進行高精確度的拼寫校正,有效提高搜尋引擎Bing的搜尋結果品質

2021-02-10

| 微軟 | Bing | 語言模型

微軟以語言模型改進Bing自動字詞建議與相關問答功能

微軟除了使用T-NLG模型生成自動建議之外,還利用T-ULR模型突出顯示搜尋結果的重點

2020-09-25