OpenAI共同創辦人Greg Brockman在直播中展示,拍攝他在筆記本上手繪的設計草圖輸入GPT-4後,GPT-4能自動生成對應網頁的程式碼。(圖片來源/OpenAI)

就在付費API服務釋出剛滿2周,OpenAI就大動作發表了多模態的GPT-4模型,最大變革是可以同時輸入文字和圖片。OpenAI共同創辦人Greg Brockman在直播中展示,拍攝他在筆記本上手繪的設計草圖輸入GPT-4後,GPT-4能自動生成對應網頁的程式碼,不只畫面幾乎和手繪草圖一樣,還能產生按鈕和對應的事件觸發JavaScript程式,他強調,這會大大改變網站設計模式。

GPT-4目前先開放ChatGPT付費用戶試用,也在OpenAI API支援模型中,開放限定對象選用。已經有少數企業或組織開始試用,例如全球最大財富管理公司摩根士丹利財管,冰島政府,Stripe支付平臺、可汗學院、Duolingo語言學習平臺、Be My Eyes視障者輔助App等,而2月發表的微軟新版Bing用的模型也是GPT-4新版。

可輸入圖文,回答正確率超過3.5

GPT-4最大特色是不只文字對話還能輸入圖片,讓AI來解讀,而且解答能力和正確率大幅超越了GPT-3.5,也更能控制GPT輸出人設來符合企業想要的的形象,輸入Token數量也將大幅增加到32,768個,相當於50頁文字。目前先開放了文字輸入API功能,ChatGPT Plus付費用戶可優先排入試用新版。圖片輸入功能目前則只開放給特定合作夥伴。

GPT-4是一個多模態AI超大模型,可接受圖片和文字輸入,來生成文字的回覆,可以提供人類等級的回答內容。根據OpenAI實測,在全美統一律師資格考檢定上,3.5只能拿到倒數10%的名次,但GPT-4卻能拿到前10%的高分。或像是在SAT數學測驗或GRE測驗等三十多項不同學科的主流檢定測驗上,GPT-4都大勝3.5版。

Open AI花了6個月時間,利用ChatGPT和其他多項對抗式測試計畫來調整,終於打造出答案更真實、更可操控和更能防範濫用的新一代GPT-4。

雖然GPT-4和3.5版的訓練資料同樣都只使用到2021年9月為止的開放網路資料,但是4.0版模型在多項傳統機器學習能力評比上,都超越了3.5版,在多項模型評比上都達到SOTA等級。尤其在14,000題的多選題測試MMLU(理解力)評比上,OpenAI宣稱,GPT-4英文答題的正確率達到80.5%,高於3.5版的70.1%,甚至也高於Google日前的PaLM模型英文答題的69.3%正確率,不過,PaLM答題正確率是OpenAI自行實測的結果,而非Google官方數據。值得注意的是,GPT-4對翻譯成中文版的MMLU答題正確率也達到了80.1%,日語和韓語版也都有70~80%的正確率。

除了答題能力更正確之外,第4版最大特色是能看圖,而且可以同時輸入指定圖片和圖片,GPT-4會以文字來解釋圖片內容,並且符合文字任務的要求。輸入的圖片可以是照片、圖表或螢幕解圖。未來,GPT-4還將持續強化解圖能力,例如可以輸入多組圖片範例,或是提供分解動作解釋的解圖(chain-of-thought)能力。

不過目前圖片輸入功能還處於研究者預覽版本,沒有對外開放,OpenAI也沒有透露開放時程。

  GPT-4展示1:摘要圖片重點  可以從多張圖組合的畫面中,一一介紹每一張圖各自的重點和特色,如上面3張不同角度的VGA連接線圖片中提供產品說明。圖片來源/OpenAI

  GPT-4展示2:解讀圖表趨勢  可以輸入圖表讓GPT-4解讀每張圖表中呈現的數據趨勢變化,甚至可以進一步比較不同項目之間的數據差異。圖片來源/OpenAI

  GPT-4展示3:看圖分解動作答題  可以看圖來回答試卷紙上的考題,不只給出正確答案,而且可以分解動作,說明如何一步步從圖中資訊來解答問題。圖片來源/OpenAI

可操控性強,能指定GPT-4扮演的角色來限定人設

另一個值得注意的新版特色是GPT-4的可操控性(Steerability),可以透過輸入的提示或微調模型,來指定GPT-4的角色人設,例如回答的用語、風格、語調等條件,以便限制GPT-4的回覆行為。例如在OpenAI API中使用System角色參數,來要求GPT-4扮演不能直接回答答案的數學課輔老師,在OpenAI釋出的展示範例中可以看到,不管學生怎麼問,甚至輸入特殊提示指令試圖越獄,也都無法得到直接的答案。這個新功能可用來限制和控制GPT-4所能回答的限制,可供企業用來設定想要GPT-4回答的內容範圍,或者禁止回答的內容。

為了防範AI模型遭到濫用,OpenAI在GPT-4模型中也特別針對AI濫用或不當使用進行強化,根據OpenAI公布的實測數據,gpt-3.5-turbo對敏感指令(例如違反倫理的指令)的攔截失誤率超過40%,但GPT-4降到20%出頭,等於5次會誤判一次,或不良行為指令的阻擋失誤率更不到5%(如犯罪行為教學等)。

還有一個企業用戶最在乎的新功能是,GPT-4大幅放寬了輸入Token的上限,最大放寬到32K,比GPT-3.5的4k上限,多了8倍,達到32,768個Token之多。以每千次中文約700個Token來估算,32k的Token等於可以輸入超過2萬字中文的內容。

不過,目前開放的GPT-4版本只提供8K版本,也就是比原本3.5多了一倍,達到8,192個Token,32K版引擎目前先開放特定對象試用。不過,目前GPT-4效能只達到每分鐘處理40K個Token或每分鐘200次呼叫的能力,OpenAI正在持續優化中,改善後才會擴大開放API試用的用戶規模。

 相關報導  

熱門新聞

Advertisement