【不只解圖還能看手繪草圖生成對應網頁程式碼】多模態的新版GPT-4來了，同時輸入圖文是新特色

OpenAI共同創辦人Greg Brockman在直播中展示，拍攝他在筆記本上手繪的設計草圖輸入GPT-4後，GPT-4能自動生成對應網頁的程式碼。（圖片來源／OpenAI）

就在付費API服務釋出剛滿2周，OpenAI就大動作發表了多模態的GPT-4模型，最大變革是可以同時輸入文字和圖片。OpenAI共同創辦人Greg Brockman在直播中展示，拍攝他在筆記本上手繪的設計草圖輸入GPT-4後，GPT-4能自動生成對應網頁的程式碼，不只畫面幾乎和手繪草圖一樣，還能產生按鈕和對應的事件觸發JavaScript程式，他強調，這會大大改變網站設計模式。

GPT-4目前先開放ChatGPT付費用戶試用，也在OpenAI API支援模型中，開放限定對象選用。已經有少數企業或組織開始試用，例如全球最大財富管理公司摩根士丹利財管，冰島政府，Stripe支付平臺、可汗學院、Duolingo語言學習平臺、Be My Eyes視障者輔助App等，而2月發表的微軟新版Bing用的模型也是GPT-4新版。

可輸入圖文，回答正確率超過3.5

GPT-4最大特色是不只文字對話還能輸入圖片，讓AI來解讀，而且解答能力和正確率大幅超越了GPT-3.5，也更能控制GPT輸出人設來符合企業想要的的形象，輸入Token數量也將大幅增加到32,768個，相當於50頁文字。目前先開放了文字輸入API功能，ChatGPT Plus付費用戶可優先排入試用新版。圖片輸入功能目前則只開放給特定合作夥伴。

GPT-4是一個多模態AI超大模型，可接受圖片和文字輸入，來生成文字的回覆，可以提供人類等級的回答內容。根據OpenAI實測，在全美統一律師資格考檢定上，3.5只能拿到倒數10%的名次，但GPT-4卻能拿到前10%的高分。或像是在SAT數學測驗或GRE測驗等三十多項不同學科的主流檢定測驗上，GPT-4都大勝3.5版。

Open AI花了6個月時間，利用ChatGPT和其他多項對抗式測試計畫來調整，終於打造出答案更真實、更可操控和更能防範濫用的新一代GPT-4。

雖然GPT-4和3.5版的訓練資料同樣都只使用到2021年9月為止的開放網路資料，但是4.0版模型在多項傳統機器學習能力評比上，都超越了3.5版，在多項模型評比上都達到SOTA等級。尤其在14,000題的多選題測試MMLU（理解力）評比上，OpenAI宣稱，GPT-4英文答題的正確率達到80.5%，高於3.5版的70.1%，甚至也高於Google日前的PaLM模型英文答題的69.3%正確率，不過，PaLM答題正確率是OpenAI自行實測的結果，而非Google官方數據。值得注意的是，GPT-4對翻譯成中文版的MMLU答題正確率也達到了80.1%，日語和韓語版也都有70～80％的正確率。

除了答題能力更正確之外，第4版最大特色是能看圖，而且可以同時輸入指定圖片和圖片，GPT-4會以文字來解釋圖片內容，並且符合文字任務的要求。輸入的圖片可以是照片、圖表或螢幕解圖。未來，GPT-4還將持續強化解圖能力，例如可以輸入多組圖片範例，或是提供分解動作解釋的解圖（chain-of-thought）能力。

不過目前圖片輸入功能還處於研究者預覽版本，沒有對外開放，OpenAI也沒有透露開放時程。

GPT-4展示1：摘要圖片重點可以從多張圖組合的畫面中，一一介紹每一張圖各自的重點和特色，如上面3張不同角度的VGA連接線圖片中提供產品說明。圖片來源／OpenAI

GPT-4展示2：解讀圖表趨勢 可以輸入圖表讓GPT-4解讀每張圖表中呈現的數據趨勢變化，甚至可以進一步比較不同項目之間的數據差異。圖片來源／OpenAI

GPT-4展示3：看圖分解動作答題 可以看圖來回答試卷紙上的考題，不只給出正確答案，而且可以分解動作，說明如何一步步從圖中資訊來解答問題。圖片來源／OpenAI

可操控性強，能指定GPT-4扮演的角色來限定人設

另一個值得注意的新版特色是GPT-4的可操控性（Steerability），可以透過輸入的提示或微調模型，來指定GPT-4的角色人設，例如回答的用語、風格、語調等條件，以便限制GPT-4的回覆行為。例如在OpenAI API中使用System角色參數，來要求GPT-4扮演不能直接回答答案的數學課輔老師，在OpenAI釋出的展示範例中可以看到，不管學生怎麼問，甚至輸入特殊提示指令試圖越獄，也都無法得到直接的答案。這個新功能可用來限制和控制GPT-4所能回答的限制，可供企業用來設定想要GPT-4回答的內容範圍，或者禁止回答的內容。

為了防範AI模型遭到濫用，OpenAI在GPT-4模型中也特別針對AI濫用或不當使用進行強化，根據OpenAI公布的實測數據，gpt-3.5-turbo對敏感指令（例如違反倫理的指令）的攔截失誤率超過40%，但GPT-4降到20％出頭，等於5次會誤判一次，或不良行為指令的阻擋失誤率更不到5%（如犯罪行為教學等）。

還有一個企業用戶最在乎的新功能是，GPT-4大幅放寬了輸入Token的上限，最大放寬到32K，比GPT-3.5的4k上限，多了8倍，達到32,768個Token之多。以每千次中文約700個Token來估算，32k的Token等於可以輸入超過2萬字中文的內容。

不過，目前開放的GPT-4版本只提供8K版本，也就是比原本3.5多了一倍，達到8,192個Token，32K版引擎目前先開放特定對象試用。不過，目前GPT-4效能只達到每分鐘處理40K個Token或每分鐘200次呼叫的能力，OpenAI正在持續優化中，改善後才會擴大開放API試用的用戶規模。

相關報導

熱門新聞