Google不只推出了Gemini新模型,也推出了Web版GAI開發工具AI Studio,可以輸入文字和圖片,也可以支援繁體中文。放上照片,詢問照片特色有什麼?Gemini會自動產生

公雲巨頭紛紛瞄準企業生成式AI開發需求,推出了各自的GAI技術架構和開發套件。緊接在11月底AWS揭露GAI產品戰略之後,Google也在12月初,發表了最新也是他們最強的LLM模型Gemini,隔周更在GCP的AI開發套件Vertex AI上釋出了企業用的Gemini Pro版模型預覽版,開放企業免費試用。Google同步推出Web版AI Studio開發工具,也將自家MLOps開發平臺Vertex AI轉為聚焦企業GAI開發的LLMOps平臺,要涵蓋開發、部署到維運更多模型生命周期階段的需求。

Google在12月初正式發表了Gemini,包括高階Ultra版,中階Pro和低階Nano版模型。Gemini Ultra將可以同時分辨和理解文字、圖片和聲音,也可以用來分辨和解釋幾種熱門開發語言,包括Python、Java、C++。Google推出Gemini模型時就強調,與其他知名大型語言模型如GPT、LLama最大差異是將提供一個行動裝置的小參數模型Nano版Gemini。

Google先在Vertex AI平臺上架了Gemini Pro模型API預覽版,這是Gemini三款模型中的中階款。又細分為兩款API,目前只支援文字輸入和文字生成的Gemini Pro,最大可以輸入32K個Token,支援38種語言。另外,也提供了Gemini Pro Vision端點,可接受文字和影像輸入,但只能輸出文字,Google在記者會上實測展示時,則可以直接輸入一段影片,讓模型來判讀影片中的元素。Google用「模型端點」而非另一款模型來形容第二款API,意味著,這是同一個Gemini Pro模型,只是多釋出影像功能API來區隔版本。

Vertex AI上已經可以選擇Google新版LLM模型Gemini Pro版本,也可使用Gemini Pro Vision版本,可直接上傳一段影片,讓模型來分析影片中的元素。

Gemini Pro從現在開始提供企業和開發者免費測試,2024年才開始正式收費,輸入和輸出都要計價,將按輸入文字每千字0.00025美元(10萬字約臺幣1元)或每張圖0.0025美元,而輸出則是每千字0.005美元(10萬字約臺幣15元)。

而Gemini Pro的SDK目前支援了資料科學主流語言Python、兩大行動平臺Android的Kotlin和iOS應用的Swift,另外還包括了Web前後端開發主流JavaScript和Node.js語言。從Pro版SDK所支援開發語言種類更可以反映出,Gemini Pro格外注重未來的行動AI應用開發需求。

除了自家新模型之外,Vertex AI的模型花園中,也一並增加了文字生成圖片的Imagen 2模型,可以生成更擬真的圖片。另外也將在數周後釋出了一個以Med-PaLM 2模型為主打造的醫療GAI模型產品集稱為MedLM,中國醫藥大學附設醫院將是亞洲第一家採用這款醫療GAI模型的醫學中心。用醫療資料微調過的Med-PaLM 2以85分高分通過了美國醫生執照考試,可以達到醫療專科醫生的回答水準。

推出Web版AI開發工具,Vertex AI也強化模型開發到部署功能

除了新模型上架化,Google也正式推出了免費的Web版GAI開發工具AI Studio,(前身是MakerSuite),預設就是使用Gemini Pro或Gemini Pro Vision來開發AI應用,每分鐘可以免費使用60次模型請求。實測AI Studio,目前已經可以輸入中文,也能產生繁體中文的內容,不過,AI Studio上的Gemini Pro模型目前只支援到2023年8月的資料。

AI Studio已經可以支援中文提示和生成繁體中文回應,紅色框中文字是輸入的提示文字,Gemini Pro Vision可以自動判別出貓咪身上特徵,甚至連領巾上的圖案都可以分辨。

Google在今年5月開始大幅升級機器學習開發平臺Vertex AI,更聚焦提供各種生成式AI的開發工具。在這個平臺的模型花園清單上,提供了超過130種通過Google企業級安全品質審查的ML模型,包括了開源和第三方提供的商用模型。在模型客製化上,這個平臺提供了多項微調方法,例如提示設計、LoRA微調、人類回饋增強學習RLHF等。

隨著這次新模型釋出同時,Google也宣布了多項Vertex AI更多新功能,從模型增強,與外部資料或API的互動,多模型的協作框架,自動化模型評比,更多GAI控制機制等,逐漸從模型開發,延伸到了模型部署,維運管理等LLM模型的MLOps流程。

Vertex AI增強工具主要提供三大功能,包括強化搜尋常用的嵌入檢索機制,設定配置就能快速建置的RAG(檢索增強生成)工具,也可以串接外部的向量資料庫,圖片或影音轉換成向量後可以儲存到向量資料庫,透過Vertex AI使用Gemini來實現多模態的嵌入檢索,可使用GCP託管或第三方的向量資料庫。Vertex AI將提供到18種不同的GAI控制或負責任控管機制,例如可以自動引用連結檢查,企業基礎正確性比較,或像是不宜用語和不雅影像過濾等。

此外,Google也將陸續提供3項模型與外部環境互動的能力,8月先宣布了預覽版外掛機制(Extension),可以連結到外部資料源或是外部應用,讓生成式AI模型可以取得即時的外部資訊,甚至可以代表模型操作者的身份,在授權後取得個人化的AP資料。後續,Google將新增「函數呼叫」(Function Calling)能力,可以將Gemini生成的結果自動匯出成一隻API或一隻函式程式。企業可以在這隻功能性API中再次優化模型輸出的結果。

將推出多GAI模型協作的調度框架

另外一項將新增的功能是調度(Orchestration)多模型協同運作的能力,Vertex將可以用來調度多個模型互相運作。例如在手機上用Nano版模型接收使用者口說的問題,先將問題聲音轉成文字後,再拋轉到雲端的Pro版模型來生成回答,然後再拋轉給使用者。Google將提供一套調度框架,可以用來串連和連結不同模型共同產生更好的回應內容。不過,Google還沒揭露這套調度框架的釋出時程。

在這次新版Gemini預覽版釋出同時,Google也揭露了Vertex AI平臺多項模型評估和部署新功能,模型自動評估矩陣從單一模型評估,新增加了多模型評比功能Auto SxS,可以一對一自動比較兩個模型對指定任務的執行結果,例如進行不同模型的A/B測試之用,或是比較微調前後,或相同模型但不同參數大小的效果。當模型部署上線後,可以追蹤每一次回應從輸入到輸出的速度來了解模型效能。

Google新推出的AI Studio與Vertex AI採用了相同的資料安全和隱私控管機制,都可以支援顧客自帶金鑰、VPC控制、存取透明度紀錄和IAM權限控管。Google Cloud執行長Thomas Kurian在發布記者會上強調,企業資料只有企業自己可以存取,其他任何人,就連Google都無法看到模型輸入、輸出或每一項人類回饋到企業模型的資料。

今年3月,Google釋出了NoCode的AI工具Vertex AI Studio,主要提供兩種常見企業AI應用的快速開發,包括了「搜尋」和「對話」應用,這兩項應用將會在2024年初開始支援Gemini模型。目前搜尋功能只能針對單一資料來源查詢,2024年時將新增一項「混合搜尋」(Blended Search)應用,只需要輸入一個搜尋指令,就能用Gemini來搜尋不同資料來源上的多模態資料,包括企業內部私有的結構化資料與非結構化資料,還有外部的公開資料。

Google預計在2024年初正式推出Gemini模型後,會整合到更多服務中,包括了Google企業級進階搜尋服務將開始支援多模態嵌入向量搜尋。而Duet AI for Workspace明年初也會引進Gemini模型,可以對分析內容提供多模態的進階理解能力。文⊙王宏仁

熱門新聞

Advertisement