AI趨勢周報第204期：更可靠生成EHR資料！Google AI研究院發表新方法

圖片來源:

螢幕截圖

重點新聞(1223～1229)

EHR Google AI 生成

更可靠生成EHR資料！Google AI研究院發表新方法

Google AI研究院日前發表一種新方法，能以更安全的方式，生成更可靠的EHR（電子健康記錄）資料，來推進醫療AI的發展。進一步來說，用EHR訓練的模型，可用來預測民眾發生特定疾病的風險，如糖尿病，或是對藥物的反應。不過，EHR屬於高機敏資料，要用來訓練模型，得先去識別化，這一步可能扭曲原本資料中的關鍵資訊，不僅降低效果，也有資料隱私的風險。

因此，Google AI研究院想出一種新的資料生成方法，打造一套EHR資料生成模型EHR-Safe，可兼顧高真度和隱私。EHR-Safe由序列性編碼器-解碼器和GAN組成，因為團隊認為，GAN很難根據原始EHR資料直接合成新資料，因為EHR多為異質性資料。因此，他們認為，以序列性編碼器-解碼器架構來學習原始EHR資料到潛在表徵的映射，能解決數字分布和分類分布嚴重不對稱的問題。

後來，團隊也以2個EHR資料集MIMIC-III和eICU來驗證模型，並發現，在大多數情況下，合成數據和原始數據的最高分布函數（CDF）差距小於0.03，表示合成數據和原始數據在統計上非常接近。此外，在保真度指標上，團隊選定死亡率預測，來比對原始數據訓練的模型，以及以合成數據訓練的模型。結果，兩類中表現最好的模型相比，MIMIC-GBDT III的差異只有2.6%，eICU差異則是0.9%。在隱私測試方面，Google則發現，要從合成數據中推導出原始資料的機率，等於隨機猜測，表示資料隱私可被保護。（詳全文）

醫療QA Benchmark 大型語言模型

Google打造醫療QA Benchmark，要來驗證大型語言模型生成能力

科技巨頭和各路好手打造各種大型語言模型，最近爆紅的ChatGPT也是其一，這些模型可生成各種看似縝密的回答，但在醫療問答等專精領域，卻未有一套基準測試（Benchmark）來衡量。

於是，Google與DeepMind聯手，開發一款專門用於醫療QA的基準測試MultiMediaQA。該基準測試包含7大醫療QA資料集，也就是MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA、MMLU和HealthSearchQA。這些資料集涵蓋專業醫學檢查、研究和顧客詢問等領域，其中，HealthSearchQA包含顧客詢問資料集，有3千多個常見的醫療查詢問題。

該基準測試可用來衡量模型的真實性、準確性、潛在危害和偏見。團隊也用MultiMediaQA來測試Google開發的大型語言模型（5,400億參數）和其變形Flan-PaLM，發現後者在每項MultiMediaQA多選題資料集中都達SOTA水準，甚至在美國醫學執照考試資料集MedQA得到67.6%準確率，比現有最佳模型高出17%。不過，在人工評估階段，卻發現該模型的回答有些關鍵鴻溝。於是，團隊用指令提示微調方法，來改善模型，讓大型語言模型能更對齊新領域知識。新模型Med-PaLM雖進步很多，但與臨床醫師仍有一段差距。（詳全文）

大型模型 人工標註 指令

大型模型人工標註成本好高？華盛頓大學新方法省時省力

要打造ChatGPT這類大型模型，需要大量人工標註訓練資料才行，但並非所有人都能負擔。為此，華盛頓大學聯手艾倫AI研究院、約翰霍普金斯大學等機構，設計一套SELF-INSTRUCT框架，能用模型自行生成的指令，來引導模型，強化大型語言模型遵循指令的能力。

具體的工作流程是根據一個語言模型生成指令、輸入值和輸出值樣本，接著修剪這些生成值，再用來微調模型。經測試，該方法可提高GPT-3的效能達33%，與人工標註資料訓練的InstructGPT_001一樣。（詳全文）

生成式AI 簡報 史丹佛大學

史丹佛博士生打造ChatBCG，輸入文字就能生成英文簡報

受ChatGPT啟發，史丹佛大學兩位博士生Silas Alberti和Joseph Semrai打造一款生成模型ChatBCG，來實作BCG-3雙向條件生成模型，使用者只要輸入一個主題或提示，就能得到一分簡報。該簡報自有一套配色，也能圖文並茂，還會穿插粗體關鍵字和條列式的Bullet point。生成後，使用者也能調整配色和編輯內容，其他功能如資料圖表生成、對話式編輯和部落格文章匯入，則是接下來將新增的功能。

使用者可將簡報以PPTX或PDF格式輸出。不過，官網貼出公告，由於受到大量使用，其用量已快超過OpenAI API限額，使用者只能使用範例，團隊正想辦法克服問題中。（詳全文）

Adobe 降噪錄音

Adobe提供免費降噪AI服務

Adobe近日開放一款免費工具，能替錄音去除背景噪音，讓一般環境下錄製的Podcast也能有專業錄音室品質。這項工具名為Enhanced Speech，源自Project Shasta的AI研究專案，Adobe不久前才將Project Shasta改名為Adobe Podcast。

用戶註冊或登入Adobe帳號，就能使用Enhanced Speech。這項服務以桌機瀏覽器登入，體驗最好。使用者可以上傳最多1GB的MP3或WAV檔案，幾分鐘就能完成降噪。用戶可在瀏覽器器聽取，或將聲音檔下載到電腦。（詳全文）

OpenAI 嵌入模型 Davinci

OpenAI新嵌入模型比Davinci更優更便宜

OpenAI發表新嵌入模型text-embedding-ada-002，功能更強大、成本更低，且用起來也更容易，可取代文字搜尋、文字相似性和程式碼搜尋等5個獨立模型，價格還比之前最強大的模型Davinci，便宜了99.8％。

OpenAI表示，嵌入是指將概念的數字表示轉換為數字序列，讓電腦能簡單理解概念之間的關係，Text-embedding-ada-002就是一種嵌入模型。text-embedding-ada-002也能夠處理更長的上下文，是舊模型長度的4倍，從2048增加到8192，用戶能更簡單處理長文件。text-embedding-ada-002還有較小的嵌入，新嵌入只有1536維，是davinci-001的八分之一，較小的嵌入使向量資料庫更具成本效益。與相同大小的舊模型相比，text-embedding-ada-002價格降低了90％，只要0.2％的舊模型價格，就能獲得比Davinci更好或類似的效能。（詳全文）

3D模型 生成式AI 文生圖

輸入文字就能快速產出3D模型！OpenAI釋出新AI

OpenAI發表一套AI模型Point-E，可根據文字輸入產生3D模型，還比其他方法快上一到兩個量級。目前，文字生成圖像模型發展成熟，先進的模型在數秒內，就能生成高品質圖像，但3D模型生成仍不如文生圖成熟。

而OpenAI採用整合方法，利用文字轉圖像和圖像轉3D模型技術，來打造Point-E。因此，Point-E首先用文字生成圖像模型進行採樣，然後將採樣圖像作為條件生成3D物件樣本，這兩個步驟可在數秒鐘內完成模型點雲，不需要昂貴的最佳化程序。最後，團隊採迴歸方法，從點雲生成網格，整個過程只要1、2分鐘，就能在單個GPU上生成3D模型。雖然目前Point-E所產出模型品質較差，但在需快速回應的案例上，是一個權衡方法。（詳全文）

Document AI OCR PDF

Google OCR引擎預覽新功能

專門提供OCR辨識服務的Google Document AI更新OCR引擎，加入3個預覽功能，讓Document AI可評估文件光學品質、支援數位PDF，以及OCR版本控制。

Document AI採用Google雲端和自家研究院團隊開發的ML模型，能處理非結構化文件、從中擷取文字和段落，能處理200多種語言。Document AI OCR引擎的第一個更新，是針對頁面層級的智慧文件品質（IDQ）評估，含模糊、小字體、眩光等八個維度頁面品質指標。第二個新功能可完全支援數位PDF檔案，能擷取和來源文件完全相同的文字和符號。而OCR版本控制功能，能讓用戶凍結OCR模型行為，確保OCR行為一致，不受模型更新影響。（詳全文）

圖片來源／Google AI、華盛頓大學、ChatBCG、OpenAI

AI近期新聞

1. ML.NET 3.0加入英特爾oneDAL函式庫加速模型訓練

2. Amazon釋出ML不確定性量化函示庫Fortuna

資料來源：iThome整理，2022年12月

熱門新聞