Google現在讓開發者可以更方便從檔案資料擷取資訊,並用於建置新的大型語言模型應用程式,這項新功能仰賴BigQuery與Document AI整合。此功能允許BigQuery用戶創建Document AI自定義擷取器,運用基礎模型對檔案和後設資料進行自訂,用戶能夠直接從BigQuery呼叫這些自訂模型,實現從文件中擷取並儲存結構化資料的目標。

過去用戶要建立獨立的Document AI工作管線,需要手動管理擷取邏輯和模式,因為缺乏原生的整合功能,需要自己開發客製化基礎設施,同步和維護資料的一致性,這使得用戶需要投入大量的資源在檔案分析上。而現在Google推出BigQuery與Document AI的整合,用戶可以在BigQuery中,創建用於Document AI自定義擷取器的遠端模型,進行大規模文件分析和生成式人工智慧應用。

首先用戶需要先在Document AI中建立自定義擷取器,藉由選擇樣本檔案,並基於Document AI基礎模型訓練擷取器模型。而Document AI也提供現成的擷取器,可用於處理各種常見檔案類型,像是發票或是身分證件等。

接著,Document AI自定義擷取器便可於BigQuery中使用,透過SQL在BigQuery中註冊遠端模型,呼叫並使用自定義擷取器,來分析檔案擷取相關欄位資料。從檔案擷取出來的資訊,可以進行文本分析、摘要生成和建立各種創新應用。

BigQuery ML支援訓練和部署多種文本模型,可以用來辨識客戶服務通話中的情緒,或是Python開發者也可使用BigQuery DataFrames for pandas,和類似scikit-learn的API來分析資料。用戶也能運用PaLM 2大型語言模型對文件進行摘要,甚至將檔案後設資料和儲存在BigQuery表格中的其他結構化資料整合,開發創新應用。

熱門新聞

Advertisement