Google整合BigQuery與Document AI簡化文件資料擷取工作

Google現在讓開發者可以更方便從檔案資料擷取資訊，並用於建置新的大型語言模型應用程式，這項新功能仰賴BigQuery與Document AI整合。此功能允許BigQuery用戶創建Document AI自定義擷取器，運用基礎模型對檔案和後設資料進行自訂，用戶能夠直接從BigQuery呼叫這些自訂模型，實現從文件中擷取並儲存結構化資料的目標。

過去用戶要建立獨立的Document AI工作管線，需要手動管理擷取邏輯和模式，因為缺乏原生的整合功能，需要自己開發客製化基礎設施，同步和維護資料的一致性，這使得用戶需要投入大量的資源在檔案分析上。而現在Google推出BigQuery與Document AI的整合，用戶可以在BigQuery中，創建用於Document AI自定義擷取器的遠端模型，進行大規模文件分析和生成式人工智慧應用。

首先用戶需要先在Document AI中建立自定義擷取器，藉由選擇樣本檔案，並基於Document AI基礎模型訓練擷取器模型。而Document AI也提供現成的擷取器，可用於處理各種常見檔案類型，像是發票或是身分證件等。

接著，Document AI自定義擷取器便可於BigQuery中使用，透過SQL在BigQuery中註冊遠端模型，呼叫並使用自定義擷取器，來分析檔案擷取相關欄位資料。從檔案擷取出來的資訊，可以進行文本分析、摘要生成和建立各種創新應用。

BigQuery ML支援訓練和部署多種文本模型，可以用來辨識客戶服務通話中的情緒，或是Python開發者也可使用BigQuery DataFrames for pandas，和類似scikit-learn的API來分析資料。用戶也能運用PaLM 2大型語言模型對文件進行摘要，甚至將檔案後設資料和儲存在BigQuery表格中的其他結構化資料整合，開發創新應用。

熱門新聞