OpenAI啟動合作夥伴計畫，以擴大取得模型訓練資料集

圖片來源:

OpenAI

OpenAI本周稍早在第一屆開發者大會上宣布客製化ChatGPT、GPT-4 Turbo等服務後，昨（9）日發表了資料合作夥伴方案（OpenAI Data Partnerships），除了幫企業整理或數位化資料，同時取得網路上找不到的開源與私有資料集來訓練其AI模型。

要訓練出有用且安全的AI，需要其資料集能涵括多種主題、產業、文化及語言，因此OpenAI之前曾和多個組織合作，以將其資料納入其訓練資料集，包括冰島政府及一家軟體業者提供冰島語資料，法律非營利組織自由法律專案（Free Law Project）則提供大量法律文件。OpenAI指出，資料合作夥伴方案的目的在將企業組織的資料加入OpenAI的資料集，以便其模型能產出更正確、符合其產業或文化需求的回應。

OpenAI需要不易在公開網際網路上取得的，且能反映人類社會的大量資料。該公司能處理多種模態的資料，包括文字、圖片、影片及聲音，他們對能表達人類意圖的資料尤其感興趣，像是很長的文字或對話，而非不連續的片段，且不論文字、主題或格式都歡迎。

OpenAI強調，除了取得合作夥伴資料，他們也會用其自行開發的AI科技，協助企業合作夥伴數位化及結構化資料資產。例如他們有光學字元辨識（optical character recognition，OCR）技術可將PDF數位化，或使用自動語音辨識將口語資料錄寫下來。如果資料需要清洗，像是自動產生的符號或轉錄錯誤，OpenAI也能協助處理。OpenAI謝絕包含敏感或個人資料，或是非企業自有的第三方資料，但如果企業資料中包含這些元素，OpenAI也能幫忙去除。

以資料來源區分，OpenAI透過合作夥伴取得開源資料儲存庫，以及組織自有的資料集。OpenAI計畫利用前者訓練開源模型。利用組織自有資料集，他們將訓練自己的基礎AI模型，或是微調及客製化模型。如果合作組織希望保有資料，又希望OpenAI模型能更了解其領域，甚至合作組織自己想開發模型，OpenAI表示會提供合作夥伴屬意的安全防護，以及資料控制權，有興趣的企業組織可以填寫表格以加入合作計畫。

這項合作除了幫助OpenAI取得更多元資料訓練其GPT、DALL-E等模型，以提升生成結果的品質，也能避免侵害版權或隱私的爭議。OpenAI過去利用爬蟲技術在網際網路上擷取文字及影音資料，已引來作家及出版商的控訴官司。

熱門新聞