圖片來源: 

OpenAI

OpenAI本周稍早在第一屆開發者大會上宣布客製化ChatGPTGPT-4 Turbo等服務後,昨(9)日發表了資料合作夥伴方案(OpenAI Data Partnerships),除了幫企業整理或數位化資料,同時取得網路上找不到的開源與私有資料集來訓練其AI模型。

要訓練出有用且安全的AI,需要其資料集能涵括多種主題、產業、文化及語言,因此OpenAI之前曾和多個組織合作,以將其資料納入其訓練資料集,包括冰島政府及一家軟體業者提供冰島語資料,法律非營利組織自由法律專案(Free Law Project)則提供大量法律文件。OpenAI指出,資料合作夥伴方案的目的在將企業組織的資料加入OpenAI的資料集,以便其模型能產出更正確、符合其產業或文化需求的回應。

OpenAI需要不易在公開網際網路上取得的,且能反映人類社會的大量資料。該公司能處理多種模態的資料,包括文字、圖片、影片及聲音,他們對能表達人類意圖的資料尤其感興趣,像是很長的文字或對話,而非不連續的片段,且不論文字、主題或格式都歡迎。

OpenAI強調,除了取得合作夥伴資料,他們也會用其自行開發的AI科技,協助企業合作夥伴數位化及結構化資料資產。例如他們有光學字元辨識(optical character recognition,OCR)技術可將PDF數位化,或使用自動語音辨識將口語資料錄寫下來。如果資料需要清洗,像是自動產生的符號或轉錄錯誤,OpenAI也能協助處理。OpenAI謝絕包含敏感或個人資料,或是非企業自有的第三方資料,但如果企業資料中包含這些元素,OpenAI也能幫忙去除。

以資料來源區分,OpenAI透過合作夥伴取得開源資料儲存庫,以及組織自有的資料集。OpenAI計畫利用前者訓練開源模型。利用組織自有資料集,他們將訓練自己的基礎AI模型,或是微調及客製化模型。如果合作組織希望保有資料,又希望OpenAI模型能更了解其領域,甚至合作組織自己想開發模型,OpenAI表示會提供合作夥伴屬意的安全防護,以及資料控制權,有興趣的企業組織可以填寫表格以加入合作計畫

這項合作除了幫助OpenAI取得更多元資料訓練其GPT、DALL-E等模型,以提升生成結果的品質,也能避免侵害版權或隱私的爭議。OpenAI過去利用爬蟲技術在網際網路上擷取文字及影音資料,已引來作家出版商的控訴官司。

熱門新聞

Advertisement