GitHub Copilot建議結果包含受保護程式碼，訓練資料來源合法性爭議再起

德州農工大學電腦科學教授Tim Davis在推特上發文，提到GitHub Copilot在他禁用公開程式碼設定下，寫出一大區塊他應受版權保護的程式碼，使用的過程沒有標註歸屬（Attribution），也沒有LGPL授權，他貼出自己與GitHub Copilot在稀疏矩陣轉置、稀疏矩陣加法的程式碼，認為兩者幾乎一模一樣，GitHub Copilo還有其他稀疏矩陣的程式碼，也同樣與Tim Davis的程式碼有高度雷同。

其他開發者按照Tim Davis的設定，重現了這段有爭議的程式碼，System76技術總監轉推了Tim Davis的推文，評論這個事件是GitHub Copilot非法洗程式碼的例子，這串推文引來了GitHub Copilot創造者Alex Graveley回推，他認為Tim Davis所編寫的程式碼和GitHub Copilot產生的程式碼不同，雖然很像但是不同，並提到如果有人可以發明一種演算法，自動辨識程式碼是由其中一方衍生出來的，那就可以申請專利了。

Alex Graveley在自己的推特時間軸發文，寫道GitHub Copilot累積到現在，被指控的問題共有9個，包括剽竊程式碼、在程式碼中引入漏洞，甚至讓人變笨。Alex Graveley嘲諷這些指控，認為是來自恐懼新技術保守人士的莫須有指控。

另一篇在HackerNews引起熱議的文章〈Maybe you don't mind if GitHub Copilot used your open-source code without asking.But how will you feel if Copilot erases your open-source community?〉是一位名叫Matthew Butterick的律師，要帶頭對GitHub Copilot發起訴訟。

Matthew Butterick及其事務所，正在調查GitHub Copilot違反對開源作者和終端用戶法律義務的潛在訴訟案，文中提到，絕大多數的開源軟體都是根據授權發布，這些授權授予用戶部分權利，但同時使用者必須負起某些義務，像是保留精確的程式碼歸屬，這些授權將會是軟體開發者能夠宣稱合法擁有該程式碼的依據。

Matthew Butterick表示，既然微軟和OpenAI都坦承Copilot和Codex，皆使用GitHub公共儲存庫的開源軟體訓練，那就必須遵守授權的義務，或是以授權例外在版權法下合理使用這些程式碼。如果微軟和OpenAI都是根據各自的開源授權使用程式碼儲存庫，則必須發布大量的程式碼歸屬，但Copilot並沒有提供明顯的歸屬。

因此微軟和OpenAI勢必需要宣稱GitHub Copilot為合理使用這些程式碼，GitHub執行長Nat Friedman也在Copilot技術預覽階段，稱Copilot在公共資料上訓練機器學習系統是合理使用。不過這個論點軟體自由保護協會（Software Freedom Conservancy）並不買單，而且微軟和OpenAI也沒有提供GitHub合理使用這些程式碼的法律地位。

這件事情很重要的原因，Matthew Butterick認為，Copilot切斷開源軟體作者與開發者中間的法律關係，也就是微軟建立起了新的圍牆，使開發者無法探索開源傳統開源社群，開源作者被隱藏在Copilot的大型程式碼庫中，進而嚴重傷害開源社群發展，因此在損害變得難以彌補之前，他必須測試Copilot的合法性，所以才發起訴訟。

他也強調，他並非反對人工智慧輔助工具，但微軟可以選擇對開源社群更為友善的路徑，像是號召自願者，或是徵求有償貢獻訓練語料庫。

熱門新聞