圖片來源: 

GitHub

GitHub最近於自家部落格中,公布去年度機器學習和資料科學專案相關的報告,其中,平臺上機器學習專案最熱門的語言,前3名分別是Python、C++和JavaScript,而最受歡迎的函式庫為Numpy,7成以上的機器學習專案都使用了Numpy函式庫,Scipy函式庫則是占了近5成。

GitHub在去年10月公布的2018年度Octoverse報告中指出,機器學習和資料科學是GitHub上的熱門主題,其中, Google的機器學習框架Tensorflow最受歡迎,而臉書推出的深度學習框架Pytorch則是成長最快速的專案,Python則是第三熱門的程式語言。最近GitHub決定深入探討機器學習和資料科學領域的數據,萃取出2018年度整年GitHub平臺上的貢獻數據,包含發布程式碼、提出Issues、提交審核請求等,針對大多數導入的函式庫,GitHub則採用包含所有公開和私人儲存庫(repository)的依賴關聯圖(dependency graph)來分析。

在機器學習專案中,熱門程式語言Top 10的排行榜上,C++、JavaScript、Java、C#、Shell和TypeScript都是GitHub平臺前10名的熱門語言,值得注意的是,Julia、R和Scala並不在整體GitHub平臺前10名熱門語言的排行榜中,Julia和R語言通常被用於資料科學的專案中,而Scala則是因為像是Apache Spark的大數據運算框架,變得越來越熱門。

Numpy函式庫具備平行處理能力,支援多維度陣列和矩陣的數學運算,在機器學習專案中,能夠處理龐大的資料量,因此以超過7成的機器學習專案占有率,成為最受歡迎的ML函式庫,另外,負責運算的Scipy、管理資料集Pandas和提供視覺化的Matplotlib函式庫,在ML專案中,都有超過4成的占有率。


Advertisement

更多 iThome相關內容