| 臉書 | 機器翻譯 | 資料集 | FLORES-101 | 多語言翻譯 | AI

臉書開源可精確評估多對多翻譯模型的Flores-101資料集

FLORES-101是可用來評估翻譯模型的測試資料集,包含了101種語言的語句,其中有80%為低資源語言

2021-06-07

| google | 資料集 | 參照基礎架構

Google公共雲端資料集解決方案現加入商業資料集

Google公共雲端資料集現在提供更豐富的資料集類型,供企業探索並且可結合私人資料集,獲得深入且獨特的分析結果

2021-05-24

| 臉書 | AI | 偏見 | 資料集

臉書釋出新資料集供研究人員評估人臉辨識系統偏見

Casual Conversations資料集是由臉書付費召集參與者,所收集而來的人像影片,由參與者自己提供年齡和性別,並且經訓練人員以費氏量表標記參與者的膚色

2021-04-12

| google | 機器學習 | 資料集 | 電腦視覺

Google要借助群眾外包力量創建未知物測試資料集

CATS4ML要挑戰者從開放圖像資料集中,找出機器學習模型對答案很有把握,但是實際上卻錯誤分類的例子,這些例子可用來避免未來模型可能發生的錯誤

2021-02-16

| google | 資料集 | 模型幻覺

Google發布表格文字生成資料集ToTTo

Google採用新的註釋程序,產生乾淨無雜訊的表格到文字資料集ToTTo,並且提供可用來評估模型幻覺的方法

2021-01-20

| google | 資料集 | 搜尋引擎

Google普查網路資料集,數量大宗為社會科學,地球科學次之

網路上有接近三分之一的資料集屬社會科學領域,但位居第2名的地球科學資料集,可查詢性、互通性和可重用性都是最好的

2020-08-26

| arXiv | 資料集 | Kaggle | 數位筆跡 | 經濟決策 | IT週報 | AI

AI趨勢周報第140期:arXiv聯手Kaggle,要打造全世界最大的機器可讀資料集

全球最大電腦科學論文平臺arXiv與Kaggle共同打造出具170萬篇論文的機器可讀資料集,要讓開發者設計不同模型,來打造如趨勢分析、論文推薦、類別預測和語義搜尋等應用;Salesforce開源自家經濟決策AI專案AI Economist,透過深度強化學習來模擬稅收政策對人民的影響。

2020-08-13

| Mozilla | Common Voice | 資料集

Mozilla釋出最新長達7,226個小時的Common Voice語音資料集

最新的語音資料集共包含54種語言,550萬個語音剪輯,總語音長度達7,226個小時。

2020-07-06

| google | 少樣本分類 | 資料集

Google釋出少樣本學習資料集Meta-Dataset

少樣本分類是讓模型只以幾張圖像就能進行分類,而Meta-Dataset提供了一個用於評估少樣本分類模型效能的基準

2020-05-15

| google | Borg | 資料集

Google開放比8年前更大更完整的Borg叢集追蹤資料,供雲端技術研究用

由於機器與軟體經過8年發展,已經與過去有很多大的不同,因此Google再次釋出新的Borg叢集追蹤資料

2020-04-30

| google | 聲音分離 | 人工智慧 | 資料集

Google開源可用來訓練聲音分離模型的資料集FUSS

Google利用CC授權的音訊剪輯,結合使用自家開發的房間模擬器,創建了2萬多個訓練、驗證和評估用的錄音

2020-04-11

| 國網中心 | 超級電腦 | AI | 武漢肺炎 | 資料集 | 算力

你有鍵盤、我有算力!國網中心免費釋出超級電腦資源,號召各界提案來開發防疫應用

為加速遏止武漢肺炎疫情,科技部國研院國網中心宣布啟動「御守臺灣・科技抗疫」專案,將釋出臺灣AI雲的算力和資料集平臺資源,號召各界好手來發想、提案,主題不限於醫療相關。

2020-04-02