| SmolLM-Corpus | 資料集 | 小語言模型 | SmolLM | Hugging Face

Hugging Face公布可在手機上執行的語言模型SmolLM家族

Hugging Face研究人員公布小語言模型家族SmolLM,強調是以謹慎策畫的高品質資料集訓練而成,同時釋出該資料集並說明其內容及規畫方法

2024-07-18

| Youtube | AI模型 | 資料集

蘋果、Nvidia等公司被控未經同意使用YouTube文字內容訓練AI

調查報導媒體Proofnews分析發現,蘋果、Nvidia、Anthropic及Salesforce等業者,使用內含YouTube平臺17萬則公開影片字幕的《The Piles》資料集來訓練其AI模型,但《The Piles》資料集建立者並未取影片作者的使用許可

2024-07-17

| google | 皮膚科 | 資料集

Google公開皮膚病狀圖片資料集SCIN,涵蓋各種膚色與身體部位

Google與史丹佛大學合作創建皮膚病狀圖片資料集SCIN,主要收集不同膚色與身體部位,常見的皮膚病狀照片,補充臨床皮膚疾病資料集的不足

2024-03-20

| IT周報 | 3D物件 | 生成式AI | 資料集 | google | NotebookML | Bard

AI趨勢周報第221期:超過1千萬個3D物件的大型資料集來了

多家頂尖AI研究機構聯手打造超大3D物件資料集,加速零樣本AI發展;彭博社研究發現Stable Diffusion也有膚色種族偏見;盤點全球23家銀行AI成熟度,摩根大通遙遙領先;微軟研究院用LLM打造AutoML工具,可自動調參、選最佳架構。

2023-07-16

| IT周報 | google | Transformer | 機器人 | 導航 | 資料集 | 搜尋 | 大型主機

AI趨勢周報第210期:Google用Transformer模型即時導航機器人

Google成功用Transformer模型即時導航機器人,延遲僅8毫秒;司法院法庭中文語音辨識系統正式上線,準確率超過9成;Google搜尋再優化,新添資料集搜索引擎;Brave搜尋引擎自建生成式AI,幫摘要搜尋結果;IBM大型主機作業系統將擁抱AI

2023-03-09

| 推特 | 資料外洩 | 資料集

推特調查確認未發生新的資料洩漏事件

推特調查近期一系列媒體報導推特使用者資料洩漏的新聞,表示未有新的資料洩漏事件發生,皆是重複以及未包含機密資訊的資料集

2023-01-12

| Linux基金會 | 資料集 | 農業

Linux基金會維護農地邊界資料集,預期將掀起農業服務革命

Linux基金會AgStack專案所維護的資料集Asset Registry,將會收集全球農地邊界,以用於食品追蹤、碳追蹤和田野分析等用例

2022-12-22

| google | 資料集 | 透明度 | Data Cards Playbook

Google釋出資料集透明度工具Data Cards Playbook

Google推出的Data Cards Playbook工具,可用於建立連續且具脈絡的資料及透明度,有了這個透明度基礎,開發人員才能更方便地開發負責任機器學習系統

2022-11-25

| google | 電腦視覺 | 資料集 | Open Images

電腦視覺資料集Open Images V7新增點標籤,可用於實例分割模型訓練

Open Images V7新加入點標籤,研究人員提到,使用點級標籤註解這類稀疏資料,訓練和評估分割模型,與密集註解資料所獲得的效果差不多

2022-11-01

| google | 地理多樣性 | 資料集 | 圖片說明

Google釋出地理多樣性圖片說明資料集Crossmodal-3600

Crossmodal-3600中的圖片涵蓋世界各地理位置,每張圖片都有36種語言的文字說明,能夠用於評估圖片說明生成模型研究

2022-10-16

| google | TensorStore | 資料集

Google開源專門存放N維資料的可擴展儲存TensorStore

Google所開發的TensorStore,可用於儲存複雜的N維資料集,並且提供簡單的API供機器學習應用存取大型資料集

2022-09-26

| MLCommons | 關鍵字 | 資料集 | 語音辨識 | Multilingual Spoken Words Corpus | 開源 | 語音助理

MLCommons釋出多語言口語大型語音辨識資料集

這個以CC-BY 4.0授權釋出的MSWC資料庫,包含50種語言的音訊資料,而MSWC是其中46種語言第一個開源口語資料集。

2021-12-17