首批開放資料集取自除了自行錄製的資料外,也結合警察廣播電臺、教育廣播電臺的節目語音資料,經由精準標記後再彙整成高品質數據庫公開釋出。

圖片來源: 

攝影/翁芊儒

科技部今日發布「AI語音數據資料集」,在國網中心資料集服務平臺(NCHC DATA MARKET),首批開放400小時的語音數據資料,要免費授權企業、學研界使用,也預計在年底前上線至少2000小時的資料集,申請辦法則會另行公告於科技部主網站以及臉書粉絲專頁。

首批開放的400小時資料集取自「科技大擂台-與AI對話」的試題庫,除了自行錄製的資料外,也結合內政部警察廣播電臺、教育部教育廣播電臺的節目語音資料,經由北科大電子工程系副教授廖元甫與背後學生團隊協助精準標記後,再彙整成高品質數據庫公開釋出。

資料標記過程,則是先用文字辨識器將語音轉為逐字稿,再用人工方式多次校正逐字稿內容,接著將語句切斷,對齊每一句話出現的時間點,類似上影片字幕的方式校正文字,夾雜英文與臺語的部分也會確實標記。廖元甫表示,釋出資料集是要讓使用者建立更精準的語音轉文字模型(ASR),因為資料不夠是一大痛點,「至少要4000小時的訓練資料,才比較足夠做出商用的模型。」

目前釋出的語音資料會在國網資料集服務平臺上架,免費授權給企業、學研界使用,科技部政務次長許有近表示,要藉由語音資料庫的釋出,來縮短標註訓練資料的人力與時間,也降低語音辨識技術發展門檻,目標要加速開發中文語音對話的核心技術;而接下來也會持續釋出資料集,預計年底前再釋出至少2000小時的資料。

臺灣人工智慧實驗室創辦人杜奕瑾在發布會中指出,語音資料庫的釋出可以讓語音辨識更進步,加速人機互動體驗的創新應用,雖然語意理解(NLP)目前仍然是很大的挑戰,但語音資料庫已經可以解決特定領域的問題,例如雅婷逐字稿可以協助用戶將語音轉譯為文字,可以減少聽打時間60%,辨識準確度也可達80%,是目前臺灣生產力App下載量第一名。

杜奕瑾也表示,PC時代的人機交互介面是鍵盤與滑鼠,智慧型手機時代則是觸控式螢幕,加入AI後,人機互動也有了人臉辨識、語音辨識、語意理解等創新體驗,因此,技術在不斷突破與創新的同時,人機互動也會有新的定義與意義。「敏銳的將生活中的各種體驗進化,才能敏捷的產生社會需要的東西。」

2019/6/27 更正啟事:在AWS Summit Taiwan上,AI Lab技轉授權公司雅婷智慧副執行長Claire Lin,在演講中提到雅婷逐字稿辨識率60%有誤,是減少聽打時間60%,AI Lab已來電澄清,目前語音辨識準確率均達80%以上。內文已更正。


Advertisement

更多 iThome相關內容