字節跳動在2018年開發AI小記者小明,透過結合影像理解與文字生成技術,來辨識出一隻足球賽影片的球員與其行為,紀錄下哪個球員在何時進球得分,並自動生成文字描述來完成一篇報導。(圖片來源/字節跳動)

開發出今日頭條、抖音(Tik Tok)等熱門手機App的中國企業字節跳動(ByteDance),如何透過AI來改變網路數位內容的產製與傳播?字節跳動副總裁兼AI實驗室負責人馬維英表示,AI能降低內容創作的門檻,讓內容產業不再由技術、財富持有者來主導,而是賦予每個人都有產出高品質內容的機會,隨著AR/VR技術成熟,讓虛實內容的界線不再壁壘分明,再加上AI、5G技術崛起,人們能更容易接觸、運用網路,馬維英將這些轉變稱為「內容創作的民主化」。

馬維英說,在自己的學生時期,約1990年代初期,當時知識的傳遞大多靠紙本書籍,由人群中占少數的作家擔任知識傳遞的角色,直到PC、網路技術進入家家戶戶,透過搜尋引擎的技術,人民才開始能透過網站更容易的搜尋資訊,不過,當時大部分的網路內容,還是由職業性組織所提供(Occupationally Generated Contents)。

進入了智慧型手機的時代後,社交通訊App興起,人們轉為以手機介面作為瀏覽、傳播資訊的平臺,儘管內容生產者還是專業人士居多,但已經逐漸走向一般個人。直到現在,隨著AI、5G、IoT技術的到來,相較於過去20年,不僅知識的傳播與搜尋更便利,所有科技工具也不再難以接觸,讓個人也能更容易生成並傳播內容,「AI能夠降低專業內容創作的門檻。」

馬維英舉例,文章推薦引擎App今日頭條,就是AI促使內容搜尋技術轉變的例子。今日頭條透過資料探勘與個人化推薦機制,除了根據用戶瀏覽行為來推薦文章,用戶檢索關鍵字時,也運用個性化排序技術來提供內容,也就是說,「你使用的頻率越高,App就會更加個人化、智能化。」他更表示,隨著不斷更新深度學習模型,搜尋引擎檢索功能也不斷改良,人們獲得資訊的方式與過去有很大的差異。

而全球用戶月活躍用戶超過5億人的抖音,更是靠AI降低內容創作的門檻,一躍成為全球年輕社群最愛用的短影片創作平臺之一。透過在手機端即時執行AI任務,用戶能製造各類特效,進而創作短影片來分享生活,除了作為一般娛樂用途,也能利用短片來廣告,或傳播具有教育性、新聞性、商業類型的內容。

抖音如何用AI輔助內容創作?

馬維英介紹了各類短影片的AI應用。比如在影像辨識方面,抖音提供人臉、身形、身體關節點、手勢辨識等技術,讓用戶透過與手機互動,即時觸發特效來創作,實際的功能,包括運用3D姿勢辨識技術,讓用戶擺動身體的同時創建動態虛擬人物,或透過手勢辨識技術,來與背景環境互動,甚至結合生成對抗網路(GAN)技術,來生成用戶臉部年輕、老化、不同性別的狀態,而商業化的運用,還能結合腳部姿勢追蹤技術,模擬用戶試穿鞋子的過程。

在擴增實境(AR)方面,抖音目前能做到在用戶拍攝地標的過程中,辨識地標影像並加入動畫特效。馬維英說明,這項技術的開發,需要先蒐集各大地標不同角度的照片,建構出3D虛擬模型,再讓用戶下載到手機中。當用戶手機定位到位於特定地標附近,並透過拍攝畫面確定所在方位後,就能即時根據畫面加上AR特效,比如上海的東方明珠,就能加入類似飛碟環繞的特效。

而在語音辨識方面,抖音除了應用語音理解技術,來標籤各種音樂類型,進而向用戶進行個人化音樂推薦,也開發語音轉文字(ASR)、文字轉語音(TTS)等技術,自動生成影片字幕、辨識歌詞,用戶也能用來編輯影片字幕、或製作有聲書。此外,抖音也開發了節奏追蹤技術,根據音樂節奏來自動編輯影片,讓影片轉折處符合節奏的變化,甚至開發出音樂創作的功能,根據用戶選擇的節奏與和弦,透過作曲演算法自動生成背景音樂,再由用戶加入歌聲,來錄製出一首完整的創作歌曲。

除了各種輔助內容創作的AI技術,所有內容影片的分類與標籤,也會用AI來做大規模的影片理解。比如透過物件分類、偵測、追蹤,以及語義分割、表情分析等技術,來自動抓出一隻彩妝廣告的代言者身分、年紀、性別、表情、口紅品牌、色號、彩妝顏色等資訊,定義出如消費品、高檔化妝品、高檔彩妝等關鍵詞來進行分類。

同時,針對抖音中假影片的問題,研究團隊開發對抗式ML技術來偵測;面對影片盜用造成侵權的問題,研究團隊則透過多種技術偵測相似的內容來一一比對,馬維英表示:「這個問題非常有挑戰性,因為影片內容不一定會完全重複,使用者會聰明地加工來躲避審查。」但他強調,這些問題很重要,他們也致力尋找解決方法,「要找到科技應用與濫用間的平衡,做對的事情。」

不單用一種AI模型,字節跳動也會混合多個模型。比如結合ASR、NLU、個性化TTS等技術,開發出能根據影片談話內容即時口譯成其他語言的技術,還能模仿口譯聲音與原影片相似。又或者AI小記者的技術,則是透過結合影像理解與文字生成技術,根據影片自動以文字描述關鍵情節,比如辨識一隻足球賽影片的球員與其行為,紀錄下哪個球員在何時進球得分,自動生成文字描述來完成一篇報導。

馬維英認為,AI時代的新機會,是運用AI來賦予人們創造內容的能力,且要進一步讓AI能夠創作內容與理解內容,輔助人類來讀寫。


Advertisement

更多 iThome相關內容