臉書早在2013年12月就設立了人工智慧研究院(Facebook AI Research,簡稱FAIR),加入了Google、IBM、微軟、百度等軟體巨頭競爭的人工智慧競賽,不只挖角蘇聯的統計學習理論之父Vladimir Vapnik,甚至,還找來深度學習三大權威Yann LeCun擔任AI研究院院長,但3年多來,除了偶爾在臉書年度F8大會上揭露一、兩項研究計畫之外,就很少對外公開研究成果。
直到今年4月的F8大會,臉書一舉發布了多項利用AI技術打造的應用,還發表了臉書第一個可以部署於正式環境的深度學習框架Caffe2,Yann LeCun也親自出馬上臺展示臉書AI研究成果,才讓眾人驚覺到臉書在人工智慧上的能耐。
但是臉書想做的到底是什麼?臉書AI研究院院長Yann LeCun近日終於在來臺的一場座談會中,揭露了FAIR在臉書的戰略地位,「AI是臉書眾多產品的中心!」他一語道出了FAIR研究成果,對臉書的重要性。
Yann LeCun表示,臉書創辦人祖克柏在2013年12月於加州的門洛帕克成立了FAIR,當時臉書成立即將屆滿10周年,祖克柏正思考著臉書在接下來的10年要投入哪一項技術研究,來發揮臉書主要的核心「溝通與連結」,並且持續保有市場競爭力。
祖克柏最後想出來的答案正是AI,他將AI視為「隱藏的知識」,期望將來將AI技術加入臉書創造更多新的應用,像是VR的應用、人臉識別技術等,另外,Yann LeCun表示,即使臉書目前在全球擁有20億的使用者,還是有許多地方的人沒有辦法使用臉書,其中一個主要的原因是有些未開發的國家網路是不普及的,因此,臉書也致力於在這些地區建立基礎建設。
FAIR的主要任務就是要將AI技術推向下一個里程碑,Yann LeCun表示,剛開始FAIR是由3個科學家和7個工程師組成的小團隊,至今大約成立3.5年的時間,FAIR已經分別在加州門洛帕克、紐約、巴黎設有3個據點,每個辦公室大約都有30個人的規模,成員大約60%為博士以上的研究學者,40%為工程師,其中包括博士後研究和就讀博士中的研究學者,以及實習生。
研究團隊3大工作原則
這個在臉書公司內才創立3.5年的新部門,有別於一般研究單位,部門內氣氛相對活潑,Yann LeCun表示,FAIR團隊從事研究時的工作哲學包括了3大原則,就是開放(Open Research)、由下而上(Bottom-up)和探索(Exploratory Research),FAIR的研究不是單打獨鬥,而是經常與會大學和研究機構共同合作,也會公開所有的研究成果,不僅如此,還將研究成果開源釋出,組織內不是只由管理階層提出計畫,大部分的計畫反而是由研究學者自行發起,還有些計畫是由開發團隊,甚至是產品線的成員負責,再由工程師一同協助。
FAIR主要研究的方向大致可分為AI技術相關研究、電腦規劃(Reasoning/Planning)、電腦知覺(Perception)和自然語言理解,AI的研究包含機器學習和深度學習的技術、非監督式學習和強化學習的方法,以及建立模型和研究因果推理,電腦規劃則是研究遊戲領域的應用,像是圍棋、2D和3D的遊戲,電腦知覺包含語音和視覺,自然語言理解則是聚焦於研究對話系統和Chatbot、文字辨識和翻譯等。
目前臉書在GitHub上已開源釋出多項專案,包含深度學習框架Torch、電腦圍棋程式DarkForest以及採用卷積式神經網路的機器翻譯FairSeq等。
在各個專案投入的預算經費上,FAIR也有一套獨特的作法,Yann LeCun表示,他對於各個專案經費的投入沒有固定預算,而是採用彈性編列的作法,他認為,不能只投資應用導向的專案,應該也要投資研究導向的專案,因為研究就是驅動新技術、應用的動力,而從純理論發起的研究專案,他會給予專案團隊3到5年的研究時間,當一個專案慢慢壯大的時候,也會視情況投入更多的人力和預算。
另外,Yann LeCun信任FAIR團隊的專業,他認為,研究學者了解要致力於研究哪一個專案,並不會干涉團隊的運作,「對一個團隊管理太過嚴謹,會扼殺創意。」他說,因此,發起專案的人並不一定是管理階級,且每個專案通常不會獨立執行,而是會與2個以上的專案一同合作。
臉書利用AI技術發展出許多相關應用,舉凡像是貼文的排序、過濾和翻譯等,甚至是Chatbot都離不開AI技術,Yann LeCun表示,其實臉書許多AI的應用都是由機器學習應用團隊(AML)和FAIR合作完成的,AML的團隊規模大約為FAIR的兩倍,主要負責提供臉書AI軟體的基礎建設,像是深度學習引擎Caffe2和機器學習模型管理平臺FBLearner Flow,簡單來說,AML團隊就是負責將FAIR最新的研究技術產品化,創造出新的應用,舉例來說,臉書可以利用AI技術來判斷貼文的圖片或是影片的主題、物體,還能判斷出照片的拍攝場景是在室內還是室外等。
3大AI應用將帶來根本性的變革
目前在各行各業都能見到AI應用的身影,Yann LeCun認為,未來有3大AI的應用非常重要,會造成根本性的改變,第一是自駕車,他說明,自駕車的應用會改變整個城市的設計方式,包括交通和停車場的規劃等,還能降低每年因交通事故意外身亡的死亡率。
第二則是醫療的應用,他舉例,臨床診斷上重要的核磁共振攝影(MRI)是因為醫生要人眼辨識才生成影像,若是透過電腦辨識,則不需要產生影像,電腦直接讀取像素的數據,分析完後就能馬上提供病人檢查報告,另外,醫療上有些較簡單的醫療案例也可以交由機器處理,複雜的案例再由醫生來判斷,「AI是可以救人的,並不是終結者,」他表示,如此一來,也能讓更多人獲得醫療資源而拯救更多人命。
最後,Yann LeCun認為,AI的應用讓人類可以更快速且便利的獲得知識,簡單來說,像是Chatbot可以改變人類獲取知識的形式,使用者可以用隨身攜帶的手機、Amazon的Echo等智慧裝置,隨時隨地詢問Chatbot任何資訊,包含新聞、論文和文章等,還能即時翻譯資訊,Yann LeCun補充,目前AI已經可以達到同步翻譯的能力,未來翻譯的職位可能會漸漸地消失。
AI目前還無法成功模仿人腦運作
Yann LeCun在眾多演講中提及,目前AI技術的局限就是無法擁有人類的「常識」,由於電腦程式和人類對於世界的學習方式不同,人類是藉由觀察和感知來建立對世界的理解,但是電腦程式所有的模型,都是由人類歸內出一套邏輯所建立的,因此,他坦言,「要AI模仿人腦的運行模式,我們還差的很遠!」他點出這是目前AI最大的障礙,且還沒有任何辦法可以解決此問題。
他指出,人類的學習是建立在與事物互動的過程,許多都是人類自行體會、領悟出對事物的理解,人類並不需要每件事都要經過教導就能理解。
「人腦就是推測引擎!」他說明,人類靠著觀察建立內部分析模型,當人類遇到一件新的事物,就能用這些既有的模型來推測,因為生活中人類接觸到大量的事物和知識,而建立了「常識」。
Yann LeCun表示,這些常識可以讓人類透過因果關係,來推測事情,舉例來說,人類可以在被遮住大半的圖像中,成功辨識出物體,也可以在沒有獲得完整的資訊下,從過去的事件推測未來。
他舉例,若人類看到一張圖片,一個男生拿著公事包奪門而出,即使沒有其他資訊,大家都可以略知一二圖片中的意思,人類因為知道整個社會和世界運行的規則,就可以依照因果關係自動補足空白的資訊,但是AI卻沒有辦法。
同時身處學界與業界,保持研發新技術動力
被業界喻為「卷積式網路之父」的Yann LeCun,不僅是FAIR的院長,同時也在紐約大學擔任教職,他表示,FAIR的辦公室和紐約大學距離很近,於是他可以常常往返兩地,當Yann LeCun被問到為什麼還要持續教學,他的回答是:「教學讓我更貼近我所做的研究!」他表示,他在紐約大學指導4個博士生,即使身為FAIR的院長,FAIR發表的眾多論文中,他的名字卻只有出現在2到3篇論文上,反而是他在紐約大學發表的論文數,遠遠超越在FAIR發表的論文,他解釋,他只負責諮詢和給予團隊想法,完全不插手FAIR團隊的研究。
「我認為有時候學術界比業界還要競爭。」Yann LeCun說明,學術界注重研究倫理,對於研究的專利較為重視,學術界的競爭可以使他保持研究新的技術的動力,和產業接軌又能激發出新的應用,因此,他認為,學術和業界的合作關係將會越來越強,兩項身分對他來說都是非常重要的。
小檔案 臉書AI研究院
● 成立時間:2013年12月
● 院長:Yann LeCun
● 據點:加州門洛帕克、紐約、巴黎等地共3處
● 團隊規模:大約90人,其中6成是博士級學者,而4成則是工程師
● 研究方向:AI相關技術、電腦規畫(Reasoning/Planning)、電腦感知(Perception),以及自然語言理解等領域
● 目前專案:CommAI、Stack RNN、bAbI、FastText、Torch等共5項
● GitHub開源專案數:22個
臉書AI研究院3大重點專案
臉書AI研究院身負研究AI新技術的重任,與機器學習應用團隊(AML)密切合作,FAIR研究最新可用技術,再由AML團隊負責將技術產品化,創造出臉書的新應用,目前FAIR底下有5個專案,包含CommAI、Stack RNN、bAbI、FastText和Torch,主要聚焦於文字和影像辨識,目前已有一些應用漸漸在臉書上浮現。
目標1:讓AI看「懂」多語發文
FAIR去年開發深度學習文字理解引擎DeepText,由於文字是臉書上溝通的普遍形式之一,理解文字語意能讓臉書在動態牆精選出使用者感興趣的內容、過濾掉不適當資訊,來提升使用者體驗,DeepText每1秒從上千則的貼文中,理解出最貼近使用者表達的意思,且可分析高達20多種語言。
由於臉書使用者來自世界各地,且貼文用語較生活化,傳統的自然語言處理技術備受考驗,FAIR必須解決這些文字理解的挑戰,傳統的自然語言處理技術需要在語言的專業知識下,建立複雜的程式,當使用者使用不同語言、俚語,或是不同的拼法來表達相同意思時,程式的變數也不相同,於是,FAIR採用深度學習,可以減少程式設計依賴各語言知識的程度,如此一來,設計模組時只需要做些微的調整,就能快速套用到多種語言。
DeepText是由多個深度神經網路的架構所組成,包含卷積式神經網路(Convolutional Neural Nets)和遞歸神經網絡(Recurrent Neural Nets),FAIR用機器學習模型管理平臺FBLearner Flow和深度學習框架Torch,針對詞句和單詞為單位來訓練模型。
文字理解包含多項任務,舉例來說,若是要辨識出貼文的主題是籃球,系統就要能夠辨識與籃球相關的詞彙,像是籃球員的名字、球賽的統計數據、術語,以及其他與籃球相關的資訊,但是,若是進一步研究,人類還能理解俚語、語句的言外之意等,舉例來說,若有人說:「I like blackberry.」人類要能夠判斷是在說水果還是裝置。
傳統的自然語言處理方式是將文字對應為一個編號,也就是說,Brother和Bro在程式中是兩個不同物件,這也表示,若要程式正確地辨識文字,貼文中的文字必須與訓練樣本一模一樣,才能被程式識別出來。
FAIR使用一種數學概念Word Embeddings,可以計算單字跟單字之間語意的關聯程度,因此,若是計算正確,Brother和Bro兩個字的距離就會很靠近,此外,不同語言也適用,像是英文和西班牙文的生日快樂距離也會是很近的,這樣的方式就能讓程式深入了解單字的語意。
DeepText已經應用在臉書的個人數位助理M,舉例來說,DeepText可用來意圖偵測,若使用者輸入「我想坐車」,Messenger 聊天機器人能辨識意圖、提供解決方案,像是建議「需要我叫車嗎」或是整合Uber服務,表示「我幫你叫Uber」。
除此之外,也可以用於一般Facbook貼文,例如使用者貼文寫道「我舊腳踏車想賣200美元,有人有興趣嗎?」DeepText就能偵測意圖、以及理解銷售物件及價格等資訊,建議用戶透過Facebook使用適當的銷售工具。
DeepText未來也會應用在動態牆的文章篩選,或是在貼文的留言板中,自動挑選出較相關的留言,來提供使用者個人化的使用體驗,且DeepText若偵測到仇恨、不恰當的言論,必要時也能過濾或管制。
目標2:讓盲人讀「懂」照片
FAIR專注於所有關於AI的主題,從研究創造理論、演算法、應用、軟體等知識,長遠的目標是能夠理解智慧,並建立智慧機器(Intelligent Machine),其中,由於臉書的貼文都是由文字和照片所組成,FAIR多項研究也與影像辨識相關。
臉書和其相關服務如Instagram、Messenger和WhatsApp一天有超過20億張照片上傳,用照片互動已經成為人與人普遍的溝通形式,但是FAIR認為,全世界有3,900萬人全盲、2億多人視力嚴重受損,對他們而言,要從照片與他人互動是非常困難的。
今年2月FAIR推出自動文字替代(Automatic Alt-Text,AAT)服務,能透過AI和影像辨識技術Lumos,自動解讀動態強上的照片,可以辨識跑步、舞蹈等十多項動作,系統辨識完成後,就能自動產生對照片的敘述,並唸給盲人聽,讓盲人也可以感受到臉書上友人近況的分享。
臉書使用手上的數十億張照片作為訓練Lumos的樣本,目前,已經建立超過200個視覺模型,可用於各種不良內容偵測、打擊垃圾郵件以及自動為圖片加圖說等多種用途。
目標3:通用型AI框架
更長期的目標上,FAIR試圖要打造出通用型AI框架稱為CommAI專案,主要是為了開發出具有泛用性(General-purpose)AI,來協助人類日常生活,不僅如此,CommAI還是個提供AI系統訓練和測試的平臺,CommAI會要求程式中的學習者程式(Learning Agent)來解決任務。
CommAI有幾項特色,由於FAIR認為人類要能與AI溝通,AI才能發揮最大價值,因此CommAI專案把語言視為第一優先(Language-first),交付任務的目標、解決方案和回覆給學習者,都必須用語言的方式表達,CommAI也建立了獎勵回饋(Reward-based feedback)機制,為了讓AI有自主判斷解決任務的意圖,而不是每項任務都需要由人來賦予程式,FAIR決定提供學習者獎勵訊息,若學習者在沒有監督的情況下,成功地完成任務則給予獎勵。
除此之外,FAIR也認為,AI要有終身學習(Life-long Learning)的能力,有別於一般機器學習的方式,FAIR讓CommAI執行持續解決任務的演算法,並估算平均累積的獎勵分數,來培養出當人類需求改變時,也可以幫忙人類解決當下問題的AI,而且也因為AI可能需要處理多種不同的資料格式,因此,電腦和真實世界的溝通方式就必須是泛用的,電腦要能在沒有人類手動調整程式的情況下,自動學習對不同的資料格式,要採取哪一個處理流程最方便。
100項 IT人不可不知的AI發展
No.020 臉書未來10年核心技術壓寶AI
No.021 FAIR團隊工作哲學:開放、由下而上和探索
No.022 3大關鍵AI應用是自駕車、醫療和知識獲取
No.023 深度文字理解引擎可高速分析20種語言
No.024 200種視覺模型能自動描述圖片特徵
No.025 通用AI第一步先訓練自主解題意圖
相關報導 AI 100(上) AI 100 (下)
熱門新聞
2024-09-16
2024-09-17
2024-09-17
2024-09-16
2024-09-13
2024-09-16
2024-09-17
2024-09-16