圖片來源: 

LinkedIn

LinkedIn揭露自家處理猥褻與非法服務廣告等,不當個人檔案內容的方法。官方提到,他們一直在開發各種安全系統,阻止假帳號、防止濫用以及避免用戶受虛假個人資料欺騙,他們以自動系統偵測並打擊違反服務條款的行為,而不當個人檔案內容便是其中一部分。

LinkedIn起初使用黑名單方法,建立一組違反服務條款的單詞和短語,當系統發現帳戶的個人檔案,含有其中任何一個不適當的單詞和短語時,便將帳戶標記為詐欺帳號,並從LinkedIn中移除。

但這個方法有一些缺點,首先是不可擴展性,因為這個方法需要手動調整黑名單列表,評估阻擋詞句需要非常的小心,且許多單詞適當與不適當的用法,跟上下文有關,LinkedIn表示,像是外送茶(Escort)這個詞常用在賣淫上,但是也可用作醫療護送(Medical Escort)。

另外,黑名單方法的可維護性不好,要名單追蹤整體的效能很簡單,但是根據列表追蹤每個詞就不是一件容易的事,需要大量的時間確保系統的穩定性。LinkedIn需要非常確定帳戶的不合法性,才能刪除帳號,但由於以上原因,像是上下文影響字義的情況,管理員需要花費許多心力判斷,因而限制了LinkedIn可以處理的帳戶數量。

為了提高偵測效率,LinkedIn決定使用機器學習方法,模型使用卷積神經網路(CNN),LinkedIn提到,CNN可以簡單地處理像是Escort這種要依據上下文判斷字義的案例。訓練的資料集分為適當與不適當,不適當資料集大部分的資料來源,是以黑名單方法捕捉的,一小部分則是成員回報並經過人工審核。適當的資料集則直接從6.6億個會員中抽樣。

但由於資料集中不良的樣本太少,可能會使訓練產生偏見,LinkedIn提到,適當資料集中的合法資料,有一大部分是因為受黑名單的限制,當沒有仔細調整訓練資料集,則模型可能會模仿過去黑名單系統的行為。

以Escort作為例子,不適當使用Escort的個人檔案數量,只是6.6億個會員基礎中的一小部分,當Escort適當使用的案例被降採樣,而不適當使用Escort的案例採樣數量不變,則會使訓練資料集看起來,像是Escort不當使用的案例比適當使用的案例還要多,但是以實際全球會員個人檔案來看,情況恰巧相反。針對這個問題,LinkedIn表示,他們找出各種產生偽陽性的問題詞彙,並搜尋正常使用這些詞彙的會員檔案,經手動標示放進適當資料集中。

目前這個模型被用來偵測平臺上濫用帳戶,除了評估新帳戶之外,也會用來辨識不適當內容的舊帳戶,LinkedIn提到,他們會擴充訓練資料集,來擴增可辨識的內容範圍。


Advertisement

更多 iThome相關內容