Wechat每月活躍用戶超過10億,那麼,如何在巨量聊天中所發送圖片實現實時自動審查呢?多倫多大學公民實驗室(Citizenlab)對此發布了一份最新研究報告。
題為「未閱先焚2:Wechat如何實現實時審查用戶對話中的敏感圖片」的報告於7月15日發表。其核心發現是:
-
Wechat的審查包括識別圖片中的敏感文字圖形、以及與黑名單上畫面相似的圖片
-
Wechat使用MD5哈希算法,以實現對話中圖片的實時、自動審查
-
朋友圈、群組聊天的審查力度大於一對一對話
-
Wechat圖片審查的主題主要是政治內容以及與政府、社會抗爭有關的主題,同時也對新聞事件作出反應
根據中國法律,互聯網平台對內容負責,因而要借助科技手段進行自我審查。
審查:從朋友圈到一對一聊天
多倫多大學公民實驗室此前曾對Wechat朋友圈進行研究,研究發現:圖片發表後,Wechat會審查圖片是否包含敏感關鍵字、以及圖片是否與黑名單畫面類似。如果是,圖片會被屏蔽,但發圖者以及海外帳戶仍可見該圖片。
此次的研究則針對Wechat聊天。由於上述審查方式需要強大的計算能力,難以實現聊天中圖片的實時審查,因此,Wechat使用MD5哈希算法,即審查圖片的MD5值是否在過濾列表上。這樣的好處是快,壞處是很不靈活:一旦MD5值有細微變化,儘管圖片內容變化不大,仍會過關。
為應對此一限制,Wechat在MD5實時審查後,會再次使用非實時的事後審查。報告作者發現,經修改MD5值的敏感圖片第一次發送會成功,但數秒之後再次發送,即會失敗。
報告作者還發現,一對一聊天、群組聊天和朋友圈的審查範圍不盡相同。後兩者範圍更大。
哪些圖是敏感圖?
報告的另一部分內容,則是對Wechat審查圖片的主題進行分類。研究者首先建立了一個測試敏感圖庫,來源是香港大學的一個項目WeChatscope,該項目收集了Wechat公共帳號被屏蔽的內容。報告作者則把這些內容中的圖片集合起來。
由於Wechat測試帳號大多難以獲得身份驗證,報告作者不得不訴諸審查相似的騰訊另一平台QQ空間,來進行敏感圖的測試。
報告作者共發現212張會被過濾的敏感圖,其中:與中國政府有關的圖片為75張,內容不單有諷刺漫畫,也有中性的政府政策、領導人圖片。其中一幅被審查的圖片是位於法國的歐洲電視台Euronews的一則新聞畫面截圖,顯示的是中國國家主席習近平2019年3月訪問意大利前夕,一位藝術家在意大利使用拖拉機在田野上創作出一幅習近平微笑的巨大頭像。
在這212張被過濾圖片中,與新聞事件有關的有60張,內容涉及:文革、天安門事件、范冰冰逃稅事件、最高法院卷宗丟失事件、華為孟晚舟事件、中美貿易戰、2018美國中期選舉、胚胎基因編輯事件等。
受到最多審查的圖片:最高法院卷宗丟失案
其中,最高法院卷宗丟失事件受到審查的圖片數最多,為24張。其中絕大多數是一封據說為法官王林清指控最高法院院長周強指使他人盜走卷宗的信件圖片。與華為孟晚舟事件相關的被審查圖片則為10張。中美貿易戰也有8張。
在212張被過濾的圖片中,報告作者列入「社會抗爭」類別的有25張。其中包括有崔永元的照片、已故諾貝爾和平獎得主劉曉波「空椅子」的照片等。此外,涉及裸體的圖片無論主題如何都很有可能被屏蔽。不過,也有一些圖片被審查的原因不明,如一張黑猩猩研究者珍·古德的圖片。
報告作者發現,許多Wechat公眾號被屏蔽文章中的圖片,無論其是否敏感,似乎都會受到過濾。作者因此提出假設:騰訊的圖片審查黑名單,是從被屏蔽的Wechat公眾號內容中收集而來的。
責任編輯/李頤欣