問題就來了,機器終究不比人腦聰明,大家都知道中文有一些複雜的語法,以『我們中出了叛徒』為例,機器到底判讀成『我們中間出了叛徒』的意思,還是判別成『我們「中出」了叛徒』,這就是個未知。
能將一句話正確的拆分都有難度,更遑論判斷一段文字是正面或負面。據筆者熟悉技術的朋友表示,只要一句話出現某人+負面字眼,就可能得出負面的結論,舉例來說,「蔣萬安抨擊陳時中疫苗採購黑箱」,那麼在機器的角度,蔣萬安與陳時中都可能被記上一筆「負面」聲量,但實際上在人工客觀判讀上,這應該僅是陳時中的負面聲量,而不是蔣萬安的,但系統難以給予正確判別。
也就是說,網路好感度僅是一個參考指標,「陳時中聲量高峰」一文斬釘截鐵說蔣萬安負面聲量居三人之冠,未免過於武斷。
退一步說,假定該文的「好感度」與「聲量」都可信。蔣萬安聲量18萬筆,負面聲量佔16%(近3萬筆),陳時中68萬筆聲量中,14%的負面聲量(9萬多筆),卻成了負面聲量之冠?未免有些牽強。
筆者不願惡意揣摩「陳時中聲量高峰」一文的動機,與該文引述之快析輿情資料庫的可靠性。但一篇文導出對黃珊珊絕對有利的結論,一般民眾卻未必有足夠背景知識,知道大數據分析的侷限性,如此將得到不夠客觀的認知。還是應該正本清源,讓大家了解大數據的侷限性,唯有大眾了解到世界上並不存在「真正完全正確的大數據判讀」,大數據研究才不致於淪為「類文宣」般的操作。
*作者為網路媒體工作者,本文原刊《奔騰思潮》,授權轉載。