楊建銘專欄:大數據理想國已近?

2017-01-20 07:00

? 人氣

隨著機器學習在硬體和軟體上的突破,搜集來的大數據(似乎)變得能夠分析,更進一步助長人們對於「大數據理想國」的想望。(資料照)

隨著機器學習在硬體和軟體上的突破,搜集來的大數據(似乎)變得能夠分析,更進一步助長人們對於「大數據理想國」的想望。(資料照)

我最近的專欄文章裡有兩篇與大數據有關,【品牌塑造的下個二十年】談的是臉書目標設定廣告對於品牌塑造的(無)效用,【避險基金管理人的末日與冷酷異境】談的是純粹以數據驅動的避險基金平台。有讀者向我質疑這兩篇文章對於大數據的立場似乎是相反的,【】文是對大數據的批評,【】文則似乎在歌頌最極端的大數據,所以到底我是看多還是看空大數據。

透過<Google新聞> 追蹤風傳媒

事實上兩篇文章的主題如果各自要深入探討的話,都是可以成書的大課題。相較於其他商業的領域,市場學和金融仰賴數據的歷史算比較久,無論支持或質疑大數據,都有無數的商學院論文可以背書,要蓋棺論定肯定還太早。

追根究底,大數據會成為熱門名詞,並不是因為出現了什麼新穎的數據分析理論——統計學早在西元前五世紀就已經被發明,大多數現代使用的統計分析原理也都在十九世紀以前就已經完備。大數據突然熱門起來,主要還是因為在網路和物聯網時代,數據的搜集遠比從前來得容易,量跟質都有顯著的指數成長。而隨著機器學習在硬體和軟體上的突破,搜集來的大數據(似乎)變得能夠分析了,也更進一步助長人們對於「大數據理想國」的想望。

以現階段來說,我認為大數據的「商業效用」仍然處於混沌不明的狀態。我這裡所說的「商業效用」包含了正確而客觀地理解分析結果,並能制定和執行有效的策略。以市場學來說,當然是意圖在於提高(難以捉摸的)品牌價值、銷售數字以及利潤,以金融來說則是產生高於指標的、經風險調整過後的回報率(risk-adjusted return)。

這裡我們觸及到大數據最大的弔詭:大數據看似處理的是冷冰冰的數據,但其目的卻是活生生的人類商業行為。後者受到各種人類非理性的本質所影響,冰冷的數據有時候有助於去除這些非理性本質而讓市場或者金融專家看到問題核心,但有時候卻會把本來就是非理性的一團混沌誤解成有秩序的假模型。

由於這波鼓吹大數據應用的文章已經相當的多,這篇專欄我們會專注在大數據所伴隨的風險上。

首先最根本的風險就是數據的正確性。當能取得大量的數據時,人類往往會產生錯覺,以為這些數據比少量的數據更接近真實。

以市場學來說,傳統上市場調查是聘請市調公司在街頭上或是商場裡,不厭其煩地請路人們填寫問卷或者回答問題。這樣的調查成本非常高,以致於樣本空間往往相對有限,分析出來的消費者族群或者傾向往往帶著較大的「信賴區間(confidence interval)」。進入網路時代後,突然間搜集問卷結果變得相對容易了,樣本空間隨之迅速擴大,反映在數據分析結果上就是「信賴區間」迅速縮小,也就是數據分析結果變得「更可信」了。但就像傳統街頭問卷有著消費者的答案不盡然與自己的消費行為相符合的問題,網路問卷所得到的結果也不見得跟事實相符合,尤其不管在電腦或者手機上,消費者的注意力都是發散的,便宜行事隨便勾選的狀況很普遍,這部分不見得能透過問題設計有效篩選。但不管正確與否,樣本空間變大是不爭的事實,因此而誤以為自己能更準確掌握消費者行為的市場專家大有人在。

喜歡這篇文章嗎?

楊建銘喝杯咖啡,

告訴我這篇文章寫得真棒!

來自贊助者的話
關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章