忘掉大數據
我們正處在歷史的轉捩點上,數據技術在快速變革。大數據成為人們競相議論的熱門詞彙,但鮮少有人提及,在這場巨大變革中,人們需要具備的能力。無數的企業及個人望「數」興嘆:「大數據和我有什麼關係?」未來是大數據的時代,未來的競爭就是數據的競爭。也許,我們早該忘掉那些華而不實的喧囂,讓大數據真正從「看」 到「用」,真正「活」起來。
大數據的力量來自觸類旁通的關聯。過去,我們總是用數據證明或企圖說服工作上的盲點,如今數據不再成為一加一的依據,而是具備預測和開創新機的能力。
用數據找機會
我第一次見證大數據的魅力是在15年前,當時的我並不知道那就是「大數據」。1990年代初期,我認識一些以博彩為生的朋友,這些人組成了一個團隊,每年透過賽馬,就能獲利數億港幣。我非常驚訝,很多人在賭馬場上血本無歸,他們卻能把這種機率遊戲變成穩定的獲利工具。原來,他們的祕密就是使用了一套「養數據」策略——將每一場賽馬比賽的過程都錄下來。當時我覺得這個做法很奇怪:「電視上已經在播放影片了啊,還另外錄比賽做什麼?」而後我得知,他們居然在每場比賽中,都會錄下賽馬的不同角度。透過這些錄影,他們分析騎師、馬匹有哪些失誤動作,這些動作會帶來怎麼樣的後果,再把這些數據「清洗」出一個更準確的數據(smart data)。賽馬過程中有許多意外,他們利用還原數據,在沒有意外發生的情況下,馬匹在不同場地與不同騎師有不同速度。就這樣,他們可以更準確判斷每匹馬的實力和獲勝的機會;就這樣,透過無聲無息的數據收集,每年數億港幣入袋。
令我最為震驚的是,他們竟然不看表面數據,而是從無限的數據中尋找核心數據。
這正體現了大數據與過往數據最大的不同。以前,我們都是有問題找數據,在大數據時代,最核心的特質則是「用數據找機會」。做大數據,必須先有判斷,哪些數據必須提煉出來、解決盲點。賽馬的結果其實充滿意外,新的數據角度幫助我們一窺真實結果,這就是「用數據還原真實」。
有「質」的數據量
現在,大數據的概念紛繁複雜,媒體上充斥各種關於大數據的報導,其中不乏牽強附會、濫竽充數的言論,有些媒體甚至把簡單的統計也冠上了「大數據」的頭銜。
作為一名與數據打交道十幾年的人,我深深知道從「看」到「用」,再從「用」到「養」的營運數據,本身就是複雜的過程,也許目前我們最應該做的,是暫時忘記大數據的概念。行勝於言,只有具備實際效果的數據才是正道。我希望從實用的角度撥開大數據的迷霧,告訴每個人大數據的具體運作應該如何;而且數據量絕對不是最重要的問題,我們要的不是數據的量,而是有「質」的量,這正是我寫作本書的重要目的。