「養數據」有一個重要含義,就是要決定收集哪些數據。是基於深入業務理解的更高層次商業決策,數據養得時間愈早,累積的數據也愈多。一旦養成,則會產生非常大的商業價值。
過去,有一些問題一直困擾著我:「現在的企業獲取數據如此容易,數據的增長速度如此之快,那麼對於企業來說,到底要收集什麼樣的數據?收集多少數據?收集數據的邊界在哪裡?」後來,我在美國遇到一位高人,他認為,過去收集數據很難,而現在獲取數據資源變得愈來愈容易,但是如果收集數據的出發點不是為了解決問題,那麼收集再多的數據也沒有意義。
同時,許多企業還有一個疑問:「現在收集數據不難,成本也不高,為什麼不先收集了數據再說呢?等以後需要數據解決問題時,再拿出來用不是也可以嗎?」這位高人同樣也給出了答案,他否定此觀點,並指出用這樣的理念設計數據應用注定會失敗。
數據收集沒有邊界,我為此也痛苦了好一段日子。比如收集一個人的生日,雖然可以精確到幾分幾秒,但這麼精確的數據又能用在什麼領域,產生什麼價值?
事實上,數據是有生命週期的。例如:某網站的婦幼類別,在主動收集使用者的寶寶資訊,包含寶寶生日、性別、小名、身高、體重。我們就必須清楚這幾個數據的用途和生命週期,如:寶寶的身高和體重。但是,媽媽填寫的是寶寶當前的數據,然而寶寶的身高、體重變化非常快,這兩個數據的生命週期很短,在當時的推薦中可能有用,但過了一段時間後,這兩個數據就失效(data broken)了;而寶寶生日和性別這兩個數據的生命週期就很長,可以從生日的年分推算出寶寶的年齡,而性別基本上是終生穩定的。
數據收集應背景而變
保存數據及其收集時的背景(context),也是一件不容易的事情。仍以收集寶寶的年齡作為例子,我們可以透過使用者購買特定的商品集合,如:適合不同年齡層的奶粉和尿布型號等,知道寶寶大概所處的年齡,以推算寶寶目前的年齡。但如果僅僅是保存寶寶年齡這個數據,此數據很快也會失效,因為人的年齡不斷變化。同時,你還需要保存寶寶年齡數據的獲得時間,即在哪年哪月計算得知這個寶寶的年齡,這個資訊就是背景數據。另一種更加聰明的做法,即透過寶寶現在的年齡,反過來推算寶寶是什麼時候出生。
所以,在收集數據時,我們必須知道這些數據未來可以用來做什麼,如果今天想像不出來,日後就更不可能了。
舉例來說,很多電商高階主管會詢問數據分析師,商品的重複購買率是多少。於是,工作人員收集數據計算重複購買率,卻很少想到高階主管需要重複購買率是為了做什麼決定,這就如同刻舟求劍的故事。事實上,在變化多端的大數據時代,我們不能只是機械的套用方法或指標。重複購買率有不同的定義,而做不同的決策,需要考慮不同定義的重複購買率。