從數據準備到分析必須仰賴IT人員,導致數據由IT人員“擁有”。
反之,數據工程師需要等待企業使用者清楚定義問題與提出需求,才能找對數據源,進行建模、清理、驗證等數據工作。然而在現實企業中,定義問題、提出需求,往往卻是最難的一部份。企業使用者因為沒有數據方面的知識,往往會天馬行空的提出不切實際的需求。
企業的本質是不斷的探索
商場如戰場,對企業而言,戰戰兢兢經營事業的每一時刻,都是在不斷的探索市場,試圖尋找新技術,發掘新商機。這是企業生存競爭的本質。這不斷探索的背後即是「活數據探索」。透過行為數據探索了解企業營運,也藉由外部數據洞悉市場動態。
冰山理論
巨量資料如同冰山,絕大部分埋藏在水面下,數據探索的空間就在水面下的冰山。傳統的分析或BI(Business Intelligence)的儀錶板或報表展現出Know-What如業績,有如冰山露在水面上十分之一的部分。主要是提供給企業管理者作為制定策略。冰山水面下代表的是探索型分析,讓企業使用者在任何時候從不同的數據角度、不同的分析思路,往冰山最深層處探索,找尋Know-Why、問題的根源。但是,當數據很複雜,如:上千個維度、上百個分析比較、數十個指標,探索型數據分析成了提供深刻洞見與數據診斷的重要工具。
不是只靠想當然耳的經營常識,而是真正透過數字去探索
企業在經營上,常碰到一個問題:每月營收目標都有達成,但是,毛利卻不如預期,而且,各部門提報的毛利和財務報表又不一致。這時,不能只靠經驗,想方設法地開源節流,而是如何透過數據去檢視經營績效,找尋營運上(operation)的疏失、差異或前後不一致,即時反應在下一次的營運活動上。企業在持續不斷的數據探索程、活用數據資產,找出市場商機,同時也找出營運盲點。
活數據探索的實踐
活數據探索,說的很容易,但在實踐上卻是一件極為困難的事。一個數據組織中各個階層的工作者,不管是管理者、營運人員還是技術人員,在權限範圍內,隨時都可以輕鬆取用當下營運數據、行為數據以及外部市場相關數據,進行與事實相關的交叉分析比較。而這個背後要有一整套運作模式,數據要能收得全面及時、運算得快、最後使用上還需十分簡便,提供一個邊想邊看,實事求是,用數字來探索的方法。
建置數據基礎架構-數據水庫 亂而取之、實而備之
數據工作者在使用活數據上,最怕的是面臨巧婦難為無米之炊的窘境。一個可以支援速度、深度與廣度的「活數據基礎架構」,將讓鮮活的數據迅速流通、進入可用(Ready to Use)狀態,讓另一端的數據工作者能立即取用、進行運算、分析或視覺呈現。對數據使用者來說,其角色就如同餐廳裡的主廚,直接取自來水即有清潔的水可用,而無須從挑水、過濾開始,可以專心投入時間精力做好自己最擅長的烹飪工作。即使是沒有數據訓練的工作者,也都可以隨手取得用水,進行簡單的烹飪。