大數據分析需要AI
因為大數據的龐大資料量、複雜程度以及非結構化,傳統資料處理軟體或系統難以去應對並管理大數據資料。人工智慧(AI)從早期的程式是用一系列的指令來規範計算機的運算。後來機器學習是著重於訓練電腦從資料中學習,並根據經驗改進,而不是按照明確的程式碼運行作業。機器學習會從經驗中學習、配合新的輸入訊息做調整,訓練演算法尋找大型資料集的模式和關聯性,並執行仿人類的工作並根據該分析做出最佳決策和預測。
晚近發展的深度學習(Deep Learning)利用多層次的人工神經網路解析大量數據,已被應用在電腦視覺、語音辨識、自然語言處理、音訊辨識與生物資訊學等領域並取得了極好的效果。
大數據還是需要統計
由於大數據,樣本就是母體。研究不需要再進行抽樣就得到數據,而且是全體數據。因此不少人認為只需要計算就可以下結論了,複雜的統計學方法可以不再需要了。但這是錯誤的。
因為環境、人的行為在不斷地變化,萬物的發展充滿了不確定性。統計的2大主軸:歸納與推理,仍然幫我們在不確定的情況下對資料進行最好的分析。現在資料雖然已經是母體,但樣本統計量的計算來說明母體參數仍是必要的過程。這包括大數法則及中央極限定理。大數法則讓我們得到母體參數的一致性,中央極限定理則得到母體參數的常態分配。
另外有人認為在母體只須尋找關聯性,這也是錯誤的。因為統計分析的迴歸,尋找可能的解釋變數,及探討因果關係的種種設計,例如格蘭哲因果(Granger causality)仍然相當有用。至於對未來的預測及預測的判定仍然需沿用統計的理論來進行。
結論:價值與陷阱
大數據發展至今,幾乎已經成為一門顯學。報章雜誌、新聞媒體,隨時都有大數據的新聞或應用,其熱門程度可見一斑。大數據本身不重要,大數據只提供數據,如果不能對其解釋,轉換成商業價值,那還是垃圾。最後大數據帶來無數的機遇,但是與此同時個人或機構的隱私權也極有可能受到衝擊。這是取得跟分析大數據時必須要小心的陷阱。
*作者為中信金融管理學院講座教授、台大經濟系名譽教授