隨著科技的發展,數據的蒐集、儲存、處理,變得越來越容易,這也使得越來越多決策能夠依賴數據做出。舉凡每個人可以貸款到多少錢、看到什麼樣的廣告、甚至用什麼樣的價錢買到某些物品,都能夠被過往的行為數據決定。然而,這樣的發展真的對我們是好的嗎?
分類的問題
在談這個之前,我想先談談「分類」的問題。
我們非常傾向去做「分類」,甚至透過「分類」幫助我們做決策。例如看到一個穿著全套西裝、噴著香水的男人,我們可能下意識的會覺得他年薪很高 ; 或者是看到一個年輕人,就覺得他應該是學生。類似像這樣的分類以及推論的過程,通常是擁有某種特質的個體,有很高的比例同時也擁有另一特質以此作為推論的合理性。這樣的推論無所不在,小至喜不喜歡一個人、要不要買某間店的早餐,大至要不要貸款給某個人、要不要做某個產品,都是基於這樣的邏輯。
人為決策的彈性與機器決策的精確
在過去,像是這樣的「分類」問題,時常是由人來完成的。簡單的像是,警察在路上看到誰符合自己經驗中的「壞人」(例如:行蹤可疑、穿著怪異),就上前盤查 ; 更複雜一點的像是,銀行的審核貸款的人員,根據對某個個人、或是某間公司提交的所有數據,根據某些自身經驗(例如:年紀較輕的比較容易還不了款、年收入較高的比較還的起款),決定是否要貸款給某人、乃至貸款的利率為何。因為是人為決策,就帶有人為決策的彈性。這包含兩個層面:
(1) 個人的主觀性:每個人有不同的判斷邏輯,因此就算某個核貸專員從過去到現在標準都一致,但因為每個人的標準不一樣,由不同的人處理到就會有不同結果,例如:一個人看年收入、一個人看性別。
(2) 個人決策的變動性:人的標準通常是不一定的,很少能夠從以前到現在都一致,例如:過去都是看年收入,突然發現過去有個年收入很高的貸款人還是欠款了,決定以後都看性別。
這在機器而言完全不一樣。首先,不像人類能處理的資料筆數有限,機器能處理的資料理論上筆數是無上限的,只要再擴充機器、增加配備就好,因此不存在「不同機器評分不同」這種事 ; 再來,機器的標準在訂出之後,除非人為刻意改變,否則隨時間推移是不會改變的。這帶來的是更多的客觀、以及非隨機性。同時,機器因為可以透過大量資料的訓練(且看「大數據」的浪潮),相比於人們的經驗有限(且看 alphago 對上歷屆棋王),理論上而言,可以達到更精確的預測。
客觀與精準
我們一般來說,會希望一項預測機制越客觀、越精準越好,這在貸款的領域代表越能夠完整預測誰會欠款誰不會,就能有更好的營收表現 ; 在犯罪預防的領域代表越能夠完整預測誰是壞人,自然能夠更好的預測犯罪。然而,如果我們發現某些具爭議性的「分類」,最能夠完美預測某些特質呢?
例如,假設我們發現,黑人跟白人的犯罪率有重大差異,基本上看到黑人就可以確定他 / 她有高達 87% 可能是壞人?又或者,我們發現只要是女性,就有 87% 的機率可能發生交通事故?此時,我們該看到黑人就把他 / 她攔下來盤查、看到女性就要她多考兩關才能取得駕照嗎?這聽起來是最具「效率」的解方,也是最「客觀」和「精準」的,但它是我們最能接受的嗎?