「你應該知道的是:假設你有兩個工作機會,兩家公司員工平均薪資都一樣,你會怎麼選?你不能只看平均,而是得知該公司的薪資中位數。」
最近我在劍橋大學念教育博士班,同學互相討論自己在數學教育上的研究進展。我個人研究的是數學焦慮症的成因。其中有一位同學,不久後就能提交最終論文,他跟我分享自己擔任數學部門主任的經驗──職務是替中學雇用未來的數學老師。他像連珠炮一樣,連續問我三個關於資料處理的問題,而這些都是他經常拿來問應徵者的問題:
第一題:「什麼是眾數?」
我回答:「眾數就是一組數字中,出現最多次的那個數字。」
第二題:「什麼是中位數?」
「中位數是一組由小排到大的數字中,位於中間的那一個數字。」
接著是最後一個問題:「平均數是什麼?」
我回答:「平均數是所有數字的加總,除以數字的個數。」
我落入了一個典型的圈套。沒錯,平均數可以照我說的方法算出來,但他是問我平均數的意義。數學重點之一在於精確,所以我回答了計算平均數的程序,而不是它真正的定義。
平均數就是一組數字的平均,可以被計算出來,代表這組數字的中間值;它透過單一數值來表達資料。而假如我們算出算術平均數,它就能代表資料─這與前一句話有著非常細微的差異。根據《牛津英語詞典》(Oxford English Dictionary)的定義,平均(average)是指「一個數字,表達一組資料的中間值或基準值,尤其是眾數、中位數或(最常見)的平均數。」
因此,當我們被問到公司的平均薪資,或是人口的平均預期壽命,我們會試著找到一個數字,來表達這組資料(公司全體員工或國家全體人口)的基準值。我們經常參考算術平均數,但身為具警覺心的數據使用者,我們必須識別自己使用的平均是哪一種。
有一句諺語說:「謊言、該死的謊言、統計數字。」(lies, damned lies and statistics) 它因為美國作家馬克.吐溫(Mark Twain)等人而傳遍大西洋。馬克.吐溫表示,這句話源自於19世紀的英國首相──班傑明.迪斯雷利(Benjamin Disraeli),他似乎是這麼說的:「謊言有三種:謊言、該死的謊言、統計數字。」雖然這句話的出處尚有爭議,但它所傳達的訊息是:當我們在應用層面接觸數字時,一定要謹慎。
請想像一個情境:你有2 個工作機會。2 間公司,A 與B,各自有10 個員工,平均年薪22,000 英鎊。如果兩邊都被錄取,理論上你去哪邊上班都一樣。但從這裡,你就能理解資料與平均的使用方式有多重要。首先,這裡使用的平均是算術平均數:將薪資加總再除以員工人數。但你假如更加深究,就會發現自己被騙了: