鄭宗記觀點:你的信心是我評估錯誤決策的可能性─平心靜氣看正負三趴

2024-09-28 06:30

? 人氣

利用樣本特性推論母體特徵的理論是架構於樣本統計量的抽樣分配,抽樣分配是統計推論的核心;傳統統計推論方法包括區間估計與假設檢定兩大類,兩者各有互補及相通之處。以候選人支持率為例,若某調查訪問1068人,其結果顯示候選人甲的支持率為0.40,是所謂的點估計;此值自然與候選人甲真正的支持率有所差異,即是所謂的偏誤。雖然不知真正的支持率,但因其為固定值,若對母體的所有可能樣本重複進行調查,可以得到估計比例(或誤差)的分配狀況;依此亦可評估偏誤,衡量錯誤決策的風險。理論上,如果從母體中隨機抽取n個觀測值,若重複此隨機抽樣,從總體中抽取的所有可能樣本,且每次皆抽取樣本大小為n的觀測值,則當n足夠大時,所有估計的樣本比例所形成的分佈具有近似常態分配的特性。藉由此抽樣分配可建構區間估計,信賴區間估計為樣本估計值加減邊際誤差;此邊際誤差由樣本數、母體資料本身的變異及信賴水準決定。當信賴水準設為0.95、樣本數為1068時,其邊際誤差約略為正負0.03;此設定經常為一般民調機構使用,也是正負三趴的由來。對候選人甲而言,其支持率的95%信賴區間估計為0.400.03=(0.37,0.43)。

[啟動LINE推播] 每日重大新聞通知

然當大眾關注此邊際誤差值時,忽略了其真正的意義,是在於衡量統計推論的不確定性及評估可能的錯誤風險。由於真正的母體參數是未知的,我們無法確定它是否在所估計的區間內。如前所述從母體中,重複隨機抽取樣本大小為n的過程,每次可獲致一個95%信賴區間的估計;其意義在於所獲致的所有區間估計結果中,我們預期其中有95%的區間會包含真正的母體參數。再詳例而言,若可以重複相同的調查一百次,每次都隨機抽樣1068人,便可獲致一百個候選人甲支持率的估計結果,也會相對應得到一百個不同的區間估計結果;理論上預期其中會有九十五個區間範圍包含該候選人真正的母體支持率、但五次是沒有涵蓋到。

若在相同調查中,得到候選人乙的支持率為0.42,由點估計的角度,候選人乙的支持率是高於甲。但考慮因抽樣所產生的誤差,乙支持率的95%信賴區間估計為0.420.03= (0.39,0.45),甲、乙兩者的區間估計有部分重疊,此即說明兩候選人支持率不具統計顯著差異,或兩者是在統計誤差範圍之內。若再假設候選人乙之調查所得到的支持率為0.46,其95%信賴區間估計則為0.460.03= (0.43,0.49),此時甲、乙兩者的區間估計範圍完全無重疊,即說明兩候選人支持率具統計顯著差異;在95%信賴水準下,乙的支持率是顯著高於甲(但請注意,此結論有5%的可能性是錯誤的)。所謂「讓六趴」是否因此(0.46-0.40=0.06)而來,則不予討論。但±0.03是需依樣本數及信賴水準而調整,透過使用更大的樣本,可以將邊際誤差幅度縮小,有助於評估調查結果的準確性,但需要更高的調查費用與調查時間。

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章