觀點投書：從民進黨初選民調談抽樣誤差-風傳媒

觀點投書：從民進黨初選民調談抽樣誤差

這次民進黨的初選產生很多疑慮。五家民調的結果相當接近。一般討論都是是用抽樣誤差來解釋。我覺得一般民眾對於抽樣誤差的觀念不很了解，引發許多不太正確的論述。

先對統計抽樣的觀念做一個介紹。統計論斷是從樣本推論母體（statistical inference is an inductive inference from sample to population）。最容易的暸解的是甕模式（urn model)。假設一個甕裏有一定數量的白球跟黑球。若取出一些樣本，從樣本中計算白黑球的比例，我們就可以差測母體中白黑球的比例。當然樣本取得愈多，樣本比例就會愈接近母體比例，其中的差別這就是抽樣誤差（sampling error)。這種抽樣是簡單隨機抽樣(simple random sampling)。

但在實際統計的應用，這模式是有限制的。譬如民調，若把選民支持的侯選人當做不同的顏色球。在不同的區域裏就會有不同比例的顏色球。若是這比例差很多，簡單隨機抽樣就會產生很大的誤差。比較正確的模式是把每個區域當做一個甕，然後按照區域的大小做比例性的抽樣。台灣應該分多少區域去做民調較為準確，這要實際做民調的專家，從經驗累積才能判斷。因為他們比較清楚區域性的選民傾向，但是手機沒有區域性的登記，這也是手機民調被被批評的原因之一。（相關報導：孫慶餘專欄：蔡英文創造「奇蹟」了嗎？｜更多文章）

一般抽樣誤差的計算是按照簡單隨機抽樣的公式去計算。在多甕的模式，誤差會比這公式還大。每家民調公司作三仟份的樣本，在一千九百萬的選民是佔很小的比例。若沒有做完善的抽樣設計(sampling design)，實際誤差會比抽樣誤差更大的多。這樣一來五家民調結果的相似度，似乎超出一般抽樣誤差的計算所能解釋的。

*作者為旅美統計博士

觀點投書：從民進黨初選民調談抽樣誤差

孫慶餘專欄：蔡英文創造「奇蹟」了嗎？

陳淞山觀點：蔡英文贏得初選後的政治對手

夏珍專欄：蔡英文橫掃千軍，陳水扁不信，誰信？

陳淞山觀點：傷痕累累的初選亂打秀，唯一圖利柯文哲

賴祥蔚觀點：不夠科學的總統初選民調

陳國祥觀點：「報復性轉向」主導2020大選