2024年的總統與立法委員選舉,民調相關議題特別為各方關注,即便是純市話、手機或兩者並用的調查方式所得結果之評估,都是各陣營與輿論的討論、爭議點;更遑論藉由網路調查、或以文字探勘、大數據技術分析所得之「聲量」、「好感度」、「看好度」、「仇恨值」等各式候選人或政黨的支持比率的衡量與測量。選舉民調封關前,林林總總的民調發布以及這些民調在品質上的差異,多少引發各方的困惑與爭辯;有些(甚至是虛假的)民調試圖扭曲、引導民眾的情緒,可能會影響選舉結果之預測。同時,自從「藍白合」議題發酵以來,「統計誤差範圍」、「正負三趴」更成為媒體、民眾議論或揶揄的名詞(例如「讓六趴」)。這些名詞源自於統計推論,然而各陣營討論時多各取所需,各自解讀,卻變成各說各話;部分媒體上也不乏謬誤解讀的報導。在許多問題的處理上,也許我們並不缺調查資料,缺乏的是足夠的知識來理解事物的根源。當一切塵埃早已落定,此時眾方應可平心靜氣看待。另誠如愛因斯坦所言:「如果你無法簡單說明,就代表你不夠透徹瞭解」;本文嘗試說明個人對這些名詞在統計專業的理解。
一般的意見調查或是選舉民調,都是基於統計科學原理設計,並且試圖保持這種方式執行;然而,這並不足以保障民調的成功。選舉民調除在隨機抽樣過程無可避免之抽樣誤差外,其潛在的誤差來源已眾所周知;許多系統性的誤差,諸如樣本涵蓋、拒訪、拒答、題目的設定、手機與市話、機構效應與分析結果之加權等(不當的加權,可能導致更大的誤差),皆已成為專家討論和學術檢視的議題。隨著時代演進,社會、生活形態的改變,執行實務上的各種挑戰使民調的可靠性長期以來遭受無數質疑。近年來,歐美民主國家在不同的選舉上也偶而發生民調在預測選舉結果的挫敗,引發關於民調機構所用方法可靠性或有效性的討論。同時,假民調如假新聞一樣的猖獗,總有人會檢討民調的式微;此也導致一個常見的錯誤的說法,民意調查本身並不是捕捉公眾意見的最佳方法。同時,在當今假新聞盛行的時代,無論民調製作得多麼精良和準確,其在媒體和社交媒體上的呈現方式是難以控制。
統計的核心精神,在於藉由對母體進行隨機抽樣,透過對所得之隨機樣本的特性(所謂樣本統計量)的理解,來說明、推論母體的特徵(所謂母體參數);目的是在面對不確定的現象能藉以做成決策。民意調查隨著時代的演進,調查方法與技術隨之精進;然其所利用的收集資料、觀察對象的調查方式與統計分析原理是一致的,都是希望以最大限度地減少收集樣本的數量,且能以最有效的方式獲得研究標的最大訊息量。自母體中隨機抽取樣本,是獲得代表性樣本的最佳方法,目的是為確保樣本能夠平均地模擬母體。如此偶然的、而非人為選擇的樣本,避免系統性的偏差及減低可能的變異產生,以節省時間、金錢成本,更有效率的對有興趣的樣本統計量進行全然的理解,即可推論母體特徵。實務上,母體特徵是固定、未知的常數;樣本的特性卻是隨著每次抽樣的不同而有變化,但是可計算而得。