從統計找因果關係
人體中,有一些奇妙的因果關係。例如:小時候家裡窮,為什麼長大較胖?喝酒容易臉紅,因此易罹肝癌嗎?中研院統計所的黃彥棕副研究員說明,透過「因果中介模型」,可以找出中間究竟發生什麼事,藉此提供可能的醫療對策。
您畢業於醫學院,為什麼沒當醫師,而是研究統計?
我讀大四的時候,人類基因被解碼出來,大家就在討論下一個世代的醫學和生物研究要做什麼。當基因的資料量變大,就不太可能用傳統一個分子、一個基因的方法來看,那時候覺得「量化」的訓練可能是我以後需要的,而且我本身也對數學有興趣。
其實,醫學存在大量的「不確定性」,例如,同樣的醫師看病,給 A 病人吃這個藥可以康復,但 B 病人吃同樣的藥卻不會好。換句話說:
醫學體現了不確定性,而統計學是用來研究不確定性。
之後我加入陳建仁老師的實驗室,研究 B 肝病毒和 C 肝病毒對於肝臟的交互作用,這跟我後來跨入「因果中介模型」的領域有關。那時候楊懷壹學長帶著我,從最基礎怎麼寫程式,手把手教我慢慢做。
後來我們發現 B 肝病毒和 C 肝病毒呈現競爭關係,它們都想佔領肝臟,通常是 B 肝病毒因為母子垂直傳染先抵達,而 C 肝病毒後到。兩個病毒交互作用,這個中介過程造成的結果很有趣──反而是肝癌機率會變低。
在陳老師實驗室研究的這個題目,對於我的學術生涯有很大的影響,包括後來到哈佛大學攻讀流行病學和生物統計,以及投入因果中介模型的研究,都是受到這個題目的啟蒙。
研究生物統計,要特別注意什麼?
要注意「相關性」和「因果關係」不能混淆。舉個例子,如果有人發現「吃冰淇淋」和「被鯊魚攻擊」的次數呈現正相關,如下圖所示:
可能有人看了這個資料,會下一個結論:吃冰淇淋會導致你容易被鯊魚攻擊。但真的是這樣嗎?其實影響這兩者的原因是「夏天」。因為夏天人們喜歡吃冰淇淋,而夏天人們也喜歡去海邊,導致被鯊魚攻擊的次數提高。
這個例子可以用常識判斷,但生物和醫學研究不太能只靠常識。如果沒有區別「因果關係」和「相關性」的差別,有時會產生一些嚴重的後果,關係到病人的生存。
如何確認「因」和「果」的關係?
以醫學來說,疾病都會有一個病程,通常我們知道開頭和結尾,但不知道中間發生什麼事。
舉個例子,若我們要研究「抽菸」透過改變身體什麼機制導致「肺癌」,就能藉由因果中介模型解釋因和果中間的機制,找出肺部的腫瘤是如何發生。
疾病的過程常常是一個黑盒子。站在醫生的角度,通常只知道疾病的因和果,但若疾病的「因」是沒辦法被改變的,這樣對病人一點幫助也沒有。這種情況下,我們若能找出「中介因子」,就能透過追蹤或調節中介因子,來避免或降低疾病「結果」發生的可能性。