哎,每個人都來
1 民調和事實是有差異的,民調只能參考
2 A+B, B+A 不能還原成 A 和 B
3 誤差要先確認幾個 sigma
4 統計的重要性被誤導,部分數學系的人把統計放到高一數學,害死一堆高中生
[民調變調,回歸數學判讀]
柯文哲說他只要讓3%,國民黨硬是把它乘以2變成要讓6%,太欺負人。其實柯P的算法說對也是對,說不對也是不對,關鍵在於他忘了他在算p_柯與p_侯的差異時,白營的算法已經把兩者的差異放大了兩倍,所以朱立倫會用6%來算,如果把上述兩倍再除回來,那就回到柯P的3%的計算法,兩者其實是一致的。
為何說白營的算法其實是把勝率放大兩倍,簡單的說法是在一個樣本中,以柯侯vs賴蕭為例,由於兩者只能選一,投柯侯自然不能再投賴蕭,所以柯侯加1的話,賴蕭就會減1,把柯侯減去賴蕭的,那就放大了兩倍。對於侯柯vs賴蕭,也同樣放大兩倍。但本命題要看的是柯侯比侯柯多了多少,用上述兩個數字再相減,自然就放大了兩倍。
柯P或白營也許還是不服氣,我試著用另一種比較清楚的算法。將受試者對柯侯vs賴蕭及侯柯vs賴蕭兩個問題的反應分成四群,總樣本數設為N:兩個問題都投賴蕭的人數用N_賴蕭代表,兩個問題都不投賴蕭的用N_藍白代表;另外用N_柯代表柯侯vs賴蕭時投柯侯,而侯柯vs賴蕭時投賴蕭的;而N_侯代表柯侯vs賴蕭時投賴蕭,而侯柯vs賴蕭時投侯柯的。
我們也以TPP內參民調舉例來看,在柯侯vs賴蕭時,柯侯的44.0% = (N_藍白 + N_柯)/N,賴蕭的32.0% = (N_賴蕭 + N_侯)/N,其差距為(N_藍白 + N_柯 - N_賴蕭 - N_侯)/N;同樣地,在侯柯vs賴蕭時,侯柯的39.7% = (N_藍白 + N_侯)/N,賴蕭的33.0% = (N_賴蕭 + N_柯)/N,其差距為(N_藍白 + N_侯 - N_賴蕭 - N_柯)/N。把上述兩個差距相減,結果差距的差距 = 2*(N_柯 - N_侯)/N,神奇的兩倍就這樣跑出來了。
柯P雖然是醫學系的,考試的成績也許很高,但他對統計顯然就不會比會計系出身的朱立倫熟悉。白營的這種數學魔術哪能逃過朱的法眼,他自然就把3%用兩倍乘回來,那這樣3%變回6%,就這點而言,朱說得沒錯,是柯自己的統計沒讀清楚。
但朱立倫的統計也有疏忽之處,在6個民調中有5個民調的樣本N都是約1000,這時用上述正負3%的數字還算合理,但在匯流民調中,其樣本N=2046已經大很多,這個3%的數字會隨sqrt(N)的增加而成反比,所以統計誤差這時成為2.17%,幾乎就是3%/sqrt(2) = 2.12%。所以這時的統計誤差只能用2 * 2.17% = 4.34%來算,而差距的差距是4.6%,所以這個民調要算柯勝。
台灣的兩大在野黨的黨主席,其數學基礎都不够紮實,亟須要強化這方面的幕僚, 否則難免有礙台灣未來的發展。而這兩位都是台大教出來的,甚至還都在台大任教多年,台大實在也顏面無光。
其實上述3%的算法,是在正反雙方都幾乎各半時,而且使用雙尾檢定時才能這麼算,很多民調學者自稱統計專家,其實常一知半解。在正反雙方幾乎各半時,p約為0.5,二項數分配在樣本數很大時可近似常態分佈,其標準差 s = sqrt(p*(1-p)/N) = 0.5/sqrt(N)。而雙尾檢定在95%信賴區間時,常態分佈達正負 1.96*s 恰為95%,所以當N=1065時,s = 0.0153,這時 1.96*s = 0.030 正好就是 3%,大多數民調都是取樣本數約為1000,就是這個緣故。
但在本次的比較中,該要做的是單尾檢定,這時自然不該再用1.96這個數字,此已如前文所述。同時,由於這次要看p_柯 = N_柯/N,也就是群體中,不是賴蕭的鐵粉,也不是逢賴蕭必反,在侯柯vs賴蕭時投賴蕭,但在柯侯vs賴蕭時會投柯侯,這種人比例必然不會太高,應該比 0.5少很多。計算p_侯也是同樣。這時上述計算的標準差 s又會小了不少,這些都是要考慮的。
上述是僅以機率學的原理來作討論,其實還是有不少理想化,真正到統計時,還有很多實際的情形要注意,這些我就只能說是門外漢了。不過坊間要自稱統計專家者,至少上述要搞清楚。偏偏藍白及馬英九所找的三位統計專家,連上述這些都沒弄清楚,我看專家的程度也是非常有限。偏偏藍白就找這種人來, 想要用科學來解決歧異, 結果治絲益棼, 把社會民眾搞得更迷惘了。
後記:聰明的讀者也許已經注意到,如果這個模型是對的,那麼在原始資料中應該有個恒等式,也就是在柯侯vs賴蕭時柯侯的比率減去侯柯vs賴蕭時侯柯的比率,應該要等於在侯柯vs賴蕭時賴蕭的比率減去在柯侯vs賴蕭時賴蕭的比率。但檢視這6分民調,可以看出除了匯流民調比較吻合外,其他民調多少有顯示此現象,但數據差異還頗大。是因為有作其他調整嗎,還是問卷的設計不是對比式民調,這也許要比對原始資料才能看出端倪。