[爆卦]卡方獨立性檢定例題是什麼?優點缺點精華區懶人包

為什麼這篇卡方獨立性檢定例題鄉民發文收入到精華區:因為在卡方獨立性檢定例題這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者Kinght ( ̄▽ ̄)看板Statistics標題[問題] 卡方獨立性檢定 細格有0時間Tue...


拜託不要看到標題就先推Yate's Correction for Continuity或

Fisher's exact probability test


說來慚愧 接觸統計將近8年…

最近才聽說卡方檢定中細格不能有零這件事Orz

上網google 「卡方 0」也只有看到一筆資料有提到

而且只剩庫存頁面…



資料有幾個變項 有很多的變數 雖然樣本有超過2000

但是因為資料的特性 往往有一個變項很大 但是其他細格都是0

例如
甲 乙 丙 丁 戊 己 庚
A 280 1 10 0 0 0 2
B 12 5 0 380 5 3 1
C 0 181 3 1 0 2 5
D 1 3 0 21 89 40 20
E 9 20 18 50 150 0 0

類似這樣的狀況

如果併項到沒有0
1.會讓特徵消失 2.變項太少失去解釋意義 3.Cramers’V變小

請問有什麼方法解決嗎?

謝謝

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 163.29.135.126
gsuper:我也想問這問題 我的資料是上千筆 3*2 table , 一旦部分資 08/31 02:00
gsuper:料併項 整體的算法就不統一..很苦惱 08/31 02:01
bmka:那為什麼不用Fisher's exact test? 08/31 09:44
bmka:你知道為什麼要避免small cells嗎? 08/31 09:46
Kinght:Fisher's是"期望值"小於5 因為會讓檢定值變高 08/31 12:30
laba1014:請問有甚麼ref.提到細格"觀察值"不能為0的限制? 08/31 14:20
laba1014:大部分書提到的只有對"期望值"的限制不是嗎 08/31 14:21
bmka:Kinght大你記錯了,那不是Fisher exact的限制 08/31 19:13
bmka:主要原因也不是檢定值(mistaken for power?) 的問題 08/31 19:14
bmka:引一段 R. A. Fisher在書裡講的話 08/31 19:22
bmka:"The treatment of frequencies by means of chi-square is 08/31 19:23
bmka:an approximation, which is useful for the comparative 08/31 19:23
bmka:simplicity of the calculations. The exact treatment is 08/31 19:23
bmka:somewhat more laborious, though necessary in cases of 08/31 19:24
bmka:doubt.” -- Statistical Methods for Research Workers 08/31 19:24
bmka:他這裡指的statement of doubt就是"期望值"小於五 08/31 19:26
bmka:這種情況下chi-square test statistic"很可能"不是卡方分佈 08/31 19:27
bmka:(修正,"很可能"長得不像卡方分佈, chi-sq test 只是 08/31 19:29
bmka:approximation test) 08/31 19:29
bmka:所以,不好意思,還是請你用Fisher exact test吧 08/31 19:42
yhliu:5×7 table, 要做 exact test? 不知多少時間能算出來? 08/31 21:20
yhliu:卡方檢定是近似檢定方法, 是基於多變量中央極限定理而來的. 08/31 21:20
yhliu:因此, 有 "cell 期望次數至少為 5" 的要求. 但有兩個方向的 08/31 21:21
yhliu:數值研究結論: 一是說對於大型的表, 只要期望值小於5的 cell 08/31 21:22
yhliu:數比例不太高, 而所有 cell 期望值都在 1 以上, 馬馬虎虎啦! 08/31 21:23
yhliu:另一結論說: 即使各細格期望值都在5以上, 但若各細格期望值 08/31 21:24
yhliu:相差太懸殊, 卡方近似還是有疑問的. 08/31 21:25
yhliu:至於 cell observations 是 0 的問題, 很久很久以前看過一篇 08/31 21:26
yhliu:文章, 大意上是說 cell observation 為 0, 則 "殘差" 只能是 08/31 21:27
yhliu:負的, 不能是正的. 好像因此作者建議調整自由度吧?....不過, 08/31 21:28
yhliu:事隔太久記憶不一定真實, 也就是作者是否以調整自由度的方法 08/31 21:29
yhliu:對付, 我無法肯定. 原文出處也沒有印象了. 08/31 21:30
bmka:y大第一點指的是這篇 Koehler and Larntz (1980). An 08/31 21:48
bmka:An empirical investigation of goodness-of-fit statistics 08/31 21:49
bmka:for sparse multinomials. JASA, 75, 336-344. 08/31 21:49
bmka:至於5X7的fisher exact 對現在的電腦來說算是小case啦 08/31 21:50
bmka:如果是更大的table,R的function裡面還有用simulation來 08/31 21:53
bmka:得到p-value這個選項(真的想省時間的話) 08/31 21:53
gsuper:推一個 09/01 02:54
Kinght:所以bmka大認為"即使細格有0 只要期望值<5的格數少於20% 09/01 08:48
Kinght:仍不用做Fisher exact test"? 09/01 08:49
bmka:我的中文有那麼差嗎....請多愛用Fisher's exact test. 09/01 11:11
Kinght:所以你只是來推廣Fisher exact test? 09/01 15:41
ADORIAN:b 大是說放心使用 Fisher's exact test 09/01 19:38
bmka:謝謝A大翻譯 :) 09/01 19:57

你可能也想看看

搜尋相關網站