作者Kinght ( ̄▽ ̄)
看板Statistics
標題[問題] 卡方獨立性檢定 細格有0
時間Tue Aug 30 15:31:07 2011
拜託不要看到標題就先推Yate's Correction for Continuity或
Fisher's exact probability test
說來慚愧 接觸統計將近8年…
最近才聽說卡方檢定中細格不能有零這件事Orz
上網google 「卡方 0」也只有看到一筆資料有提到
而且只剩庫存頁面…
資料有幾個變項 有很多的變數 雖然樣本有超過2000
但是因為資料的特性 往往有一個變項很大 但是其他細格都是0
例如
甲 乙 丙 丁 戊 己 庚
A 280 1 10 0 0 0 2
B 12 5 0 380 5 3 1
C 0 181 3 1 0 2 5
D 1 3 0 21 89 40 20
E 9 20 18 50 150 0 0
類似這樣的狀況
如果併項到沒有0
1.會讓特徵消失 2.變項太少失去解釋意義 3.Cramers’V變小
請問有什麼方法解決嗎?
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 163.29.135.126
推 gsuper:我也想問這問題 我的資料是上千筆 3*2 table , 一旦部分資 08/31 02:00
→ gsuper:料併項 整體的算法就不統一..很苦惱 08/31 02:01
→ bmka:那為什麼不用Fisher's exact test? 08/31 09:44
→ bmka:你知道為什麼要避免small cells嗎? 08/31 09:46
→ Kinght:Fisher's是"期望值"小於5 因為會讓檢定值變高 08/31 12:30
推 laba1014:請問有甚麼ref.提到細格"觀察值"不能為0的限制? 08/31 14:20
→ laba1014:大部分書提到的只有對"期望值"的限制不是嗎 08/31 14:21
→ bmka:Kinght大你記錯了,那不是Fisher exact的限制 08/31 19:13
→ bmka:主要原因也不是檢定值(mistaken for power?) 的問題 08/31 19:14
→ bmka:引一段 R. A. Fisher在書裡講的話 08/31 19:22
→ bmka:"The treatment of frequencies by means of chi-square is 08/31 19:23
→ bmka:an approximation, which is useful for the comparative 08/31 19:23
→ bmka:simplicity of the calculations. The exact treatment is 08/31 19:23
→ bmka:somewhat more laborious, though necessary in cases of 08/31 19:24
→ bmka:doubt.” -- Statistical Methods for Research Workers 08/31 19:24
→ bmka:他這裡指的statement of doubt就是"期望值"小於五 08/31 19:26
→ bmka:這種情況下chi-square test statistic"很可能"不是卡方分佈 08/31 19:27
→ bmka:(修正,"很可能"長得不像卡方分佈, chi-sq test 只是 08/31 19:29
→ bmka:approximation test) 08/31 19:29
→ bmka:所以,不好意思,還是請你用Fisher exact test吧 08/31 19:42
→ yhliu:5×7 table, 要做 exact test? 不知多少時間能算出來? 08/31 21:20
→ yhliu:卡方檢定是近似檢定方法, 是基於多變量中央極限定理而來的. 08/31 21:20
→ yhliu:因此, 有 "cell 期望次數至少為 5" 的要求. 但有兩個方向的 08/31 21:21
→ yhliu:數值研究結論: 一是說對於大型的表, 只要期望值小於5的 cell 08/31 21:22
→ yhliu:數比例不太高, 而所有 cell 期望值都在 1 以上, 馬馬虎虎啦! 08/31 21:23
→ yhliu:另一結論說: 即使各細格期望值都在5以上, 但若各細格期望值 08/31 21:24
→ yhliu:相差太懸殊, 卡方近似還是有疑問的. 08/31 21:25
→ yhliu:至於 cell observations 是 0 的問題, 很久很久以前看過一篇 08/31 21:26
→ yhliu:文章, 大意上是說 cell observation 為 0, 則 "殘差" 只能是 08/31 21:27
→ yhliu:負的, 不能是正的. 好像因此作者建議調整自由度吧?....不過, 08/31 21:28
→ yhliu:事隔太久記憶不一定真實, 也就是作者是否以調整自由度的方法 08/31 21:29
→ yhliu:對付, 我無法肯定. 原文出處也沒有印象了. 08/31 21:30
→ bmka:y大第一點指的是這篇 Koehler and Larntz (1980). An 08/31 21:48
→ bmka:An empirical investigation of goodness-of-fit statistics 08/31 21:49
→ bmka:for sparse multinomials. JASA, 75, 336-344. 08/31 21:49
→ bmka:至於5X7的fisher exact 對現在的電腦來說算是小case啦 08/31 21:50
→ bmka:如果是更大的table,R的function裡面還有用simulation來 08/31 21:53
→ bmka:得到p-value這個選項(真的想省時間的話) 08/31 21:53
推 gsuper:推一個 09/01 02:54
→ Kinght:所以bmka大認為"即使細格有0 只要期望值<5的格數少於20% 09/01 08:48
→ Kinght:仍不用做Fisher exact test"? 09/01 08:49
→ bmka:我的中文有那麼差嗎....請多愛用Fisher's exact test. 09/01 11:11
→ Kinght:所以你只是來推廣Fisher exact test? 09/01 15:41
→ ADORIAN:b 大是說放心使用 Fisher's exact test 09/01 19:38
→ bmka:謝謝A大翻譯 :) 09/01 19:57