作者chanmer (client center)
看板Statistics
標題[問題]多元迴歸轉換虛擬變項
時間Sat Jan 11 01:20:25 2014
各位統計前輩好:
小弟目前正在跑多元迴歸,但現在有幾個問題想請前輩們解惑:
一、間斷(名義)變項轉換為虛擬變項:
以年齡為例:30歲以下,31-40歲,41-50歲,51歲以上
目前看到的轉法有兩種:
(1)在Dummy variables,將水準數減一,也就是4個轉成3個
預設參照組為51歲以上,30歲以下在dummy成不同變數過程是
1-->1 2-->0 3-->0 4-->0 ,輸出名稱是"年齡1"
第41-50歲那組就是
1-->0 2-->0 3-->1 4-->0,輸出名稱是"年齡3"
出來的資料名稱也會只有三組(因為全部都0的那組就是51歲這組)
(2)將四組各自分別dummy,水準數就是原本的四組
也就是30歲以下在dummy成不同變數過程是
1-->1 2-->0 3-->0 4-->0 ,輸出名稱是"年齡1"
依此類推,51歲以上那組就是
1-->0 2-->0 3-->0 4-->1 ,輸出名稱是"年齡4"
我看吳明隆和陳正昌的書都是用(1),但我不知道我這樣解讀是對還錯?
所以想請大家解惑,到底哪一種才是對的?
二、如果跑迴歸,是要將所有被背景變項都丟進去嗎?小弟的背景變項有8個,
每一項再各自轉成虛擬變項,也有20個以上
不是不能跑,只是小弟在想有什麼可以事先篩選的方式
以小弟研究為例,所有背景變項中,什麼性別、學歷、年資
在F檢定時都沒有顯著,
就只有年齡一項有達顯著,
這樣可以再丟回歸的變項時,可以假設性別、學歷、年資
這些沒有預測力而先剔除丟入嗎?
(意即我只要丟入年齡的虛擬變項就好)
小弟這樣的推論正確嗎? (當然我知道大絕招是全部丟進去,
我只是想知道一些可能篩選的依準)
另外,還有一個更窘的情況,假設真的某些虛擬變項有預測效力,
如年資的其中一個虛擬變項好了,可是解釋力實在很低,
大約只有1%-3%,其他設定的自變項解釋力遠高於年資,
假設是領導魅力的其中一項(關懷領導),佔了15%,
那這樣,年資的解釋還有存在的意義嗎?
以上是小弟目前深切的疑惑,望請各位先進指導~~謝謝大家 ^^~
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 112.105.89.196
→ andrew43:第一種方法很常見,但要小心它是非正交對比。 01/11 05:39
→ andrew43:第二種方法的alpha會澎漲,於是p-value就不宜參考了。 01/11 05:41
→ andrew43:我從來沒有看過用第二種方法的。不知道你哪裡看到的? 01/11 05:42
→ andrew43:第一種方法你可以查 simple contrast 得到更多資料。 01/11 05:42
→ andrew43:以上回答你第一個問題。 01/11 05:43
→ andrew43:第二個問題比較複雜,但至少和dummy variable無關。 01/11 05:44
→ andrew43:要不要採用某個因子是全有全無的,所以先不用想dummy。 01/11 05:45
→ andrew43:先檢驗某因子的邊際效果,而不要直接就看到dummy裡去。 01/11 05:46
→ andrew43:另外,都不考慮交互作用嗎?你可能要想一想。 01/11 05:50
→ BugEater:Dummy variables,將水準數減一的原因是什么呢? 01/11 06:23
→ BugEater:是因為reference category的effect是表現在intercept那里 01/11 06:23
→ BugEater:所以需要減1。如果你的model沒有intercept這一項,那么 01/11 06:25
→ BugEater:你就要包括所有的水準數,當然coefficient的解釋就不同了 01/11 06:25
→ BugEater:對第二個問題,放背景變量的目的是進行一定的control, 01/11 06:27
→ BugEater:如果背景變項可能沒有effect,那么你可以認為無須control 01/11 06:29
→ BugEater:所以放不放要取決于你的研究hypothesis是如何表述的 01/11 06:31
推 andrew43:BugEater說的沒錯。我倒沒想過你可能沒有截距項。 01/11 07:18
→ andrew43:但如果超過一個因子在模型裡,那也只有一個因子能這樣做 01/11 07:24
→ andrew43:而且沒有截距項在解釋上往往有困難,且檢驗的H0也不同。 01/11 07:26
推 BugEater:是,當多于一個因子時候會變復雜,用dummy就好。 01/11 08:06
→ chanmer:感謝各位大大 雖然小弟功力尚淺 但是獲益良多 有了指點 01/11 14:51
→ chanmer:大概有了些頭緒 像TWO-WAY ANOVA等 真的很謝謝大家解惑 01/11 14:52
→ yhliu:第一種方法就是4組只取3個 dummy, 第2種方法是有幾組就取幾 01/11 21:00
→ yhliu:個 dummy. 第2法的4個 dummy 加起來是常數 1, 也就是說會和 01/11 21:01
→ yhliu:常數項重疊, 或術語說是 "完全線性重合". 因此, 類別變數取 01/11 21:02
→ yhliu:dummy 時是少一個, 也就是第1法. 01/11 21:02
→ yhliu:第2個問題基本上是模型選擇問題. 與簡單數值變數不同的是: 01/11 21:03
→ yhliu:一個類別解釋變數對應多個 dummy, 因此在利用軟體執行時需要 01/11 21:04
→ yhliu:該軟體能直接處理類別解釋變數. 像這樣的軟體通常也會自動建 01/11 21:05
→ yhliu:立虛擬變數. 01/11 21:06