[爆卦]年齡變項是什麼?優點缺點精華區懶人包

為什麼這篇年齡變項鄉民發文收入到精華區:因為在年齡變項這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者chanmer (client center)看板Statistics標題[問題]多元迴歸轉換虛...

年齡變項 在 ?麗莎寶貝lisababy? Instagram 的最佳貼文

2021-09-24 16:20:35

#團購 https://lihi1.com/6TN7F #你是害怕別人問你幾歲還是驕傲別人好奇你的年齡🤔 #一起團購年輕 對於變美這件事情我不僅自身不遺餘力也很樂意跟大家來分享 愛美是人的天性無論男女,但是隨著年齡的增長和社會環境的傷害、作息的不正常、飲食的不規律,難免會變得不如預期的那麼優秀,...




各位統計前輩好:

小弟目前正在跑多元迴歸,但現在有幾個問題想請前輩們解惑:

一、間斷(名義)變項轉換為虛擬變項:

以年齡為例:30歲以下,31-40歲,41-50歲,51歲以上
目前看到的轉法有兩種:
(1)在Dummy variables,將水準數減一,也就是4個轉成3個
預設參照組為51歲以上,30歲以下在dummy成不同變數過程是
1-->1 2-->0 3-->0 4-->0 ,輸出名稱是"年齡1"

第41-50歲那組就是
1-->0 2-->0 3-->1 4-->0,輸出名稱是"年齡3"

出來的資料名稱也會只有三組(因為全部都0的那組就是51歲這組)


(2)將四組各自分別dummy,水準數就是原本的四組
也就是30歲以下在dummy成不同變數過程是
1-->1 2-->0 3-->0 4-->0 ,輸出名稱是"年齡1"

依此類推,51歲以上那組就是
1-->0 2-->0 3-->0 4-->1 ,輸出名稱是"年齡4"


我看吳明隆和陳正昌的書都是用(1),但我不知道我這樣解讀是對還錯?
所以想請大家解惑,到底哪一種才是對的?



二、如果跑迴歸,是要將所有被背景變項都丟進去嗎?小弟的背景變項有8個,
每一項再各自轉成虛擬變項,也有20個以上

不是不能跑,只是小弟在想有什麼可以事先篩選的方式

以小弟研究為例,所有背景變項中,什麼性別、學歷、年資
在F檢定時都沒有顯著,
就只有年齡一項有達顯著,
這樣可以再丟回歸的變項時,可以假設性別、學歷、年資
這些沒有預測力而先剔除丟入嗎?
(意即我只要丟入年齡的虛擬變項就好)


小弟這樣的推論正確嗎? (當然我知道大絕招是全部丟進去,
我只是想知道一些可能篩選的依準)

另外,還有一個更窘的情況,假設真的某些虛擬變項有預測效力,
如年資的其中一個虛擬變項好了,可是解釋力實在很低,
大約只有1%-3%,其他設定的自變項解釋力遠高於年資,
假設是領導魅力的其中一項(關懷領導),佔了15%,
那這樣,年資的解釋還有存在的意義嗎?


以上是小弟目前深切的疑惑,望請各位先進指導~~謝謝大家 ^^~

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 112.105.89.196
andrew43:第一種方法很常見,但要小心它是非正交對比。 01/11 05:39
andrew43:第二種方法的alpha會澎漲,於是p-value就不宜參考了。 01/11 05:41
andrew43:我從來沒有看過用第二種方法的。不知道你哪裡看到的? 01/11 05:42
andrew43:第一種方法你可以查 simple contrast 得到更多資料。 01/11 05:42
andrew43:以上回答你第一個問題。 01/11 05:43
andrew43:第二個問題比較複雜,但至少和dummy variable無關。 01/11 05:44
andrew43:要不要採用某個因子是全有全無的,所以先不用想dummy。 01/11 05:45
andrew43:先檢驗某因子的邊際效果,而不要直接就看到dummy裡去。 01/11 05:46
andrew43:另外,都不考慮交互作用嗎?你可能要想一想。 01/11 05:50
BugEater:Dummy variables,將水準數減一的原因是什么呢? 01/11 06:23
BugEater:是因為reference category的effect是表現在intercept那里 01/11 06:23
BugEater:所以需要減1。如果你的model沒有intercept這一項,那么 01/11 06:25
BugEater:你就要包括所有的水準數,當然coefficient的解釋就不同了 01/11 06:25
BugEater:對第二個問題,放背景變量的目的是進行一定的control, 01/11 06:27
BugEater:如果背景變項可能沒有effect,那么你可以認為無須control 01/11 06:29
BugEater:所以放不放要取決于你的研究hypothesis是如何表述的 01/11 06:31
andrew43:BugEater說的沒錯。我倒沒想過你可能沒有截距項。 01/11 07:18
andrew43:但如果超過一個因子在模型裡,那也只有一個因子能這樣做 01/11 07:24
andrew43:而且沒有截距項在解釋上往往有困難,且檢驗的H0也不同。 01/11 07:26
BugEater:是,當多于一個因子時候會變復雜,用dummy就好。 01/11 08:06
chanmer:感謝各位大大 雖然小弟功力尚淺 但是獲益良多 有了指點 01/11 14:51
chanmer:大概有了些頭緒 像TWO-WAY ANOVA等 真的很謝謝大家解惑 01/11 14:52
yhliu:第一種方法就是4組只取3個 dummy, 第2種方法是有幾組就取幾 01/11 21:00
yhliu:個 dummy. 第2法的4個 dummy 加起來是常數 1, 也就是說會和 01/11 21:01
yhliu:常數項重疊, 或術語說是 "完全線性重合". 因此, 類別變數取 01/11 21:02
yhliu:dummy 時是少一個, 也就是第1法. 01/11 21:02
yhliu:第2個問題基本上是模型選擇問題. 與簡單數值變數不同的是: 01/11 21:03
yhliu:一個類別解釋變數對應多個 dummy, 因此在利用軟體執行時需要 01/11 21:04
yhliu:該軟體能直接處理類別解釋變數. 像這樣的軟體通常也會自動建 01/11 21:05
yhliu:立虛擬變數. 01/11 21:06

你可能也想看看

搜尋相關網站