[爆卦]虛擬變數設定是什麼?優點缺點精華區懶人包

為什麼這篇虛擬變數設定鄉民發文收入到精華區:因為在虛擬變數設定這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者weiwei1110 (威威)看板Statistics標題[程式] R 虛擬變數設定問題請教時間...


[軟體程式類別]:
R

[程式問題]:
跑多元迴歸時的虛擬變數設定問題

[軟體熟悉度]:
新手以上一點點

[問題敘述]:
目前正在建立一個有關flyingV募資平台的迴歸模型
依變數 Y = (每筆專案的)實際募資金額/目標金額

其中有幾組自變數X是虛擬變數,如
1.不同專案類別(category):共有九種→設計、科技、社會...等
2.是否有早鳥優惠(earlybird):共有兩種→有或無
3.專案發起月份(month):共有12種→12個月



但我用factor來代替虛擬變數,所以我的迴歸模型大概如下:

model <- lm(y ~ X1+...+factor(category)+factor(earlybird)+factor(month)+...)


想請問如果設factor的話,R會自動把這幾個變數判斷為虛擬變數嗎???
還是需要設dummy variable才行???
目前看起來好像是能夠執行,但是很怕一切都是我的誤會OAQ

附上其中一組model的迴歸結果
http://imgur.com/oMTDF8M






有爬過文跟估狗過,但是找不太到相關資訊
所以只好勞駕各位專業的大大幫忙了 > <


謝謝!!!








--

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.25.100
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1465958847.A.1E5.html
※ 編輯: weiwei1110 (140.112.25.100), 06/15/2016 10:53:01
※ 編輯: weiwei1110 (140.112.25.100), 06/15/2016 10:53:19
celestialgod: 轉成factor後,R會把factor variable轉成dummy 06/15 11:01
celestialgod: 你跑的結果看起來是對的 06/15 11:01
weiwei1110: 謝謝c大,我這幾天都在確認這件事,終於放下心中大石! 06/15 15:04
Pieteacher: 但是R 預設是 treatment coding! 要注意 如果要用 su 06/15 20:27
Pieteacher: m coding or helmet coding 就要設定一下 06/15 20:27
Wush978: data.frame中的factor型態在跑lm的時候會自動轉成dummy 06/16 18:57
Wush978: variable。細節可以參考model.matrix 06/16 18:57
Wush978: http://wush978.github.io/FeatureHashing/#16 也有一些 06/16 18:58
Wush978: 相關資料 06/16 18:58
weiwei1110: 很謝謝P大跟W大提供的資料!感謝再感謝!XD 06/17 11:49

你可能也想看看

搜尋相關網站