作者lenofire (lenofire)
看板R_Language
標題[問題] 有關於bootstrapping的謎思
時間Wed Oct 26 19:13:44 2016
我看完了一些文獻,想要做bootstrapping 的resample(隨機抽樣)以達成減少多數類別
問題(一 使用bootstrapping後該如何看隨機抽樣結果?
問題(二 使用bootstrapping是需要把三類別一起放進去才能運作?
問題(三 我是該輸人哪句指令?用這句但沒反應
http://i.imgur.com/ggcnikf.jpg -----------
https://youtu.be/tb6wb9ZdPH0?t=6m46s 大家可以參考該影片 ,我是不懂怎麼運用在大量資料上
-------------
http://i.imgur.com/Lg4WvMv.jpg 如圖所見
資料紅色Label A有過多的現象,發生了imbalance dataset ,所以我要使用undersample
與over
sample 但Rose package 不能應用在多分類上
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.22.18.105
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1477480426.A.F8F.html
→ andrew43: 看不懂你做bootstrap的目的10/26 21:04
→ andrew43: 然後…你的三個問題雖是中文但我沒有一句看得懂的...10/26 21:07
→ lenofire: 我boostrap 目的是為了做隨機抽選,但我不會做這動作10/26 21:49
※ 編輯: lenofire (163.22.18.73), 10/26/2016 21:49:49
※ 編輯: lenofire (163.22.18.73), 10/26/2016 21:50:47
→ clansoda: 隨機抽樣會用到bootstrap嗎? 這不是用來減少variance嗎10/26 22:24
→ abc2090614: 感覺你搞錯bootstrap的意思10/26 22:33
→ andrew43: 嗯。還是不知道你在說什麼。可否再說白一點?10/26 23:35
→ cywhale: 看不懂問題+1 不過你執行完打a enter 就會有反應了 真的10/26 23:45
→ lenofire: 我簡單來說就是要用拔靴法做resample 但不懂看結果10/26 23:55
→ lenofire: Bootstrap 本來就會做隨機抽選 而且可以用于undersample10/26 23:57
→ lenofire: 問題10/26 23:57
→ andrew43: 那段原碼跑不出來正常,因為它少了一個括號。10/27 00:37
→ andrew43: 它的意思是從x中抽出且放回10個取平均,這樣100次。10/27 00:39
→ andrew43: 「以達成減少多數類別」到底是?10/27 00:46
→ celestialgod: 統計應該都稱bootstrapping 沒有再用bootstrap吧10/27 00:52
※ 編輯: lenofire (223.140.208.2), 10/27/2016 09:14:45
→ cywhale: 隨機抽選沒錯,但你問題中多數類別、三類別指的是什麼?~~10/27 09:48
※ 編輯: lenofire (163.22.18.105), 10/27/2016 10:39:33
→ lenofire: 我是不懂是只用把A類放進去隨機抽選就好了嗎 http://i.i10/27 11:20 → lenofire: mgur.com/2MpNdoy.jpg10/27 11:20
※ 編輯: lenofire (163.22.18.105), 10/27/2016 11:34:05
→ clansoda: imbalance data? 10/27 11:37
→ clansoda: 你可以試試看ROSE package 裡面也是用你說的bootstrapin 10/27 11:40
→ clansoda: 來作為oversample undersample 與 人造資料的用途10/27 11:41
→ lenofire: 我先看 謝謝了 10/27 11:56
→ lenofire: 可是這個不能用在多分類上 10/27 23:37
→ andrew43: 原po要不要再把實際需求明確地描述一次? 10/28 00:47
→ andrew43: 或是舉一個簡單的例子但明確地說明你想做什麼事 10/28 00:49
※ 編輯: lenofire (163.22.18.73), 10/28/2016 09:15:34
→ lenofire: 更新了 10/28 09:15
※ 編輯: lenofire (163.22.18.73), 10/28/2016 09:16:20
→ andrew43: 老實說我並沒有看懂。例如,你每一次bootstraping後要做 10/28 13:20
→ andrew43: 或收集什麼統計量? 10/28 13:21
→ andrew43: 如果你不說明白,老實說,bootstraping本身不必管類別 10/28 13:22
→ andrew43: 就只是單純抽出且放回而已。 10/28 13:23
→ andrew43: 例如你有三組,那就三組都做抽100個取統計量共10000次。 10/28 13:26
→ andrew43: 這樣不就是「平衡」了? 10/28 13:27
→ clansoda: 我想你需要把你的資料型態解釋一下,這樣很難猜測 10/28 14:12
→ clansoda: classification problem的binary classification 10/28 14:13
→ clansoda: 就會有常見的imbalance data,所以target variable要是 10/28 14:13
→ clansoda: 兩個是很正常的,像是EMAIL是不是垃圾信這種,就會有這 10/28 14:13
→ clansoda: 個問題,但是我現在看不太懂你的資料型態,所以只能猜 10/28 14:14
→ lenofire: 沒錯,但有時候會遇上多分類情況 ,的確binary classifi 10/28 15:07
→ lenofire: cation 是常見的情況 10/28 15:07
→ andrew43: 既然您不明說,我也幫不了你了。 10/28 15:19