[爆卦]pls是什麼是什麼?優點缺點精華區懶人包

為什麼這篇pls是什麼鄉民發文收入到精華區:因為在pls是什麼這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者dinotwo (呼呼)看板Statistics標題[問題] SEM用PLS跑的問題與優缺點?時...

pls是什麼 在 Kathy | Visual Content Creator Instagram 的最讚貼文

2021-02-03 14:14:37

- 今年2021的計畫是什麼呢?說真的我還在想,但我很確定今年會另一個層次的挑戰了,比起過去想做就做的衝勁,今年會有更完整的籌備,甚至是中長期計畫,需要3-5年的時間,課程規劃方面我也想了很久,不論是線上或線下,我打算用line官方帳號來和大家聯絡,未來有課程方面的訊息,也會統一導流過去,方便集中管...


常常看到文章說
因為樣本數太少
無法用LISREL
因此用PLS跑
PLS優點是可以處理小樣本.....

但我有個疑問
我只知道PLS是用部分最小平方法來跑
那為何他就能處理小樣本呢?
而且文獻中只提到他的優點
並沒有說他的缺點
那大家都用PLS就好了何必用LISREL呢?

不知是否有SEM達人知道
謝謝

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.110.193
Altair:兩種方法的前提假設(嚴謹度)不同 SEM比較龜毛 12/20 10:44
Altair:至於優缺點比較 自個google一下吧 12/20 10:50

> -------------------------------------------------------------------------- <

作者: danny789 (這其中一定有什麼誤會) 看板: Statistics
標題: Re: [問題] SEM用PLS跑的問題與優缺點?
時間: Mon Apr 27 17:02:57 2009

※ 引述《dinotwo (呼呼)》之銘言:
: 標題: [問題] SEM用PLS跑的問題與優缺點?
: 時間: Tue Dec 19 19:53:51 2006
:
: 常常看到文章說
: 因為樣本數太少
: 無法用LISREL
: 因此用PLS跑
: PLS優點是可以處理小樣本.....
:
: 但我有個疑問
: 我只知道PLS是用部分最小平方法來跑
: 那為何他就能處理小樣本呢?
: 而且文獻中只提到他的優點
: 並沒有說他的缺點
: 那大家都用PLS就好了何必用LISREL呢?
:
: 不知是否有SEM達人知道
: 謝謝
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc)
: ◆ From: 140.112.110.193
: 推 Altair:兩種方法的前提假設(嚴謹度)不同 SEM比較龜毛 12/20 10:44 : → Altair:至於優缺點比較 自個google一下吧 12/20 10:50
如果以嚴謹度來說, PLS 比 SEM 更龜毛
PLS之所以可以處理小樣本, 是因為 resample 的技術,
所以 sample size最小可以到 20 筆,並且分析的資料可以不用呈常態分配
(常態分配是很多統計方法的基本假設)
PLS同樣可以如傳統的SEM一樣, 分為二階段分析
(measurement model analysis & structural model analysis)以求更嚴謹

PLS與SEM最大不同之處是沒有 fit indices, 而是看所有 DV R-Sq 的值是否大於某值
(Chin, 1998)來評定此 Model 是否 fit

另外, PLS 有 SEM2 (第二代 SEM)之稱, 並被資管領域期刊 MIS Quarterly 作為
官方建議使用分析方法

軟體部份的話 PLS-Graph 是國外常用的軟體, 但不知道是 Chin 太忙還是怎樣, E-Mail
聯絡都沒下文, 但此軟體國內有某些教授有, 也許可以找到也說不定

除了 PLS-Graph 外, 還有 SmartPLS(德國)及Visual PLS(高應大)
SmartPLS 是 University of Hamburg 開發出來的軟體, 已經被應用了有幾年的時間,
並且已經有很多用此軟體分析的論文被國外重要期刊接受
http://www.smartpls.de (此軟體可免費註冊取得所需要的 Key)

Visual PLS雖然是國內寫的, 不過它只有負責 GUI 的部份, 核心還是使用 Chin 所開發的
DOS PLS, 不過解決了資料輸入及簡化 Model 的建構問題
http://www2.kuas.edu.tw/prof/fred/vpls/about.htm


感謝 cloud0242 的指教已更正為 chin 年紀大了(汗)
至於 The Partial Least Squares Approach to Structural Equation Modeling
的電子檔,因為年代久遠,還真的沒有 pdf 檔只有紙本,不過使用校際館藏合作, 還
是可以拿到影印本的.

--
Keroro軍曹對多啦a夢說:
PTT星球上有二國人...
一種是自認與其他人不同國的人
另一種是認為大家都是同一國的人

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.254.33.185
※ 編輯: danny789 來自: 122.254.33.185 (04/28 19:22)

> -------------------------------------------------------------------------- <

作者: ryeh (尋DFW的1元握壽司~) 看板: Statistics
標題: Re: [問題] SEM用PLS跑的問題與優缺點?
時間: Sat May 9 12:40:59 2009

有個問題請教一下:跑PLS時變數的range好像會影響coefficient,我的情形是大多數的
item都是用likert scale,但是有一、二個不是,好像這一、二個變數的range,例如用
1-1000 or 1-100 會有不同的coefficient,這正常嗎?要怎麼辦啊?

另外bootstrapping通常設多少次比較好?謝謝回答~


※ 引述《danny789 (這其中一定有什麼誤會)》之銘言:
: : --
: : ◆ From: 140.112.110.193
: : 推 Altair:兩種方法的前提假設(嚴謹度)不同 SEM比較龜毛 12/20 10:44 : : → Altair:至於優缺點比較 自個google一下吧 12/20 10:50 : 如果以嚴謹度來說, PLS 比 SEM 更龜毛
: PLS之所以可以處理小樣本, 是因為 resample 的技術,
: 所以 sample size最小可以到 20 筆,並且分析的資料可以不用呈常態分配
: (常態分配是很多統計方法的基本假設)
: PLS同樣可以如傳統的SEM一樣, 分為二階段分析
: (measurement model analysis & structural model analysis)以求更嚴謹
: PLS與SEM最大不同之處是沒有 fit indices, 而是看所有 DV R-Sq 的值是否大於某值
: (Chin, 1998)來評定此 Model 是否 fit
: 另外, PLS 有 SEM2 (第二代 SEM)之稱, 並被資管領域期刊 MIS Quarterly 作為
: 官方建議使用分析方法
: 軟體部份的話 PLS-Graph 是國外常用的軟體, 但不知道是 Chin 太忙還是怎樣, E-Mail
: 聯絡都沒下文, 但此軟體國內有某些教授有, 也許可以找到也說不定
: 除了 PLS-Graph 外, 還有 SmartPLS(德國)及Visual PLS(高應大)
: SmartPLS 是 University of Hamburg 開發出來的軟體, 已經被應用了有幾年的時間,
: 並且已經有很多用此軟體分析的論文被國外重要期刊接受
: http://www.smartpls.de (此軟體可免費註冊取得所需要的 Key)
: Visual PLS雖然是國內寫的, 不過它只有負責 GUI 的部份, 核心還是使用 Chin 所開發的
: DOS PLS, 不過解決了資料輸入及簡化 Model 的建構問題
: http://www2.kuas.edu.tw/prof/fred/vpls/about.htm
: 感謝 cloud0242 的指教已更正為 chin 年紀大了(汗)
: 至於 The Partial Least Squares Approach to Structural Equation Modeling
: 的電子檔,因為年代久遠,還真的沒有 pdf 檔只有紙本,不過使用校際館藏合作, 還
: 是可以拿到影印本的.

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 99.160.11.34
bmka:1000次不算多 05/12 18:39
bmka:你可以跑2000次, 再跟1000次bootstrap的結果做比較 05/12 18:41
bmka:如果差不多的話就大概可以放心report了 05/12 18:41

> -------------------------------------------------------------------------- <

作者: danny789 (這其中一定有什麼誤會) 看板: Statistics
標題: Re: [問題] SEM用PLS跑的問題與優缺點?
時間: Mon May 11 12:50:28 2009

※ 引述《ryeh (尋DFW的1元握壽司~)》之銘言:
: 標題: Re: [問題] SEM用PLS跑的問題與優缺點?
: 時間: Sat May 9 12:40:59 2009
:
: 有個問題請教一下:跑PLS時變數的range好像會影響coefficient,我的情形是大多數的
: item都是用likert scale,但是有一、二個不是,好像這一、二個變數的range,例如用
: 1-1000 or 1-100 會有不同的coefficient,這正常嗎?要怎麼辦啊?
:
: 另外bootstrapping通常設多少次比較好?謝謝回答~

就我所知 likert scale 是採用那一種, 並沒有學術上的證據可以證明有影響
而採用 1-1000 or 1-100 這種等距量表(我猜你的是這種)
其實在統計上與 likert scale 是類似的, 只是分的比較細而已
不過我有看過有些教授會將他轉成 likert scale, ex: 0-10 -> 1, 11-20 -> 2 ...

至於 bootstrapping 的 resample 通常設多少次比較好, 其實並沒有定論 ..
(軟體內定是100, 我也看過設為 200, 300 的)
不過 MISQ 有很多 paper 是採用 500, 我想這個數字是比較恰當的, 而且也有實際發表
的 paper 可引用

--
Keroro軍曹對多啦a夢說:
PTT星球上有二國人...
一種是自認與其他人不同國的人
另一種是認為大家都是同一國的人

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.254.33.185
※ 編輯: danny789 來自: 122.254.33.185 (05/11 12:54)
chenyutn:bootstrap大約一千次就很足夠了 05/11 22:53
chenyutn:畢竟現在電腦跑得很快啊 05/11 22:53
danny789:老實說我有作過實驗resample設300-1000差異不大,並不是電 05/12 08:31
danny789:腦速度的問題,而且在MIS領域我真沒看過設1000的paper 05/12 08:33
danny789:所以resample並不是設越大越好,也必須有文獻支持吧? 05/12 08:34
chenyutn:Efron, B.,&Tibshirani, R.J. (1993).An introduction to 05/12 13:24
chenyutn:the bootstrap 05/12 13:24
chenyutn:Taylor, W. (2000) Change-Point Analysis: A Powerful 05/12 13:30
chenyutn:New Tool For Detecting Changes. 05/12 13:30
chenyutn:Preacher & Hayes 也建議不要低於1000 但一時找不到來源 05/12 13:44
chenyutn:不過我的立足點是傳播領域 05/12 13:44
sneak: 畢竟現在電腦跑得很快啊 https://daxiv.com 11/09 14:59
sneak: bootstrap大約 https://muxiv.com 01/02 14:54

> -------------------------------------------------------------------------- <

作者: chenyutn (人生要死,何為苦心。) 看板: Statistics
標題: Re: [問題] SEM用PLS跑的問題與優缺點?
時間: Tue May 12 14:01:33 2009

※ 引述《danny789 (這其中一定有什麼誤會)》之銘言:
: 標題: Re: [問題] SEM用PLS跑的問題與優缺點?
: 時間: Mon May 11 12:50:28 2009
:
: ※ 引述《ryeh (尋DFW的1元握壽司~)》之銘言:
: : 標題: Re: [問題] SEM用PLS跑的問題與優缺點?
: : 時間: Sat May 9 12:40:59 2009
: :
: : 有個問題請教一下:跑PLS時變數的range好像會影響coefficient,我的情形是大多數的
: : item都是用likert scale,但是有一、二個不是,好像這一、二個變數的range,例如用
: : 1-1000 or 1-100 會有不同的coefficient,這正常嗎?要怎麼辦啊?
: :
: : 另外bootstrapping通常設多少次比較好?謝謝回答~
:
: 就我所知 likert scale 是採用那一種, 並沒有學術上的證據可以證明有影響
: 而採用 1-1000 or 1-100 這種等距量表(我猜你的是這種)
: 其實在統計上與 likert scale 是類似的, 只是分的比較細而已
: 不過我有看過有些教授會將他轉成 likert scale, ex: 0-10 -> 1, 11-20 -> 2 ...
:
: 至於 bootstrapping 的 resample 通常設多少次比較好, 其實並沒有定論 ..
: (軟體內定是100, 我也看過設為 200, 300 的)
: 不過 MISQ 有很多 paper 是採用 500, 我想這個數字是比較恰當的, 而且也有實際發表
: 的 paper 可引用
:
: --
: Keroro軍曹對多啦a夢說:
: PTT星球上有二國人...
: 一種是自認與其他人不同國的人
: 另一種是認為大家都是同一國的人
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc)
: ◆ From: 122.254.33.185
: ※ 編輯: danny789 來自: 122.254.33.185 (05/11 12:54)
: 推 chenyutn:bootstrap大約一千次就很足夠了 05/11 22:53 : → chenyutn:畢竟現在電腦跑得很快啊 05/11 22:53 : → danny789:老實說我有作過實驗resample設300-1000差異不大,並不是電 05/12 08:31 : → danny789:腦速度的問題,而且在MIS領域我真沒看過設1000的paper 05/12 08:33 : → danny789:所以resample並不是設越大越好,也必須有文獻支持吧? 05/12 08:34
想說乾脆回文好了XD

Preacher, K. J., & Hayes, A. F. (2008). Asymptotic and resampling strategies
for assessing and comparing indirect effects in multiple mediator models

這是其中的一段:

There is no consensus as to how many bootstrap samples should
be generated, except that more is better. Given that the percentile end-
points are estimated using extremes of the sampling distribution and
that, for BCa intervals, a good estimate of the acceleration constant
is needed, it is important to minimize sampling variance in these es-
timates. We recommend at least 5,000 resamples for final reporting,
although 1,000 is probably sufficient for preliminary analyses. There
is little reason to use fewer, given the speed of today’s desktop comput-
ing technology.

這段也是我的立論基礎,雖然在數字設定多少才算大方面仍沒有立論,但resample
的確是設越大越好。

我想,這應該不會因傳播或MIS領域不同而變吧?

還是說,有別的研究者有不同意見的?由於我是傳播領域的,所以看的多半是傳播
類的paper,但這幾篇都有討論到resample數,不知道其他領域(例如統計)的paper
是不是也有討論到,而有不同意見?

--
◤◢ 玄妙系列作第二部《黃泉路》 全家、福客多、OK便利商店賣中 ▊▋▌▍▎
▇▆◣▅▇▇▅▆▇█▇▆▇▍▄▇ ▇▅▂▄▆▇
發生過命案的三重賓館857號房
憑空傳來的詭異歌聲 ▏ ▎
˙歸來的惡靈即將帶走他們的性命.◢▉ .
▉▇◣ ▄▅ http://kuso.cc/4ltv ▊ ▆

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.42.91.208
※ 編輯: chenyutn 來自: 114.42.91.208 (05/12 14:05)
bmka:bootstrap 只是花時間罷了,只佔了整個研究資源的一小部份 05/12 18:43
bmka:當然能作越多次越好 05/12 18:44

> -------------------------------------------------------------------------- <

作者: danny789 (這其中一定有什麼誤會) 看板: Statistics
標題: Re: [問題] SEM用PLS跑的問題與優缺點?
時間: Tue May 12 22:57:22 2009

※ 引述《chenyutn (人生要死,何為苦心。)》之銘言:
: 標題: Re: [問題] SEM用PLS跑的問題與優缺點?
: 時間: Tue May 12 14:01:33 2009
:
: : 推 chenyutn:bootstrap大約一千次就很足夠了 05/11 22:53 : : → chenyutn:畢竟現在電腦跑得很快啊 05/11 22:53 : : → danny789:老實說我有作過實驗resample設300-1000差異不大,並不是電 05/12 08:31 : : → danny789:腦速度的問題,而且在MIS領域我真沒看過設1000的paper 05/12 08:33 : : → danny789:所以resample並不是設越大越好,也必須有文獻支持吧? 05/12 08:34 :
: 想說乾脆回文好了XD
:
: Preacher, K. J., & Hayes, A. F. (2008). Asymptotic and resampling strategies
: for assessing and comparing indirect effects in multiple mediator models
:
: 這是其中的一段:
:
: There is no consensus as to how many bootstrap samples should
: be generated, except that more is better. Given that the percentile end-
: points are estimated using extremes of the sampling distribution and
: that, for BCa intervals, a good estimate of the acceleration constant
: is needed, it is important to minimize sampling variance in these es-
: timates. We recommend at least 5,000 resamples for final reporting,
: although 1,000 is probably sufficient for preliminary analyses. There
: is little reason to use fewer, given the speed of today’s desktop comput-
: ing technology.
:
: 這段也是我的立論基礎,雖然在數字設定多少才算大方面仍沒有立論,但resample
: 的確是設越大越好。
:
: 我想,這應該不會因傳播或MIS領域不同而變吧?
:
: 還是說,有別的研究者有不同意見的?由於我是傳播領域的,所以看的多半是傳播
: 類的paper,但這幾篇都有討論到resample數,不知道其他領域(例如統計)的paper
: 是不是也有討論到,而有不同意見?

關於 resample 是不是設越大越好? 其實我找不到文獻支持, 所以我也不敢評論.

並且 Behavior Research Methods 是否是該領域不錯的 Journal 我也不懂
不過我用 ABI/INFORM Global 及 ScienceDirect (SDOL/SDOS) 都查無此
Journal title 不知何因 ?
還有此篇右下角有學術期刊所沒有的 "Copyright 2008 Psychonomic Society, Inc."
不知道這是指什麼?

關於這篇文獻(Preacher, 2008)的網路 pdf, 我初略的看了一下內容
我對此篇探討 PLS 而沒有提到 chin 感到有點疑惑, 當然也不是一定要引用 chin
只是有點怪

不知道是否有其他比較強(多)的證據或文獻可以證明 resample size 設越大越好?

以下引用 chin(2001)的 PLS-Graph User's Guide 內容片段
(已有 MIS 領域不錯的 Journal paper 引用)
The default Bootstrap options are 100 resamples with each sample consisting of the same number of
cases as your original sample set. The bootstrap procedure samples with replacement from your
original sample set. It continues to sample until it reaches the number of cases you specify (or the
default). This procedure is repeated until it reaches the number of bootstrap resamples you specify (or
the default of 100). In general, resamples of 200 tend to provide reasonable standard error estimates.

以下是快速找到的幾篇 MIS papers
Resample = 100
Henry, R.M., McCray, G.E., Purvis, R.L. Roberts, T.L. (2007) "Exploiting Organizational Knowledge in Developing IS Project Cost and Schedule Estimates: An Empirical Study", Information & Management, Vol. 44 No.6, pp.598-612.

Resample = 500
Ko, D., Kirsch, J.L., King, W.R. (2005) "Antecedents of knowledge transfer from consultants to clients in enterprise system implementations", MIS Quarterly, Vol. 29 No.1, pp.59-85.

Resample = 100 & 500
Goodhue, D., Lewis, W., and Thompson, R., (2007) "Statistical Power in Analyzing Interaction Effects: Questioning the Advantage of PLS With Product Indicators", Information Systems Research, Vol. 18 No.2, pp.211-227.

也許 Goodhue et al.(2007) 這篇是答案, 但我找不到 pdf 檔可以看(汗)
※ 編輯: danny789 來自: 122.254.33.185 (05/12 23:00)
bmka:這個問題沒那麼複雜吧,先把bootstrap方法原理弄懂 05/12 23:01
bmka:resample 數目當然越大越好,至於要多大,那要看data distribut 05/12 23:03
bmka:跑久一點不會吃虧的 05/12 23:04

> -------------------------------------------------------------------------- <

作者: danny789 (這其中一定有什麼誤會) 看板: Statistics
標題: Re: [問題] SEM用PLS跑的問題與優缺點?
時間: Thu May 14 16:54:52 2009

: 不知道是否有其他比較強(多)的證據或文獻可以證明 resample size 設越大越好?
:
: 以下引用 chin(2001)的 PLS-Graph User's Guide 內容片段
: (已有 MIS 領域不錯的 Journal paper 引用)
: The default Bootstrap options are 100 resamples with each sample consisting of the same number of
: cases as your original sample set. The bootstrap procedure samples with replacement from your
: original sample set. It continues to sample until it reaches the number of cases you specify (or the
: default). This procedure is repeated until it reaches the number of bootstrap resamples you specify (or
: the default of 100). In general, resamples of 200 tend to provide reasonable standard error estimates.
:
: 以下是快速找到的幾篇 MIS papers
: Resample = 100
: Henry, R.M., McCray, G.E., Purvis, R.L. Roberts, T.L. (2007) "Exploiting Organizational Knowledge in Developing IS Project Cost and Schedule Estimates: An Empirical Study", Information & Management, Vol. 44 No.6, pp.598-612.
:
: Resample = 500
: Ko, D., Kirsch, J.L., King, W.R. (2005) "Antecedents of knowledge transfer from consultants to clients in enterprise system implementations", MIS Quarterly, Vol. 29 No.1, pp.59-85.
:
: Resample = 100 & 500
: Goodhue, D., Lewis, W., and Thompson, R., (2007) "Statistical Power in Analyzing Interaction Effects: Questioning the Advantage of PLS With Product Indicators", Information Systems Research, Vol. 18 No.2, pp.211-227.
:
: 也許 Goodhue et al.(2007) 這篇是答案, 但我找不到 pdf 檔可以看(汗)

: → bmka:這個問題沒那麼複雜吧,先把bootstrap方法原理弄懂 05/12 23:01 : → bmka:resample 數目當然越大越好,至於要多大,那要看data distribut 05/12 23:03 : → bmka:跑久一點不會吃虧的 05/12 23:04
對於我來說 PLS 只是一個工具而已
我只要知道如何使用及瞭解它的假設及限制, 而能產出 outcome 並解讀就可以了
如同您會操作電腦, 但您知道半導體是如何製造的嗎? 畢竟電腦只是一個工具而已

也許您只是站在純數學的觀點來看, 認為 resample 設越大越好
但這樣反而太過操弄統計這個工具了, 這樣統計的結果真的就是事實的結果嗎?
如果您可以提供文獻證明 resample 設越大越好, 那我也可以修正我原來的看法.

若如您所言, 對於 resample 設越大越好, 我一個合理的懷疑
那麼這許多作研究的學者應該會有人提到這點, 但是並沒有 ...
至少我看過的 papers 沒人提到此點

而且我相信這些學者的電腦應該不會太差, resample 設100萬也不是問題才對
所以我認為這並不是電腦執行速度的問題

我後來還是找到了 Goodhue et al.(2007) 這篇 pdf 檔 (ISR 在 MIS 排前五大期刊)
也許底下的片段可以解答您的問題, 所以我的建議還是設 500 比較恰當
因為這是大多數學者所使用的數值

It might be suggested that we should use bootstrapping
with 500 resamples (rather than 100). Five hundred
resamples is the usual recommendation when
using bootstrapping to estimate a parameter using a
single sample (Chin 1998). However, we draw 500
samples (500 researchers) from the same population
for each cell in our analysis, and use bootstrapping
with 100 resamples on each of those. This amounts to
50,000 resamples for each cell, and hence we expect
that moving from 50,000 to 250,000 resamples in each
cell would not affect the outcome.

--
Keroro軍曹對多啦a夢說:
PTT星球上有二國人...
一種是自認與其他人不同國的人
另一種是認為大家都是同一國的人

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.254.33.185
※ 編輯: danny789 來自: 122.254.33.185 (05/14 16:56)
bmka:很明顯的, 你不懂bootstrap.... 05/16 01:47
bmka:請看chenyutn的回文 05/16 01:48
bmka:還是那句老話, 先把原理弄懂 05/16 01:55
bmka:Here is a reference: "An introduction to the bootstrap" 05/16 01:57
bmka:by Efron and Tibschirani 05/16 01:57
bmka:Data"長得好看"的話500次也許太多了,長得醜的話1000次也不嫌 05/16 02:01
bmka:多, 如果想要精確的估計confidence interval, 那麼number of 05/16 02:02
bmka:repititions要更多 05/16 02:03
bmka:又,我只碰過reviewer批評bootstrap repitition太少,沒碰過 05/16 02:06
bmka:嫌太多的(笑~~), 弄懂bootstrap 你就不會說這是"操弄統計"了 05/16 02:09
sneak: "An introdu https://muxiv.com 11/09 15:00
sneak: 請看chenyutn的 https://daxiv.com 01/02 14:54

> -------------------------------------------------------------------------- <

作者: chenyutn (人生要死,何為苦心。) 看板: Statistics
標題: Re: [問題] SEM用PLS跑的問題與優缺點?
時間: Sat May 16 00:18:08 2009

※ 引述《danny789 (這其中一定有什麼誤會)》之銘言:
: : 不知道是否有其他比較強(多)的證據或文獻可以證明 resample size 設越大越好?
: : 以下引用 chin(2001)的 PLS-Graph User's Guide 內容片段
: : (已有 MIS 領域不錯的 Journal paper 引用)
: : The default Bootstrap options are 100 resamples with each sample consisting of the same number of
: : cases as your original sample set. The bootstrap procedure samples with replacement from your
: : original sample set. It continues to sample until it reaches the number of cases you specify (or the
: : default). This procedure is repeated until it reaches the number of bootstrap resamples you specify (or
: : the default of 100). In general, resamples of 200 tend to provide reasonable standard error estimates.
: : 以下是快速找到的幾篇 MIS papers
: : Resample = 100
: : Henry, R.M., McCray, G.E., Purvis, R.L. Roberts, T.L. (2007) "Exploiting Organizational Knowledge in Developing IS Project Cost and Schedule Estimates: An Empirical Study", Information & Management, Vol. 44 No.6, pp.598-612.
: : Resample = 500
: : Ko, D., Kirsch, J.L., King, W.R. (2005) "Antecedents of knowledge transfer from consultants to clients in enterprise system implementations", MIS Quarterly, Vol. 29 No.1, pp.59-85.
: : Resample = 100 & 500
: : Goodhue, D., Lewis, W., and Thompson, R., (2007) "Statistical Power in Analyzing Interaction Effects: Questioning the Advantage of PLS With Product Indicators", Information Systems Research, Vol. 18 No.2, pp.211-227.
: : 也許 Goodhue et al.(2007) 這篇是答案, 但我找不到 pdf 檔可以看(汗)
: : → bmka:這個問題沒那麼複雜吧,先把bootstrap方法原理弄懂 05/12 23:01 : : → bmka:resample 數目當然越大越好,至於要多大,那要看data distribut 05/12 23:03 : : → bmka:跑久一點不會吃虧的 05/12 23:04 : 對於我來說 PLS 只是一個工具而已
: 我只要知道如何使用及瞭解它的假設及限制, 而能產出 outcome 並解讀就可以了
: 如同您會操作電腦, 但您知道半導體是如何製造的嗎? 畢竟電腦只是一個工具而已
: 也許您只是站在純數學的觀點來看, 認為 resample 設越大越好
: 但這樣反而太過操弄統計這個工具了, 這樣統計的結果真的就是事實的結果嗎?
: 如果您可以提供文獻證明 resample 設越大越好, 那我也可以修正我原來的看法.
: 若如您所言, 對於 resample 設越大越好, 我一個合理的懷疑
: 那麼這許多作研究的學者應該會有人提到這點, 但是並沒有 ...
: 至少我看過的 papers 沒人提到此點
: 而且我相信這些學者的電腦應該不會太差, resample 設100萬也不是問題才對
: 所以我認為這並不是電腦執行速度的問題
: 我後來還是找到了 Goodhue et al.(2007) 這篇 pdf 檔 (ISR 在 MIS 排前五大期刊)
: 也許底下的片段可以解答您的問題, 所以我的建議還是設 500 比較恰當
: 因為這是大多數學者所使用的數值
: It might be suggested that we should use bootstrapping
: with 500 resamples (rather than 100). Five hundred
: resamples is the usual recommendation when
: using bootstrapping to estimate a parameter using a
: single sample (Chin 1998). However, we draw 500
: samples (500 researchers) from the same population
: for each cell in our analysis, and use bootstrapping
: with 100 resamples on each of those. This amounts to
: 50,000 resamples for each cell, and hence we expect
: that moving from 50,000 to 250,000 resamples in each
: cell would not affect the outcome.

bootstrapping的目的本就是
Estimate parameters that we don't know how to estimate analytically
(Howell, 2002, http://tinyurl.com/q6v3c2) .

以下取自Stata的guidelines(http://www.stata.com/support/faqs/stat/reps.html),
懶得翻了,僅標重點。

這段告訴我們一點:

數字設多大不一定,但越大必然會獲得越精確的CI估計。
只是我們需不需要這麼精確的數字而已。

我想其實danny789板友也是想表達這個意思,只是在回文時我太注重500這個數字了,
因為我覺得能越精確當然越好啊。:P

所以bmka板友前幾篇推文給的建議非常實用,設個500次、1000次跑看看,
再跟2000次比較一下有沒有太大的差異,如果沒有,就放心報告吧。


How large should the bootstrapped samples be relative to the total number
of cases in the dataset?


In terms of the number of replications, there is no fixed answer such as
“250” or “1,000”to the question. The right answer is that you should
choose an infinite number of replications because, at a formal level, that
is what the bootstrap requires.

The key to the usefulness of the bootstrap is that it converges in terms of
numbers of replications reasonably quickly, and so running a finite number
of replications is good enough—assuming the number of replications chosen
is large enough.

The above statement contains the key to choosing the right number of
replications. Here is the recipe:

1. Choose a large but tolerable number of replications. Obtain the
bootstrap estimates.

2. Change the random-number seed. Obtain the bootstrap estimates
again, using the same number of replications.

3. Do the results change meaningfully? If so, the first number you chose
was too small. Try a larger number. If results are similar enough, you
probably have a large enough number. To be sure, you should probably
perform step 2 a few more times, but I seldom do.

Whether results change meaningfully is a matter of judgment and has to be
interpreted given the problem at hand. How accurately do you need the
standard errors, confidence intervals, etc.? Often, a few digits of precision
is good enough because, even if you had the standard error calculated
perfectly, you have to ask yourself how much you believe your model in terms
of all the other assumptions that went into it. For instance, in a Becker
earnings model of the return to schooling, you might tell me that return is
6% with a standard error of 1, and I might believe you. If you told me the
return is 6.10394884% and the standard error is .9899394, you have more
precision but have not provided any additional useful information.


--
◤◢ 玄妙系列作第二部《黃泉路》 全家、福客多、OK便利商店賣中 ▊▋▌▍▎
▇▆◣▅▇▇▅▆▇█▇▆▇▍▄▇ ▇▅▂▄▆▇
發生過命案的三重賓館857號房
憑空傳來的詭異歌聲 ▏ ▎
˙歸來的惡靈即將帶走他們的性命.◢▉ .
▉▇◣ ▄▅ http://kuso.cc/4ltv ▊ ▆

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.45.174.165
bmka:有時候用bootstrap是因為asymptotic variance 太複雜了(不是 05/16 03:19
bmka:導不出來). Also, moment estimators (asymptotic variance 05/16 03:20
bmka:estimator is one of those) are less robust when outliers 05/16 03:20
bmka:present. 05/16 03:20
danny789:您說設個n次跑看看沒有太大的差異,老實說這樣並沒有符合 05/22 17:32
danny789:科學精神,也許這次分析OK但下次分析不同的資料卻不OK 05/22 17:33
danny789:雖然你有列出文獻(我不知道這算不算有力的證明),但太過偏 05/22 17:34
danny789:於數學上的論證,老實說我對於設n>50來分析並不反對 05/22 17:37
danny789: 更正 n>500 05/22 17:38
danny789:但是仍然沒有研究實證這樣作是有意義的,所以目前我對於 05/22 17:39
danny789:n>500還是有所保留 05/22 17:40
bmka:請問你到底有沒有去讀那些有關bootstrap method 的reference? 05/25 09:20
bmka:不然, 至少看看wikipedia上面的解說吧 05/25 09:27
bmka:chenyutn大已經解釋得這麼清楚了,怎麼你還這麼糾結 XD 05/25 09:32
bmka:還是要再說一次,computing time往往是研究裡最不花錢的 05/25 09:33
bmka:能跑就儘量跑多次一點,讓估計值穩定(以統計術語講就是收斂啦) 05/25 09:36
bmka:又,resampling 數目要大的理由正是要避免你上述不OK的情形 05/25 09:39
danny789:To B大,請問你到底有沒有看我寫的內容?你們提出的都是數 05/27 08:02
danny789:學上的討論,而這些是必須經過"實證"研究來證實是對的,而 05/27 08:03
danny789:不是參考一篇數學推理就認為可以這麼作,何況所提供的文獻 05/27 08:06
danny789:真的很薄弱."實證"研究就是用來考驗這些"理論"與"事實"的 05/27 08:08
danny789:差異,研究的進步是一點一滴慢慢前進的,不是自己在實驗室 05/27 08:10
danny789:得到結果(或數學上的研究結果),就認為外面的實務環境也是 05/27 08:11
danny789:同樣結果. 05/27 08:12
danny789:我至少有提出MIS前五大期刊的文獻來證明我的看法,我希望 05/27 08:15
danny789:你也可以提出有力的"實證"期刊文獻來證明我是錯的,我也會 05/27 08:17
danny789:樂於接受. 05/27 08:18
bmka:不曉得你是不是誤解了bootstrap...Boostrap是做approximation 05/27 10:49
bmka:的工具, "理論上", 只要 resampling 數目逼近於無窮大, 05/27 10:50
bmka:那麼 bootstrap approximation 就會逼近真實的值 05/27 10:50
bmka:(asymptotically consistent). 但是, 當resampling 數目是 05/27 10:50
bmka:finite 時 (eg 500),asymptotic consistency 未必成立 05/27 10:51
bmka:這也是為什麼大部分有關bootstrap repetition number的研究 05/27 10:52
bmka:都是關注於到底 bootstrap resampling 至少要多大才夠大 05/27 10:52
bmka:而我所提的檢驗的方法(比較500, 1000, 2000的結果) 05/27 10:53
bmka:只是檢查收斂的經驗法則, 其實還有更嚴謹的方法可以去估計 05/27 10:54
bmka:resampling number(請愛用google大神) 05/27 10:54
bmka:Bootstrap 最早是由Efron提出的,在統計界已經被用到爛了, 05/27 10:54
bmka:也有很多系統性的研究, 如果你有興趣應該去看看這些文章 05/27 10:55
bmka:(隨便google就一堆). 我注意到你引用的都是最近這幾年的paper 05/27 10:56
bmka:不知你的領域是否在這幾年才突然"發現"這個方法 05/27 10:56
sneak: 能跑就儘量跑多次一點, https://noxiv.com 11/09 15:00
sneak: 不曉得你是不是誤解了b https://daxiv.com 01/02 14:54

> -------------------------------------------------------------------------- <

作者: chenyutn (人生要死,何為苦心。) 看板: Statistics
標題: Re: [問題] SEM用PLS跑的問題與優缺點?
時間: Tue Jun 2 13:12:31 2009

我後來直接寄信去問Dr. Goodue了。


Dr. Goodhue,

sorry for my poor English, I am a graduate student in Taiwan, having a question
about your article "Statistical Power in Analyzing Interaction Effects:
Questioning the Advantage of PLS With Product Indicators". I wonder how many
bootstrapping resamples would be enough for estimating the parameter? Is that
"the more, the better" making sense? And, why the five hundred resamples is the
usual recommendation?

An article of Stata (http://www.stata.com/support/faqs/stat/reps.html) suggests
that "the right answer is that you should choose an infinite number of
replications because, at a formal level, that is what the bootstrap requires",
and recommend three steps for identifying the reasonable number of resamples:

"1. Choose a large but tolerable number of replications. Obtain the bootstrap
estimates.

2. Change the random-number seed. Obtain the bootstrap estimates again, using
the same number of replications.

3. Do the results change meaningfully? If so, the first number you chose was
too small. Try a larger number. If results are similar enough, you probably
have a large enough number. To be sure, you should probably perform step 2
a few more times, but I seldom do."

Is that true?

I hope I've explained my questions well, and hope they make sense.


Thanks for your help!

Chen, Y-T



剛剛收到Dr. Goodue的回覆:

Chen,

Attached is the material from the paper on the number of resamples. As you can
see, we did carry out a version of what is recommended by Stata.


他那篇文章的部份內容,也確實是依照比較不同resamples數而來,可見Appendix E:
Comparing Bootstrapping With 100 and 500 Resamples。


因此,跟我之前所提的論點一樣(這樣下結論應該可以吧)。



※ 引述《chenyutn (人生要死,何為苦心。)》之銘言:
: ※ 引述《danny789 (這其中一定有什麼誤會)》之銘言:
: : 對於我來說 PLS 只是一個工具而已
: : 我只要知道如何使用及瞭解它的假設及限制, 而能產出 outcome 並解讀就可以了
: : 如同您會操作電腦, 但您知道半導體是如何製造的嗎? 畢竟電腦只是一個工具而已
: : 也許您只是站在純數學的觀點來看, 認為 resample 設越大越好
: : 但這樣反而太過操弄統計這個工具了, 這樣統計的結果真的就是事實的結果嗎?
: : 如果您可以提供文獻證明 resample 設越大越好, 那我也可以修正我原來的看法.
: : 若如您所言, 對於 resample 設越大越好, 我一個合理的懷疑
: : 那麼這許多作研究的學者應該會有人提到這點, 但是並沒有 ...
: : 至少我看過的 papers 沒人提到此點
: : 而且我相信這些學者的電腦應該不會太差, resample 設100萬也不是問題才對
: : 所以我認為這並不是電腦執行速度的問題
: : 我後來還是找到了 Goodhue et al.(2007) 這篇 pdf 檔 (ISR 在 MIS 排前五大期刊)
: : 也許底下的片段可以解答您的問題, 所以我的建議還是設 500 比較恰當
: : 因為這是大多數學者所使用的數值
: : It might be suggested that we should use bootstrapping
: : with 500 resamples (rather than 100). Five hundred
: : resamples is the usual recommendation when
: : using bootstrapping to estimate a parameter using a
: : single sample (Chin 1998). However, we draw 500
: : samples (500 researchers) from the same population
: : for each cell in our analysis, and use bootstrapping
: : with 100 resamples on each of those. This amounts to
: : 50,000 resamples for each cell, and hence we expect
: : that moving from 50,000 to 250,000 resamples in each
: : cell would not affect the outcome.
: bootstrapping的目的本就是
: Estimate parameters that we don't know how to estimate analytically
: (Howell, 2002, http://tinyurl.com/q6v3c2) .
: 以下取自Stata的guidelines(http://www.stata.com/support/faqs/stat/reps.html),
: 懶得翻了,僅標重點。
: 這段告訴我們一點:
: 數字設多大不一定,但越大必然會獲得越精確的CI估計。
: 只是我們需不需要這麼精確的數字而已。
: 我想其實danny789板友也是想表達這個意思,只是在回文時我太注重500這個數字了,
: 因為我覺得能越精確當然越好啊。:P
: 所以bmka板友前幾篇推文給的建議非常實用,設個500次、1000次跑看看,
: 再跟2000次比較一下有沒有太大的差異,如果沒有,就放心報告吧。
: How large should the bootstrapped samples be relative to the total number
: of cases in the dataset?
: In terms of the number of replications, there is no fixed answer such as
: “250” or “1,000”to the question. The right answer is that you should
: choose an infinite number of replications because, at a formal level, that
: is what the bootstrap requires.
: The key to the usefulness of the bootstrap is that it converges in terms of
: numbers of replications reasonably quickly, and so running a finite number
: of replications is good enough—assuming the number of replications chosen
: is large enough.
: The above statement contains the key to choosing the right number of
: replications. Here is the recipe:
: 1. Choose a large but tolerable number of replications. Obtain the
: bootstrap estimates.
: 2. Change the random-number seed. Obtain the bootstrap estimates
: again, using the same number of replications.
: 3. Do the results change meaningfully? If so, the first number you chose
: was too small. Try a larger number. If results are similar enough, you
: probably have a large enough number. To be sure, you should probably
: perform step 2 a few more times, but I seldom do.
: Whether results change meaningfully is a matter of judgment and has to be
: interpreted given the problem at hand. How accurately do you need the
: standard errors, confidence intervals, etc.? Often, a few digits of precision
: is good enough because, even if you had the standard error calculated
: perfectly, you have to ask yourself how much you believe your model in terms
: of all the other assumptions that went into it. For instance, in a Becker
: earnings model of the return to schooling, you might tell me that return is
: 6% with a standard error of 1, and I might believe you. If you told me the
: return is 6.10394884% and the standard error is .9899394, you have more
: precision but have not provided any additional useful information.

--
◤◢ 玄妙系列作第二部《黃泉路》 全家、福客多、OK便利商店賣中 ▊▋▌▍▎
▇▆◣▅▇▇▅▆▇█▇▆▇▍▄▇ ▇▅▂▄▆▇
發生過命案的三重賓館857號房
憑空傳來的詭異歌聲 ▏ ▎
˙歸來的惡靈即將帶走他們的性命.◢▉ .
▉▇◣ ▄▅ http://kuso.cc/4ltv ▊ ▆

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.42.90.187
bmka:值得鼓勵 06/02 21:32
chengjaylee:太強了!大推! 06/03 08:41

> -------------------------------------------------------------------------- <

作者: danny789 (這其中一定有什麼誤會) 看板: Statistics
標題: Re: [問題] SEM用PLS跑的問題與優缺點?
時間: Tue Jun 9 16:33:58 2009

※ 引述《chenyutn (人生要死,何為苦心。)》之銘言:
: 我後來直接寄信去問Dr. Goodue了。
: Dr. Goodhue,
: sorry for my poor English, I am a graduate student in Taiwan, having a question
: about your article "Statistical Power in Analyzing Interaction Effects:
: Questioning the Advantage of PLS With Product Indicators". I wonder how many
: bootstrapping resamples would be enough for estimating the parameter? Is that
: "the more, the better" making sense? And, why the five hundred resamples is the
: usual recommendation?
: An article of Stata (http://www.stata.com/support/faqs/stat/reps.html) suggests
: that "the right answer is that you should choose an infinite number of
: replications because, at a formal level, that is what the bootstrap requires",
: and recommend three steps for identifying the reasonable number of resamples:
: "1. Choose a large but tolerable number of replications. Obtain the bootstrap
: estimates.
: 2. Change the random-number seed. Obtain the bootstrap estimates again, using
: the same number of replications.
: 3. Do the results change meaningfully? If so, the first number you chose was
: too small. Try a larger number. If results are similar enough, you probably
: have a large enough number. To be sure, you should probably perform step 2
: a few more times, but I seldom do."
: Is that true?
: I hope I've explained my questions well, and hope they make sense.
: Thanks for your help!
: Chen, Y-T
: 剛剛收到Dr. Goodue的回覆:
: Chen,
: Attached is the material from the paper on the number of resamples. As you can
: see, we did carry out a version of what is recommended by Stata.
: 他那篇文章的部份內容,也確實是依照比較不同resamples數而來,可見Appendix E:
: Comparing Bootstrapping With 100 and 500 Resamples。
: 因此,跟我之前所提的論點一樣(這樣下結論應該可以吧)。

我去找了 Appendix E 來看(原來是放在Web site)確實如您所言
也由於您依照科學精神來求證(不是指您問作者此事), 確實如您所言我們也可以下結論了
但如果有更多的文獻來支持會更有說服力一點
雖然我們開始的看法不同, 而且也各自引用文獻來表達不同的看法及觀點
但我想我們彼此也可以得到成長, 我個人對您表達高度的肯定(這樣會不會太惡心?)

另外, 我有些事想對 bmka 說 (如果您還有在看這些討論的話)
也許您是這方面的專家, 我也歡迎您熱心的加入討論
但 "個人的看法" 在研究中是最不重要的
如果您有某些看法, 必須要引用文獻來支持(或佐證)

套用某教授的說法: (純引用,有點粗,我沒有其他的意思,但很貼切)
博士論文還有一點參考價值, 碩士論文是個屁, 個人看法則連屁都不如
(簡單說就是沒有經過外界的考驗)
論文發表在國內期刊有一點參考價值,發表在國外重要期刊則是重要的參考文獻
(不是媚外,但事實如此)

尤其是有份量的文獻支持是最重要的, 而不是 "我認為", "隨便google就一堆" 等等
像您說 "我所提的檢驗的方法(比較500, 1000, 2000的結果)" 這個除非您有將研究結果
發表在重要的期刊中, 不然很難讓人當做參考文獻
所以才要提出實際上的文獻(作者,年份,paper title等), 讓自己的看法更有說服力


最後您在前篇說
>我注意到你引用的都是最近這幾年的paper
>不知你的領域是否在這幾年才突然"發現"這個方法

老實說我真的很吃驚您會這樣說,學術上的研究是一點一滴慢慢在進步的
而且最重要的是, 您的研究是站在前人的研究基礎上來的
當然引用的文獻要以最新的為優先, 我不知道我引用最近這幾年的paper有何問題?
如果您寫的paper大部份都引用舊的或前幾年的文獻,可能還會被質疑有抄襲的嫌疑
所以一般的指導教授都會要求引用最新的文獻, 這並不是什麼奇怪的事.

不過確實在 MIS 領域中, PLS 是在2000年左右才慢慢有學者使用(主要是 MIS Quarterly)
為何呢? 因為 PLS 是被高度質疑的, 此點在 Goodhue et al.(2007)此篇中也有提到
可能您會很奇怪? PLS 又不是什麼新東西, 早就是個研究到爛掉的東西, 為何還會被質疑
原因很簡單, PLS 並沒有被 "實證研究" 證實在是可靠值得信賴的工具(至少在MIS領域)
這也是 Goodhue 此篇研究努力的目標(您看他又多了一篇paper可以發表)

抱歉! 一時心血來朝寫的落落長
※ 編輯: danny789 來自: 122.254.33.185 (06/09 16:41)
bmka:簡單的回應一下, I did not mean to discourage you from 06/09 19:46
bmka:learning. It's just that your questions is somewhat like 06/09 19:48
bmka:common sense in statistics. 06/09 19:48
bmka:請你去讀懂bootstrap的原理你又拒絕(wiki上的說明應該不難懂) 06/09 19:51
bmka:如果你真的弄清楚bootstrap在做什麼,就不會批評我們在玩弄 06/09 19:54
bmka:數學或者沒有實證精神了 06/09 19:55
bmka:你一直要文獻,覺得"我認為"不重要,可是,我給你的回應裡 06/09 19:56
bmka:的一段話,正是寫在我的paper,發表在某top期刊裡的 06/09 19:58
bmka:這樣的"我認為"有沒有比較有份量了??? 06/09 19:59
bmka:討論到現在,你弄懂bootstrap了嗎?這個比較重要吧 06/09 20:04
bmka:又,所有的"我認為"(笑)都是針對boostrap method,你的最後一段 06/09 20:13
bmka:跳針了吧,我不懂PLS,更不熟MIS領域,但是boostrap方法的原理 06/09 20:15
bmka:不會隨著不同領域而解釋有所不同 06/09 20:16
danny789:引用文獻請註明出處,從頭到尾都沒看到你提出來(伸手) 06/10 10:01
danny789:想不到現在的研究已經墮落到要引用wiki的說明了,那些期刊 06/10 10:02
danny789:可以收起來不用玩了 06/10 10:02
danny789:如果你提不出實際的文獻出處,我不會再讓費時間在這裡,另 06/10 10:04
danny789:外,現在的人討論都是用這種"衝動式"的言語嗎? 06/10 10:06
bmka:文獻早就給過了, bootstrap 是Efron提出來的, 請看Efron & 06/10 10:10
bmka:Tibshirani (1993). 沒記錯的話chenyutn大也給過同樣的文獻 06/10 10:11
bmka:Wiki的內容我讀過了,沒什麼問題才會請你去看 06/10 10:12
bmka:如果你覺得我文字衝, 那是我中文不好,對事不對人 06/10 10:13
bmka:Keep in mind that free advice doen't mean "cheap" advice! 06/10 10:13
lin15:wiki有在審查相信不會太差才是... 06/10 22:41
sneak: 想不到現在的研究已經墮 https://muxiv.com 11/09 15:04
sneak: 的一段話,正是寫在我的 https://daxiv.com 01/02 14:55

你可能也想看看

搜尋相關網站