為什麼這篇vif值意思鄉民發文收入到精華區:因為在vif值意思這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者mushiue (mushiue)看板NCHU-AE98標題[心得] [轉錄]我常用到的stat...
中心牛師兄的大作,轉帖過來 呵呵
我常用到的stata命令:
(續)
在使用最小二乘法估計時,兩個通常被質疑的問題是資料是否存在多重共線性和異方差。
多重共線性是指解釋變數之間的相關性。通常我們假設解釋變數之間是相關的,而且允許
解釋變數存在相關性,並控制可以觀察的因素正是OLS的優點。如果把多重共線性看作一
個需要解決的問題,那麼需要把它解釋為相關性“較大”。這樣,變數之間沒有相關性不
好,相關性太大也不好,優劣的分割真是頗費琢磨。而且多重共線性並沒有違反任何經典
假定,所以,這個問題沒有很好的定義。本質上講,在樣本給定時,多重共線性問題無法
解決,或者說它是一個偽問題。
先看一下為什麼解釋變數之間的相關性大會有問題。在OLS回歸的經典假設(除正態假設
外)下,某個係數的OLS估計值的總體方差與擾動項的方差成正比,與解釋變數的總方差
(一般地,我們視解釋變數為隨機變數)成反比,是該變數對其它解釋變數回歸的擬合優
度的增函數。這個擬合優度可以理解為該變數的總變動中可以由其他解釋變數解釋的部分
。當這個值趨近於1時,OLS估計值的總體方差趨向於無窮大。總體方差大時,樣本方差也
大的概率就大,t檢驗就會不準確。儘管多重共線性沒有違背任何經典假設,但是OLS方法
有時無法準確估計一些參數。這個問題可以理解為資料提供的資訊不足以精確地計算出某
些係數。最根本的解決方法當然是搜集更大的樣本。如果樣本給定,也許我們應該修改提
出的問題,使我們能夠根據樣本資料做出更精確的判斷。去掉一個解釋變數,或者合併一
些解釋變數可以減少多重共線性。不過要注意的是去掉相關的解釋變數會使估計有偏。
實際操作時使用方差膨脹係數衡量解釋變數的多重共線性。我們只需在回歸之後使用vif
命令就可以得到方差膨脹係數。在命令列中敲入vif並回車,stata會報告一個包含所有解
釋變數的方差膨脹係數的表格,如果方差膨脹係數大於10,這個變數潛在地有多重共線性
問題。
異方差是一個更值得關注的問題。首先簡單地介紹一下異方差會帶來哪些問題。第一、異
方差不影響OLS估計的無偏性和一致性。第二、異方差使估計值方差的估計有偏,所以此
時的t核對總和置信區間無效。第三、F統計量不再服從F分佈,LM統計量不再服從漸進卡
方分佈,相應的檢驗無效。第四、異方差使OLS不再是有效估計。總之,異方差影響推斷
是否有效,降低估計的效率,但對估計值的無偏性和一致性沒有影響。
知道了異方差作用的原理,很自然地就有了對付它的辦法。第一種方法是在不知道是否存
在異方差時,通過調整相應的統計量糾正可能帶來的偏差。OLS中實現對異方差穩健的標
準誤很簡便。相應的命令是在原來的回歸命令後面加上robust選項。如下:
reg (被解釋變數) (解釋變數1) (解釋變數2)……,robust
White(1980)證明瞭這種方法得到的標準誤是漸進可用(asymptotically valid)的。
這種方法的優點是簡單,而且需要的資訊少,在各種情況下都通用。缺點是損失了一些效
率。
另一種方法是通過直接或間接的方法估計異方差的形式,並獲得有效估計。典型的方法是
WLS(加權最小二乘法)。WLS是GLS(一般最小二乘法)的一種,也可以說在異方差情形
下的GLS就是WLS。在WLS下,我們設定擾動項的條件方差是某個解釋變數子集的函數。之
所以被稱為加權最小二乘法,是因為這個估計最小化的是殘差的加權平方和,而上述函數
的倒數恰為其權重。
在stata中實現WLS的方法如下:
reg (被解釋變數) (解釋變數1) (解釋變數2)…… [aweight=變數名]
其中,aweight後面的變數就是權重,是我們設定的函數。
一種經常的設定是假設擾動項的條件方差是所有解釋變數的某個線性組合的指數函數。在
stata中也可以方便地實現:
首先做標準的OLS回歸,並得到殘差項;
reg (被解釋變數) (解釋變數1) (解釋變數2)……
predict r, resid
生成新變數logusq,並用它對所有解釋變數做回歸,得到這個回歸的擬合值,再對這個擬
合值求指數函數;
gen logusq=ln(r^2)
reg logusq (解釋變數1) (解釋變數2)……
predict g, xb
gen h=exp(g)
最後以h作為權重做WLS回歸;
reg (被解釋變數) (解釋變數1) (解釋變數2)…… [aweight=h]
如果我們確切地知道擾動項的協方差矩陣的形式,那麼GLS估計是最小方差線性無偏估計
,是所有線性估計中最好的。顯然它比OLS更有效率。雖然GLS有很多好處,但有一個致命
弱點:就是一般而言我們不知道擾動項的協方差矩陣,因而無法保證結果的有效性。
到現在我們已經有了兩種處理異方差的方法:一是使用對異方差穩健的標準誤調整t統計
量,並以此作推斷;另一種是設定異方差的形式,使用可行的GLS得到有效估計。下面總
結一下標準的OLS估計同上述兩種方法的優劣,並結合檢驗異方差的方法,給出處理異方
差的一般步驟。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.120.95.44