当前位置: 首页 > >

计量经济学第五章多重共线性

发布时间:

一、多重共线性的性质 ? 完全多重共线:对解释变量x1, x2, … xk, 如果 存在一组不全为0的常数?1、?2、… ?k,使 得: ?1x1i+ ?2x2i+ …+ ?kxki=0 ? 非完全多重共线:包括变量间交互相关情 形如下: – ?1x1i+ ?2x2i+ …+ ?kxki+?i=0 二、完全多重共线的估计问题 ? 以二元回归为例: ? ? ? 2 ( yi ? ?1 ? ? 2 x2i ? ? 3i x3i ? ?i ? ?i x ? 2i )( y ( 0 0 ∴如果出现完全多重共线,则偏回归系数是不确定的,其标 准误是无穷大。 ? ? , var(? ? )?? – 设:x3i=?x2i (r23=1) 代入上式: ? 2 2 ? ? ? 2 ?2 x i )( ? ?3i ) ? ( x ? 2 ?3 x i)?( ? ?i x ?3i )( y ? ? 2i x ?3i ) x ? 2i x ?3i ) 2 x ? )? Var( ? 2 ? ?2 2 2 ?2 x i (1 ? r23 ) yi ? ?1 ? ( ? 2 ? ?? 3 ) x2i ? ? i 或将x3i=?x2i 代入原模型: 令? 2 ? ?? 3 ? ? * ? *有唯一解 ? 偏回归系数无确定解的含义:无法从所给样本中将x2和x3的影响分离出来: 当x2发生变化时,x3也按一个倍数因子?改变。 三、多重共线的实际后果 ? 完全多重共线是一种极端情形,非完全多重共线更常见。 ? 非完全多重共线下,OLS估计量仍是最优线性无偏估计量, 但有如下后果: – – ? )? Var( ? 2 1 2 1 ? r23 ? 2 2 ?2 x ( 1 ? r i 23 ) ?2 ∴估计精度较低 ? VIF 称为方差膨胀因子 – VIF表明:估计量的方差由于多重共线的出现而膨胀起来。 ? 当r23=0.7时,VIF=1.96 ? 为零时的 ? 当r23=0.9时,VIF=5.76 即: var( 是? r23 5.76倍。 2) ? ) ? ? 当r23=0.95时,VIF=10.26 即: var( 是无共线时的 10倍。 2 三、多重共线的实际后果 ? 由于方差膨胀,接受零假设更为容易,出 现多个偏回归系数单零t检验不显著。 ? ? 2 t? ? ) se( ? 2 ? ) ?, t ? se( ? 2 ? 虽然单零检验不显著,但是联合检验(F检 验)却显著,总的拟合优度也很高。 ? OLS估计量及其标准误对数据的小变化敏感。 四、多重共线产生的原因 ? 数据采集方法:解释变量取值范围过小; ? 模型或从中取样的总体本身的特点 – 例:在作电力消费对收入和住房面积的回归 时,一般来说,收入较高的家庭住房面积也 较大。 ? 模型设定问题 – 如多项式回归:yi ? ? 0 ? ?1xi ? ? 2 xi2 ? ?i ? 一个过度决定的模型: – 解释变量个数>样本容量 五、多重共线的识别 ? 注意:多重共线是个程度问题,而不是有无问题。 ? 识别方法: – R2值高,F检验显著,但显著t值少。 – 回归元间有高度两两相关(充分而非必要条件)。 – 本征值(eigenvalues)和病态指数(condition index) 病态指数CI ? 最大本征值 最小本征值 病态指数CI在10-30之间,中强多重共线 CI>30,严重多重共线 五、多重共线的识别 – 辅助回归:作每一个xi对其余x变量的回归, 2 并计算R2,记为 Ri。这种回归叫辅助回归, 以辅助y对x的回归。然后计算统计量: Fi ? Ri2 /(k ? 2) (1 ? Ri2 ) /(n ? k ? 1) ~(k-2, n-k+1)的F分布 当Fi显著时,认为xi与其余的x有共线性。 ? 容许度与方差膨胀因子 容许度TOLi ? (1 ? Ri2 ) 方差膨胀因子VIFi ? 1 1 ? Ri2 ? 1 TOLi 经验规则:VIF>10 则说该变量是高度 共线的。 六、多重共线的克服 1. 横截面数据与时间序列数据并用 – 例如研究汽车需求,假定有销售量、*均价 格和消费者收入的时间序列数据,模型为: ln yt ? ?1 ? ? 2 ln pt ? ? 3 ln I t ? ?t 在时间序列数据中,价格和收入变量一般都有高度共 线的趋势。如果作上述回归时存在高度共线问题,可 利用横截面数据估计收入弹性?3,因为这些数据都产 生于一个时间点上,价格还不至于有多大变化。令收 ? ,原回归可化为: 入弹性的横截面估计为 ? 3 yt* ? ?1 ? ? 2 ln pt ? ?t ? ln I 其中:y * ? ln y ? ? t t 3 t 六、多重共线的克服 2. 剔除变量:对严重多重共线,最简单的做法之一 是剔除共显著变量之一。但从模型中剔除一个变 量,可能导致设定偏误。 yt=?1+?2x2t+?3x3t+?t 剔除一变量后变为: yt=b1+b12x2t+?1t E(b12 ) = ?2 + ?3 b32 b12是的一个有偏且非一致的估 计,无法得到反映x2对y的净影响的系数?2 六、多重共线的克服 3. 差分法:时间序列数据间往往有较强的相关性, 减小相关性的方法是形成一次差分方程: yt ? yt ?1 ? ? 2 ( x2t ? x2,t ?1 ) ? ? 3 ( x3t ? x3,t ?1 ) ? ? t 其中:? t ? ? t ? ? t ?1 虽然x2和x3的水*之可能高度相关,但是,其差分形式相关 程度往往较低。因此,一阶差分回归常能减低多重共线性 的严重程度。(对于横截面数据,一阶差分不适用。 差分法的问题:随机误差项可能存在序列相关;损失了一 次观测值,因而减少了一个自由度,如果样本容量本身就 不大,这可能会有影响。



友情链接: