background-image: url("../pic/slide-front-page.jpg") class: center,middle # 计量经济学(Econometrics) ### 胡华平 ### 西北农林科技大学 ### 经济管理学院数量经济教研室 ### huhuaping01@hotmail.com ### 2023-02-15
--- class: center, middle, duke-orange,hide_logo name: chapter08 # 第8章:放宽基本假设:异方差性 [8.1 异方差性的定义和来源](#definition) [8.2 异方差性的影响和后果](#effect) [8.3 广义最小二乘法 (GLS)](#GLS) [8.4 异方差性问题的诊断](#diagnose) [8.5 异方差性问题的矫正](#adjust) [8.6 案例展示(异方差问题的诊断和矫正)](#example) --- layout: false class: center, middle, duke-softblue,hide_logo name: definition # 8.1 异方差性的定义和来源 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter08">第08章 放宽基本假设:异方差性 </a>                       <a href="#effect">8.1 异方差性的定义和来源</a> </span></div> --- ## 异方差的概念与内涵 k变量总体回归模型(PRM) `$$\begin{align} Y_i&=\beta_1+\beta_2X_{2i}+\beta_3X_{3i}+\cdots+\beta_kX_{ki}+u_i && \text{(PRM)} \\ Y_i&=\hat{\beta}_1+\hat{\beta}_2X_{2i}+\hat{\beta}_3X_{3i}+\cdots+\hat{\beta}_kX_{ki}+e_i && \text{(SRM)} \\ \mathbf{y} &= \mathbf{X}\mathbf{\beta}+\mathbf{u} && \text{(PRM-matrix)} \\ \mathbf{y} &= \mathbf{X}\mathbf{\hat{\beta}}+\mathbf{e} && \text{(SRM-matrix)} \\ \end{align}$$` 则随机干扰项的方差协方差矩阵可以写成: `$$\begin{align} var-cov(\boldsymbol{u})&=E(\boldsymbol{uu'}) = \begin{bmatrix} \sigma_1^2 & \sigma_{12}^2 &\cdots &\sigma_{1n}^2\\ \sigma_{21}^2 & \sigma_2^2 &\cdots &\sigma_{2n}^2\\ \vdots & \vdots &\vdots &\vdots \\ \sigma_{n1}^2 & \sigma_{n2}^2 &\cdots &\sigma_n^2\\ \end{bmatrix} \end{align}$$` --- ## 异方差的概念与内涵 在**CLRM假设**下,随机干扰项为**同方差**(homoscedasticity),且随机干扰项之间**不相关**。也即: `$$\begin{align} E(u_i^2) &=\sigma^2;\quad (i \in 1,2,\cdots,n)\\ cov(u_iu_j) &=0;\quad (i \neq j) \end{align}$$` 则,随机干扰项的方差协方差矩阵进一步可以写成: `$$\begin{align} var-cov(\boldsymbol{u})=E(\boldsymbol{uu'}) \equiv \sigma^2 \begin{bmatrix} 1 & 0 &\cdots &0\\ 0 & 1 &\cdots &0\\ \vdots & \vdots &\vdots &\vdots \\ 0 & 0 &\cdots &1\\ \end{bmatrix} \equiv \sigma^2\boldsymbol{I} \end{align}$$` --- ## 异方差的概念与内涵 考虑违背了**CLRM假设**的一种情形:随机干扰项具有**异方差**(hetroscadasticity),但仍假设随机干扰项之间不相关。也即: `$$\begin{align} E(u_i^2) &=\sigma_i^2;\quad i ( \in 1,2,\cdots,n)\\ cov(u_iuj) & = 0;\quad (i \neq j) \end{align}$$` 随机干扰项的方差协方差矩阵可以表达为: `$$\begin{align} var-cov(\boldsymbol{u})&=E(\boldsymbol{uu'}) = \begin{bmatrix} \sigma_1^2 & 0 &\cdots & 0\\ 0 & \sigma_2^2 &\cdots 0\\ \vdots & \vdots &\vdots & \vdots \\ 0 & 0 &\cdots &\sigma_n^2\\ \end{bmatrix} \end{align}$$` --- ### 异方差的概念与内涵(图示1) <div class="figure" style="text-align: center"> <img src="../pic/chpt3-CLRM-homoscedasticity.png" alt="随机干扰项的方差处处相等" width="608" /> <p class="caption">随机干扰项的方差处处相等</p> </div> --- ### 异方差的概念与内涵(图示2) <div class="figure" style="text-align: center"> <img src="../pic/chpt3-CLRM-heteroscedasiticity.png" alt="随机干扰项的方差随X取值不同而不同" width="599" /> <p class="caption">随机干扰项的方差随X取值不同而不同</p> </div> --- ## 数值模拟比较1 <img src="../pic/chpt8-heteroscedasiticity-demo1.png" width="846" style="display: block; margin: auto;" /> --- ## 数值模拟比较2 <img src="../pic/chpt8-heteroscedasiticity-demo2.png" width="801" style="display: block; margin: auto;" /> --- ## 数值模拟比较3 <img src="../pic/chpt8-heteroscedasiticity-demo3.png" width="801" style="display: block; margin: auto;" /> --- ## 异方差的来源 **异方差的来源1**:**边错边改**误差学习模型(error-learning models)的普遍存在。 - 人们的行为误差随时间而减少。 <div class="figure" style="text-align: center"> <img src="../pic/chpt8-hetero-scedasiticity-source1.png" alt="打字出错与打字练习时长的关系" width="662" /> <p class="caption">打字出错与打字练习时长的关系</p> </div> --- ## 异方差的来源 **异方差的来源2**:随着收入的增长,人们在支出和储蓄中有更大的灵活性。 - 在做储蓄对收入的回归中,随机干扰项的方差 `\(\sigma^2\)`与收入俱增。 - 随着收入的增长,人们在支出和储蓄中有更大的灵活性。 **异方差的来源3**:随着数据采集技术的改进,随机干扰项的方差 `\(\sigma^2\)`可能会逐渐减小。 - 有成熟的数据处理设备的银行,在为客户提供的月度或季度报表中,相对于没有这种设备的银行,会出现更少的差错。 --- ## 异方差的来源 **异方差的来源4**:**异常值**(outliers)的出现可能导致异方差性增大。 - 异常观测是来自于与产生其余观测值的总体不同的另一个总体。 - 对于小样本数据,问题会更大。 <div class="figure" style="text-align: center"> <img src="../pic/chpt8-hetero-scedasiticity-source4.png" alt="股票价格与消费价格的关系" width="396" /> <p class="caption">股票价格与消费价格的关系</p> </div> --- ## 异方差的来源 **异方差的来源5**:回归模型的**设定偏误**。 - 比如忽略了重要的解释变量。 - 例如,做商品的需求量对价格的回归时,没有将互补品或替代品的价格包括进来,会引起异方差问题 <div class="figure" style="text-align: center"> <img src="../pic/chpt8-hetero-scedasiticity-source5.png" alt="广告印象Y与广告支出X的两种回归建模结果" width="697" /> <p class="caption">广告印象Y与广告支出X的两种回归建模结果</p> </div> --- ## 异方差的来源 **异方差的来源6**:数据分布、数据变换和模型函数形式的原因。 - 一个或多个回归元的分布偏态(skewness)。诸如收入、财富和教育等经济变量都是很好的例子。众所周知,大多数社会中收入和财富的分配都是不匀称的,处在顶端的少数几人拥有大部分的收入和财富。 - 不正确的数据变换:(如比率或一阶差分变换等〉 - 不正确的函数形式(如线性与对数线性模型的变换) --- ## 异方差的来源 **异方差的来源7**:**截面数据**中更容易出现异方差性问题。 - 请看下面重点案例——10个行业员工薪水案例 --- ### 案例:行业薪水数据(原始) <div class="figure" style="text-align: center">
<p class="caption">10个行业、不同规模企业下员工薪水数据</p> </div> 其中,**1-10行**表示不同行业。**A~I列**表示不同企业规模(员工人数):A=1-4人;B=5-9人;C=10-19人;D=20-49人;E=50-99人;F=100-249人;G=250-499人;H=500-999人;I=1000人及以上。 --- ### 案例:行业薪水数据(绘图) <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-11-1.png" style="display: block; margin: auto;" /> -- 根据以上不同企业规模下员工薪水分布图,可以发现: - 企业规模(人数)越大,员工薪水 `\(Y\)`的分布趋向于更加分散,也即薪水分布的标准差 `\(\sigma_Y\)`倾向于更大。 --- ### 案例:行业薪水数据(汇总数据1) 根据前述原始数据,我们可以分别计算出10个行业不同企业规模下(A~I)员工的平均薪水 `\(Y\)`以及不同企业规模下(A~I)员工薪水的**标准差** `\(\sigma_Y\)`。 同时,假定我们也得到了10个行业不同企业规模下员工的平均生产力 `\(X\)`数据。那么,我们就可以获得如下的**汇总数据表**: <div class="figure" style="text-align: center">
<p class="caption">10个行业、不同规模企业下员工薪水数据</p> </div> 其中,**A~I列**表示不同企业规模(员工人数):A=1-4人;B=5-9人;C=10-19人;D=20-49人;E=50-99人;F=100-249人;G=250-499人;H=500-999人;I=1000人及以上。 --- ### 案例:行业薪水数据(汇总数据2) 我们将汇总数据表进一步整理为**标准表**: <div class="figure" style="text-align: center">
<p class="caption">不同规模企业员工薪水与生产力数据</p> </div> --- ### 案例:行业薪水数据(汇总制图) 员工生产力 `\(X\)`与员工薪水 `\(Y\)`的散点图如下: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-14-1.png" style="display: block; margin: auto;" /> --- ### 案例:行业薪水数据(汇总制图) 员工生产力 `\(X\)`与员工薪水标准差 `\(\sigma_Y\)`的散点图如下: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-15-1.png" style="display: block; margin: auto;" /> > 员工薪水标准差 `\(\sigma_Y\)`不是处处相等,而呈现明显增大(随 `\(X\)`增大而增大),这有违CLRM假设。 --- layout: false class: center, middle, duke-softblue,hide_logo name:effect # 8.2 异方差性的影响和后果 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter08">第08章 放宽基本假设:异方差性 </a>                       <a href="#effect">8.2 异方差性的影响和后果</a> </span></div> --- ## OLS估计量不再是BLUE 对于双变量模型(一元回归模型): `$$\begin {align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+u_{i} \end {align}$$` `\(\beta_2\)`的OLS估计量 `\(\hat{\beta}_2\)`为: `$$\begin {align} \hat{\beta}_{2}=\frac{\sum x_{i} y_{i}}{\sum x_{i}^{2}} =\frac{n \sum X_{i} Y_{i}-\sum X_{i} \sum Y_{i}}{n \sum X_{i}^{2}-\left(\sum X_{i}\right)^{2}} \end {align}$$` .pull-left[ 可以证明,在**CLRM假设**下OLS估计量 `\(\hat{\beta}_2\)`的方差 `\(\sigma^2_{\hat{\beta}_2}\)`为: `$$\begin {align} \operatorname{var}\left(\hat{\beta}_{2}\right)=\frac{\sigma^{2}}{\sum x_{i}^{2}} \end {align}$$` ] .pull-right[ 若违背**CLRM假设**,随机干扰项 `\(u_i\)`为**异方差**(保证满足其他CLRM条件),则OLS估计量 `\(\hat{\beta}_2\)`的方差 `\(\sigma^2_{\hat{\beta}_2}\)`为: `$$\begin {align} \operatorname{var}\left(\hat{\beta}_{2}\right)=\frac{\sum x_{i}^{2} \sigma_{i}^{2}}{\left(\sum x_{i}^{2}\right)^{2}} \end {align}$$` ] --- ## OLS估计量不再是BLUE 异方差对OLS估计带来的后果: - 若其他CLRM假定不变,**同方差性**假定不成立时(也即随机干扰项 `\(u_i\)`为**异方差**),则OLS估计量通常不再是.blue[**BLUE**]。 >也有例外,G-M定理只为OLS的有效性提供了充分条件(非必要),而OLS有效性的充要条件则由kruskal定理给出 - 此时,OLS估计量仍然是线性的和无偏的(记为**LUE**,因这两条性质都与方差无关)。但是,不再是“最优的”或“有效的”。 - 那么,在出现异方差性时,什么才是BLUE呢? --- ## 出现异方差性时的态度1 **态度1**:忽视异方差性,坚持错误地使用CLRM假设下OLS方法各种公式。 在**异方差性**存在的情形下,却坚持使用OLS方法下的方差公式: `$$\begin {align} \hat{\beta}_{2} \parallel_{OLS}^{\sigma^2} =\frac{\sum x_{i} y_{i}}{\sum x_{i}^{2}} =\frac{n \sum X_{i} Y_{i}-\sum X_{i} \sum Y_{i}}{n \sum X_{i}^{2}-\left(\sum X_{i}\right)^{2}} \end {align}$$` `$$\begin {align} \operatorname{var}\left(\hat{\beta}_{2}\right) \parallel_{OLS}^{\sigma^2} =\frac{\sigma^{2}}{\sum x_{i}^{2}} \end {align}$$` - 坚持使用方差公式 `\(\operatorname{var}\left(\hat{\beta}_{2}\right) \parallel_{OLS}^{\sigma^2}\)`是有偏的,可能高估或低估真实方差 `\(\operatorname{var}\left(\hat{\beta}_{2}\right)\)`。 - 坚持使用回归误差方差公式 `\(\hat{\sigma}^{2} \parallel_{OLS}^{\sigma^2}=\frac{\sum \mathrm{e}_{i}^{2}}{n-2}\)`,并不是真值 `\(\sigma^2\)`的**无偏估计量**。 - 进一步地,置信区间、t检验和F检验也将不准确。 > 如果我们忽视异方差性而执意使用惯常的检验程序,则无论我们得出什么结论或作出什么推断,都可能产生严重的误导。 --- ## 出现异方差性时的态度2 **态度2**:承认“**异方差性**”这一事实,但仍旧使用OLS方法。 在**异方差性**存在的情形下,直接使用OLS方法,估计量及其方差公式写成: `$$\begin {align} \hat{\beta}_{2} \parallel_{OLS}^{\sigma^2_i} =\frac{\sum x_{i} y_{i}}{\sum x_{i}^{2}} =\frac{n \sum X_{i} Y_{i}-\sum X_{i} \sum Y_{i}}{n \sum X_{i}^{2}-\left(\sum X_{i}\right)^{2}} \end {align}$$` `$$\begin {align} \operatorname{var}\left(\hat{\beta}_{2}\right) \parallel_{OLS}^{\sigma^2_i} =\frac{\sum x_{i}^{2} \sigma_{i}^{2}}{\left(\sum x_{i}^{2}\right)^{2}} \end {align}$$` - 系数估计量仍是一致的 - 方差公式是有偏的,可能高估或低估其真实方差 `\(\operatorname{var}\left(\hat{\beta}_{2}\right)\)`。 --- ## 出现异方差性时的态度3 **态度3**:在**异方差性**存在的情形下,首先想办法消除异方差性,再使用OLS方法。例如**加权最小二乘法**(WLS)下,估计量及其方差公式最终为写成: `$$\begin {align} \hat{\beta}^*_{2} \parallel_{WLS}^{\sigma^2_i} &=\frac{\left(\sum w_{i}\right)\left(\sum w_{i} X_{i} Y_{i}\right)-\left(\sum w_{i} X_{i}\right)\left(\sum w_{i} Y_{i}\right)}{\left(\sum w_{i}\right)\left(\sum w_{i} X_{i}^{2}\right)-\left(\sum w_{i} X_{i}\right)^{2}} && \leftarrow \left[ w_i= \frac{1}{\sigma^2_i}\right] \end {align}$$` `$$\begin {align} \operatorname{var}\left(\hat{\beta}^*_{2}\right) \parallel_{WLS}^{\sigma^2_i} & =\frac{\sum \omega_{i}}{\left(\sum \omega_{i}\right)\left(\sum \omega_{i} X_{i}^{2}\right)-\left(\sum \omega_{i} X_{i}\right)^{2}} && \leftarrow \left[ w_i= \frac{1}{\sigma^2_i}\right] \end {align}$$` - 系数估计量是一致的 - 方差公式是无偏的,其期望将等于真实方差 `\(\operatorname{var}\left(\hat{\beta}_{2}\right)\)`。 --- ## 出现异方差性时的态度:总结 - **态度1**:“把头埋进沙堆的鸵鸟” `$$\begin {align} \operatorname{var}\left(\hat{\beta}_{2}\right) \parallel_{OLS}^{\sigma^2} =\frac{\sigma^{2}}{\sum x_{i}^{2}} \end {align}$$` - **态度2**:“将错就错地走下去” `$$\begin {align} \operatorname{var}\left(\hat{\beta}_{2}\right) \parallel_{OLS}^{\sigma^2_i} =\frac{\sum x_{i}^{2} \sigma_{i}^{2}}{\left(\sum x_{i}^{2}\right)^{2}} \end {align}$$` - **态度3**:“直面困难找出路” `$$\begin {align} \operatorname{var}\left(\hat{\beta}^*_{2}\right) \parallel_{WLS}^{\sigma^2_i} & =\frac{\sum \omega_{i}}{\left(\sum \omega_{i}\right)\left(\sum \omega_{i} X_{i}^{2}\right)-\left(\sum \omega_{i} X_{i}\right)^{2}} && \leftarrow \left[ w_i= \frac{1}{\sigma^2_i}\right] \end {align}$$` --- ## 出现异方差性时的态度:数据模拟 按照如下规则进行**蒙特卡罗模拟**设置,三种态度的差异见下表: `$$\begin {align} Y_{i} &=\beta_{1}+\beta_{2} X_{i}+u_{i} && \leftarrow \left[ \beta_{1} =1; \beta_{2}=1 ; u_{i} \sim N\left(0, X_{i}^{k}\right); n=20000 \right] \end {align}$$` <img src="../pic/chpt8-attitudes-monte.png" width="671" style="display: block; margin: auto;" /> --- ## 异方差性问题的一个小结 **总结**: - 异方差是指模型中关键变量 `\(u_i\)`或 `\(Y_i\)`行为表现“不稳定”或“不一致”。 - 异方差的表现方式多种多样,会给建模分析带来一定困扰 **思考**: - 实际数据中,异方差是否很容易就能被“识别”出来? - 识别存在异方差与判明是何种形式的异方差,那项工作更轻松? - 薪资与生产率案例中,你能看出传统回归分析报告有什么异常么? - 异方差问题是不是一定带来“十分显眼”的回归异常? --- layout: false class: center, middle, duke-softblue,hide_logo name:GLS # 8.3 广义最小二乘法 (GLS) --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter07">第08章 放宽基本假设:异方差性 </a>                       <a href="#GLS">8.3 广义最小二乘法 (GLS)</a> </span></div> --- ## 广义最小二乘法 (GLS) **广义最小二乘法**(Generalized Least Square,GLS):是对普通最小二乘法(OLS)的扩展。当**CLRM假设**不能满足时,OLS方法可能无法得到**BLUE估计量**,这时常用GLS来处理其中的问题,以得到BLUE估计量。 **加权最小二乘法**(Weighted Least Square,WLS),属于广义最小二乘法(GLS)的一种特殊情形。加权最小二乘法(WLS)是专门用来处理随机干扰项 `\(u_i\)`为异方差(违背CLRM假设,出现 `\(var(u_i)=\sigma^2_i\)`)情形的分析方法。 --- ## 广义最小二乘法 (GLS) **加权最小二乘法**通过额外的样本信息对异方差进行特定**权重**调节,从而保证随机干扰项 `\(u_i\)`为**同方差**,租后获得**BLUE估计量**。 - GLS比OLS更多地利用了样本数据所提供的信息! - GLS是更一般的方法,它包括了加权最小二乘法(WLS)、工具变量法(IV)等。 - WLS是GLS的一种特殊方法,专门用来解决异方差问题(前提是能获得**权重**信息)。 - WLS的基本思路是:对来自变异较大的总体的观测值赋予较小的权重,而对来自较小变异的总体现测值赋予较大的权重。 --- ## 广义最小二乘法 (GLS) WLS与OLS的区别: - OLS的思想实质是最小化: `$$\begin {align} \sum e_{i}^{2}=\sum\left(Y_{i}-\hat{\beta}_{1}-\hat{\beta}_{2} X_{i}\right)^{2} \end {align}$$` - WLS的思想实质是最小化: `$$\begin {align} \sum w_{i} e_{i}^{2}=\sum w_{i}\left(Y_{i}-\hat{\beta}_{1}-\hat{\beta}_{2} X_{i}\right)^{2} \end {align}$$` 其中,加权最小二乘法(WLS)需要确定**权重**向量 `\(\boldsymbol{\omega}=[w_1,w_2,\cdots, w_n]^t\)` --- ## 加权最小二乘法(WLS):原理 对于k变量总体回归模型(PRM): `$$\begin{align} Y_i&=\beta_1+\beta_2X_{2i}+\beta_3X_{3i}+\cdots+\beta_kX_{ki}+u_i && \text{(PRM)} \\ Y_i&=\hat{\beta}_1+\hat{\beta}_2X_{2i}+\hat{\beta}_3X_{3i}+\cdots+\hat{\beta}_kX_{ki}+e_i && \text{(SRM)} \\ \mathbf{y} &= \mathbf{X}\mathbf{\beta}+\mathbf{u} && \text{(PRM-matrix)} \\ \mathbf{y} &= \mathbf{X}\mathbf{\hat{\beta}}+\mathbf{e} && \text{(SRM-matrix)} \\ \end{align}$$` 加权最小二乘法(WLS)需要确定**权重**向量 `\(\boldsymbol{\omega}=[w_1,w_2,\cdots, w_n]^t\)`,并将异方差修正为同方差 `\(\boldsymbol{\frac{\sigma^2_{i}}{\omega}=\sigma I}\)`。 `$$\begin{align} var-cov(\boldsymbol{u})&=E(\boldsymbol{uu'})\\ &= \begin{bmatrix} \sigma_1^2 & \sigma_{12}^2 &\cdots &\sigma_{1n}^2\\ \sigma_{21}^2 & \sigma_2^2 &\cdots &\sigma_{2n}^2\\ \vdots & \vdots &\vdots &\vdots \\ \sigma_{n1}^2 & \sigma_{n2}^2 &\cdots &\sigma_n^2\\ \end{bmatrix} = \begin{bmatrix} \sigma_1^2 & 0 &\cdots & 0\\ 0 & \sigma_2^2 &\cdots & 0\\ \vdots & \vdots &\vdots &\vdots \\ 0 & 0 &\cdots &\sigma_n^2\\ \end{bmatrix} = \begin{bmatrix} w_1\sigma^2 & 0 &\cdots & 0\\ 0 & w_2\sigma^2 &\cdots & 0\\ \vdots & \vdots &\vdots &\vdots \\ 0 & 0 &\cdots & w_n\sigma^2\\ \end{bmatrix}\\ \end{align}$$` --- ## 加权最小二乘法(WLS):加权处理 对于双变量模型(一元回归模型): `$$\begin {align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+u_{i} \end {align}$$` `$$\begin {align} Y_{i} & =\beta_{1} X_{0 i}+\beta_{2} X_{i}+u_{i} && \leftarrow \left[ X_{0i} \equiv 1 \right] \\ \frac{Y_{i}}{\sigma_{i}} &=\beta_{1}\left(\frac{X_{0 i}}{\sigma_{i}}\right)+\beta_{2}\left(\frac{X_{i}}{\sigma_{i}}\right)+\left(\frac{u_{i}}{\sigma_{i}}\right) && \leftarrow \left[ \text{if know} \quad \sigma_i \right] \\ Y_{i}^{*} &=\beta_{1}^{*} X_{0 i}^{*}+\beta_{2}^{*} X_{i}^{*}+u_{i}^{*} && \leftarrow \left[ \text{both divided} \quad \sigma_i \right] \end {align}$$` `$$\begin {align} \operatorname{var}\left(u_{i}^{*}\right)=E\left(u_{i}^{*}\right)^{2}=E\left(\frac{u_{i}}{\sigma_{i}}\right)^{2}=\frac{1}{\sigma_{i}^{2}} E\left(u_{i}^{2}\right)=\frac{1}{\sigma_{i}^{2}}\left(\sigma_{i}^{2}\right)=1 \end {align}$$` - 使用加权最小二乘法(WLS),转换后模型的随机干扰项满足同方差性假定,再用OLS方法,就可以得到BLUE估计量。 - 使用加权最小二乘法(WLS),得到估计量称为WLS估计量(记为 `\(\boldsymbol{\hat{\beta}}_{WLS}\)`)! --- ## 加权最小二乘法(WLS):估计量 利用样本数据,可以进行如下的WLS估计过程: `$$\begin {align} Y_{i} & =\hat{\beta}_{1} X_{0 i}+\hat{\beta}_{2} X_{i}+e_{i} && \leftarrow \left[ X_{0i} \equiv 1 \right] \\ \frac{Y_{i}}{\sigma_{i}} &=\hat{\beta}_{1}\left(\frac{X_{0 i}}{\sigma_{i}}\right)+\hat{\beta}_{2}\left(\frac{X_{i}}{\sigma_{i}}\right)+\left(\frac{u_{i}}{\sigma_{i}}\right) && \leftarrow \left[ \text{if know} \quad \sigma_i \right] \\ Y_{i}^{*} &=\hat{\beta}_{1}^{*} X_{0 i}^{*}+\hat{\beta}_{2}^{*} X_{i}^{*}+e_{i}^{*} && \leftarrow \left[ \text{both divided} \quad \sigma_i \right] \end {align}$$` `$$\begin {align} \sum e_{i}^{*^{2}} & =\sum\left(Y_{i}^{*}-\hat{\beta}_{1} X_{0 i}^{*}-\hat{\beta}_{2} X_{i}^{*}\right)^{2} \\ \sum\left(\frac{e_{i}}{\sigma_{i}}\right)^{2} & =\sum\left[\left(\frac{Y_{i}}{\sigma_{i}}\right)-\hat{\beta}_{1}\left(\frac{X_{0 i}}{\sigma_{i}}\right)-\hat{\beta}_{2}\left(\frac{X_{i}}{\sigma_{i}}\right)\right]^{2} \end {align}$$` --- ## 加权最小二乘法(WLS):估计量 最小化并求偏导,得到斜率系数 `\(\hat{\beta}_2^*\)`的GLS估计量和方差: `$$\begin {align} \hat{\beta}^*_{2} &=\frac{\left(\sum w_{i}\right)\left(\sum w_{i} X_{i} Y_{i}\right)-\left(\sum w_{i} X_{i}\right)\left(\sum w_{i} Y_{i}\right)}{\left(\sum w_{i}\right)\left(\sum w_{i} X_{i}^{2}\right)-\left(\sum w_{i} X_{i}\right)^{2}} && \leftarrow \left[ w_i= \frac{1}{\sigma^2_i}\right] \end {align}$$` `$$\begin {align} \operatorname{var}\left(\hat{\beta}^*_{2}\right) & =\frac{\sum \omega_{i}}{\left(\sum \omega_{i}\right)\left(\sum \omega_{i} X_{i}^{2}\right)-\left(\sum \omega_{i} X_{i}\right)^{2}} && \leftarrow \left[ w_i= \frac{1}{\sigma^2_i}\right] \end {align}$$` --- layout: false class: center, middle, duke-softblue,hide_logo name: diagnose # 8.4 异方差性问题的诊断 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter08">第08章 放宽基本假设:异方差性 </a>                       <a href="#diagnose">8.4 异方差性问题的诊断</a> </span></div> --- ## 数据类型诊断法 根据数据性质做判断(截面数据经常有) - 在涉及不均匀、异质性(heterogeneous)单元(国家、省份、企业、家庭)的横截面数据中,异方差性可能是一种常规,而不是例外! - 例如,投资(Y)与销售量(X2)、利率(X3)等变量之间关系的横截面分析中,如果样本同时包含小、中和大型厂家,一般都预期有异方差性。 --- ## 图示法 **图示法**重点关注模型**残差平方**序列( `\(e_i^2\)`)是否存在某种系统化模式。 - 图形1:残差平方序列 `\(e_i^2\)`**描点图**(dot plot)。 - 图形2:残差平方序列 `\(e_i^2\)`与因变量序列 `\(Y_i\)`的**散点图**(scatter plot)。 - 图形3:残差平方序列 `\(e_i^2\)`与自变量序列 `\(X_{pi},(p \in2,3,\cdots,k)\)`的**散点图**(scatter plot)。 - 图形4:残差平方序列 `\(e_i^2\)`与自变量序列平方项 `\(X^2_{pi},(p \in2,3,\cdots,k)\)`的**散点图**(scatter plot)。 --- ### 图示法:模拟演示 残差平方序列 `\(e_i^2\)`与因变量拟合序列 `\(\hat{Y}_i\)`的**散点图**的若干假想分布模式: <img src="../pic/chpt8-diagnose-ei.png" width="652" style="display: block; margin: auto;" /> --- ### 图示法:案例演示(主回归) 首先构建如下**主回归模型**: `$$\begin{equation} \begin{alignedat}{999} &Y=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} X&&+e_i\\ \end{alignedat} \end{equation}$$` 主回归模型回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Y}=&&+1990.67&&+0.23X\\ &\text{(t)}&&(2.1262)&&(2.3358)\\&\text{(se)}&&(936.2559)&&(0.0998)\\&\text{(fitness)}&& R^2=0.4380;&& \bar{R^2}=0.3577\\& && F^{\ast}=5.46;&& p=0.0522 \end{alignedat} \end{equation}$$` --- ### 图示法:案例演示(主回归EViews报告) 作为对照,下面给出的是主模型的EViews报告: <img src="../pic/chpt8-salary-main.png" width="672" style="display: block; margin: auto;" /> --- ### 图示法:案例演示(残差数据) 得到主回归模型的残差序列 `\(e_i\)`、残差平方和序列 `\(e_i^2\)`(及其他变换数据):
> **提示**:后面BPJ检验中需要用到的数据 `\(P_{i}=\frac{{e_i^2}} {\tilde{\sigma}^2};\quad \tilde{\sigma}^2=\frac{\sum{e_i^2}} {n}\)` --- ### 图示法:案例演示(残差分布模式1) **对数化**残差平方序列 `\(log(e_i^2)\)`的**描点图**(dot plot)为: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-23-1.png" style="display: block; margin: auto;" /> --- ### 图示法:案例演示(残差分布模式2) **对数化**残差平方序列 `\(log(e_i^2)\)`与 `\(Y_i\)`的**散点图**(scatter plot)为: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-24-1.png" style="display: block; margin: auto;" /> --- ### 图示法:案例演示(残差分布模式3) **对数化**残差平方序列 `\(log(e_i^2)\)`与 `\(X_i\)`的**散点图**(scatter plot)为: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-25-1.png" style="display: block; margin: auto;" /> --- ### 图示法:案例演示(残差分布模式4) **对数化**残差平方序列 `\(log(e_i^2)\)`与 `\(X_i^2\)`的**散点图**(scatter plot)为: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-26-1.png" style="display: block; margin: auto;" /> --- ## 帕克检验(Park heteroscedastic test) **原理**:若 `\(\sigma^2_i\)`随着 `\(X_i\)`而变化( `\(H_0:\)`同方差模式),则可以将其表达为: `$$\begin {align} \sigma_{i}^{2} &=\sigma^{2} X_{i}^{\beta} e^{v_{i}} \\ \ln \sigma_{i}^{2} &=\ln \sigma^{2}+\beta \ln X_{i}+v_{i} \\ \ln e_{i}^{2} &=\ln \sigma^{2}+\beta \ln X_{i}+v_{i} && \leftarrow \left[ e_i^2 \simeq \sigma^2_i \right]\\ &=\alpha+\beta \ln X_{i}+v_{i} && \leftarrow \left[ \alpha \equiv ln(\sigma^2) \right] \end {align}$$` --- ## 帕克检验(Park heteroscedastic test) **步骤**: - 先做主回归(不考虑异方差问题,直接OLS估计) - 再利用主回归模型的残差序列,做如下的**帕克辅助回归**: `$$\begin{equation} ln(e^2_i)=\hat{\alpha}_1+\hat{\alpha}_2ln(X_{2i})+\cdots+\hat{\alpha}_kln(X_{ki})+v_i \end{equation}$$` **诊断标准**: - 如果**帕克检验辅助方程**的F检验**不显著**(对应的概率值P>0.1),则表明主模型是同方差。 - 如果**帕克检验辅助方程**的F检验**显著**(对应的概率值P<0.1),则表明主模型是异方差。 --- ### 帕克检验(案例检验) 薪水案例中,为验证**主模型**是否存在异方差问题。我们可以构建如下的**帕克检验辅助方程** `$$\begin{equation} \begin{alignedat}{999} &log(ei^2)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} log(X)&&+e_i\\ \end{alignedat} \end{equation}$$` **帕克检验辅助方程**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(ei^2)}=&&+35.82&&-2.80log(X)\\ &\text{(t)}&&(0.9334)&&(-0.6667)\\&\text{(se)}&&(38.3770)&&(4.2021)\\&\text{(fitness)}&& R^2=0.0597;&& \bar{R^2}=-0.0746\\& && F^{\ast}=0.44;&& p=0.5263 \end{alignedat} \end{equation}$$` 从而可以得到**帕克检验**初步结论:F检验不显著,不能拒绝原假设 `\(H_0\)`,认为**主模型**为**同方差**。 --- ### 帕克检验(案例检验EViews报告) 薪水案例中,**帕克检验**的EViews报告如下(注意:EViews软件中没有帕克检验菜单,但可以通过哈维(Harvey)检验方法来实现): <img src="../pic/chpt8-diagnose-park.png" width="468" style="display: block; margin: auto;" /> --- ## 格莱泽检验(Glejser heteroscedastic test) **原理**:若随机干扰项 `\(|u_i|\)`随着 `\(X_i\)`而变化( `\(H_0:\)`同方差模式),则将可能的异方差模式表达为: `$$\begin {align} \left|u_{i}\right| &=\beta_{1}+\beta_{2} X_{i}+v_{i} && \text{(G1)}\\ \left|u_{i}\right| &=\beta_{1}+\beta_{2} \sqrt{X}_{i}+v_{i} && \text{(G2)}\\ \left|u_{i}\right| &=\beta_{1}+\beta_{2} \frac{1}{X_{i}}+v_{i} && \text{(G3)}\\ \left|u_{i}\right| &=\beta_{1}+\beta_{2} \frac{1}{\sqrt{X}_{i}}+v_{i} && \text{(G4)}\\ \left|u_{i}\right| &=\sqrt{\beta_{1}+\beta_{2} X_{i}}+v_{i} && \text{(G5)}\\ \left|u_{1}\right| &=\sqrt{\beta_{1}+\beta_{2} X_{i}^{2}}+v_{i} && \text{(G6)} \end {align}$$` --- ## 格莱泽检验(Glejser heteroscedastic test) **步骤**: - 先做主回归(不考虑异方差问题,直接OLS估计) - 再利用主回归模型的残差序列,做如下的**格莱泽辅助回归**: .pull-left[ `$$\begin {align} \left|e_{i}\right| &=\beta_{1}+\beta_{2} X_{i}+v_{i} && \text{(G1)}\\ \left|e_{i}\right| &=\beta_{1}+\beta_{2} \sqrt{X}_{i}+v_{i} && \text{(G2)}\\ \left|e_{i}\right| &=\beta_{1}+\beta_{2} \frac{1}{X_{i}}+v_{i} && \text{(G3)} \end {align}$$` ] .pull-right[ `$$\begin {align} \left|u_{i}\right| &=\beta_{1}+\beta_{2} \frac{1}{\sqrt{X}_{i}}+v_{i} && \text{(G4)}\\ \left|e_{i}\right| &=\sqrt{\beta_{1}+\beta_{2} X_{i}}+v_{i} && \text{(G5)}\\ \left|e_{1}\right| &=\sqrt{\beta_{1}+\beta_{2} X_{i}^{2}}+v_{i} && \text{(G6)} \end {align}$$` ] **诊断标准**: - 如果**格莱泽检验辅助方程**的F检验**不显著**(对应的概率值P>0.1),则表明主模型是同方差。 - 如果**格莱泽检验辅助方程**的F检验**显著**(对应的概率值P<0.1),则表明主模型是异方差。 --- ### 格莱泽检验(案例检验1) 薪水案例中,为验证**主模型**是否存在异方差问题。我们可以构建如下的**格莱泽检验辅助方程1** `$$\begin{equation} \begin{alignedat}{999} &abs(ei)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} X&&+e_i\\ \end{alignedat} \end{equation}$$` **格莱泽检验辅助方程1**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{abs(ei)}=&&+407.26&&-0.02X\\ &\text{(t)}&&(0.6434)&&(-0.3014)\\&\text{(se)}&&(632.9891)&&(0.0675)\\&\text{(fitness)}&& R^2=0.0128;&& \bar{R^2}=-0.1282\\& && F^{\ast}=0.09;&& p=0.7719 \end{alignedat} \end{equation}$$` 从而可以得到**格莱泽检验**初步结论:F检验不显著,不能拒绝原假设 `\(H_0\)`,认为**主模型**为**同方差**。 .footnote[ **提示**:.red[`abs(ei)`]表示残差的绝对值(absolute),也即 `\(|e_i|\)`。] --- ### 格莱泽检验(案例检验1EViews报告) 薪水案例中,**格莱泽检验**(辅助方程1)的EViews报告如下: <img src="../pic/chpt8-diagnose-Glejser-g1.png" width="530" style="display: block; margin: auto;" /> --- ### 格莱泽检验(案例检验2) 薪水案例中,为验证**主模型**是否存在异方差问题。我们可以构建如下的**格莱泽检验辅助方程2** `$$\begin{equation} \begin{alignedat}{999} &abs(ei)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} sqrt(X)&&+e_i\\ \end{alignedat} \end{equation}$$` **格莱泽克检验辅助方程2**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{abs(ei)}=&&+575.14&&-3.71sqrt(X)\\ &\text{(t)}&&(0.4480)&&(-0.2788)\\&\text{(se)}&&(1283.8425)&&(13.3042)\\&\text{(fitness)}&& R^2=0.0110;&& \bar{R^2}=-0.1303\\& && F^{\ast}=0.08;&& p=0.7885 \end{alignedat} \end{equation}$$` 从而可以得到**格莱泽检验**初步结论:F检验不显著,不能拒绝原假设 `\(H_0\)`,认为**主模型**为**同方差**。 .footnote[ **提示**: .red[`abs(ei)`]表示残差的绝对值(absolute),也即 `\(|e_i|\)`。.red[`sqrt(X)`]表示自变量开根号(square root),也即 `\(\sqrt{X_i}\)` ] --- ### 格莱泽检验(案例检验2EViews报告) 薪水案例中,**格莱泽检验**(辅助方程2)的EViews报告如下: <img src="../pic/chpt8-diagnose-Glejser-g2.png" width="530" style="display: block; margin: auto;" /> --- ### 格莱泽检验(案例检验3) 薪水案例中,为验证**主模型**是否存在异方差问题。 .pull-left[ 我们可以构建如下的**格莱泽检验辅助方程3** `$$\begin{equation} \begin{alignedat}{999} &abs(ei)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} I(1/X)&&+e_i\\ \end{alignedat} \end{equation}$$` ] .pull-right[ **格莱泽克检验辅助方程3**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{abs(ei)}=&&+76.61&&+1297807.20I(1/X)\\ &\text{(t)}&&(0.1121)&&(0.2081)\\&\text{(se)}&&(683.2112)&&(6237225.2050)\\&\text{(fitness)}&& R^2=0.0061;&& \bar{R^2}=-0.1358\\& && F^{\ast}=0.04;&& p=0.8411 \end{alignedat} \end{equation}$$` ] 从而可以得到**格莱泽检验**初步结论:F检验不显著,不能拒绝原假设 `\(H_0\)`,认为**主模型**为**同方差**。 .footnote[ **提示**: .red[`abs(ei)`]表示残差的绝对值(absolute),也即 `\(|e_i|\)`。.red[`I(1/X)`]表示自变量的倒数(reciprocal),也即 `\(\frac{1}{X_i}\)` ] --- ### 格莱泽检验(案例检验3EViews报告) 薪水案例中,**格莱泽检验**(辅助方程3)的EViews报告如下: <img src="../pic/chpt8-diagnose-Glejser-g3.png" width="530" style="display: block; margin: auto;" /> --- ### 格莱泽检验(案例检验4) 薪水案例中,为验证**主模型**是否存在异方差问题。我们可以构建如下的**格莱泽检验辅助方程4** `$$\begin{equation} \begin{alignedat}{999} &abs(ei)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} I(1/sqrt(X))&&+e_i\\ \end{alignedat} \end{equation}$$` **格莱泽克检验辅助方程4**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{abs(ei)}=&&-91.15&&+29668.14I(1/sqrt(X))\\ &\text{(t)}&&(-0.0683)&&(0.2320)\\&\text{(se)}&&(1334.3962)&&(127897.8910)\\&\text{(fitness)}&& R^2=0.0076;&& \bar{R^2}=-0.1341\\& && F^{\ast}=0.05;&& p=0.8232 \end{alignedat} \end{equation}$$` 从而可以得到**格莱泽检验**初步结论:F检验不显著,不能拒绝原假设 `\(H_0\)`,认为**主模型**为**同方差**。 .footnote[ **提示**: .red[`abs(ei)`]表示残差的绝对值(absolute),也即 `\(|e_i|\)`。.red[`I(1/sqrt(X))`]表示自变量开根号的倒数,也即 `\(\frac{1}{\sqrt{X_i}}\)` ] --- ### 格莱泽检验(案例检验4EViews报告) 薪水案例中,**格莱泽检验**(辅助方程4)的EViews报告如下: <img src="../pic/chpt8-diagnose-Glejser-g4.png" width="530" style="display: block; margin: auto;" /> --- ### 格莱泽检验(案例检验6) 薪水案例中,为验证**主模型**是否存在异方差问题。我们可以构建如下的**格莱泽检验辅助方程6** `$$\begin{equation} \begin{alignedat}{999} &abs(ei)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} I(X^2)&&+e_i\\ \end{alignedat} \end{equation}$$` **格莱泽克检验辅助方程6**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{abs(ei)}=&&+321.92&&-0.00I(X^2)\\ &\text{(t)}&&(1.0331)&&(-0.3442)\\&\text{(se)}&&(311.6146)&&(0.0000)\\&\text{(fitness)}&& R^2=0.0166;&& \bar{R^2}=-0.1238\\& && F^{\ast}=0.12;&& p=0.7408 \end{alignedat} \end{equation}$$` 从而可以得到**格莱泽检验**初步结论:F检验不显著,不能拒绝原假设 `\(H_0\)`,认为**主模型**为**同方差**。 .footnote[ **提示**: .red[`abs(ei)`]表示残差的绝对值(absolute),也即 `\(|e_i|\)`。.red[`I(X^2)`]表示自变量的平方,也即 `\(X_i^2\)` ] --- ### 格莱泽检验(案例检验6EViews报告) 薪水案例中,**格莱泽检验**(辅助方程6)的EViews报告如下: <img src="../pic/chpt8-diagnose-Glejser-g6.png" width="530" style="display: block; margin: auto;" /> --- ## BPG检验(Breusch-Pagan-Goldfrey heteroscedastic test) **BPG检验**有时候又被称为**BP检验**(Breusch–Pagan test),或者**BP LM检验**(Breusch–Pagan Lagrange Multiplier test)。 **原理**:若 `\(\sigma^2_i\)`随着某些**非随机变量** `\(Z_{mi}\)`而变化( `\(H_0:\)`同方差模式),则可以将其表达为: `$$\begin {align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+u_{i} \\ \sigma_{i}^{2} &=f\left(\alpha_{1}+\alpha_{2} Z_{2 i}+\alpha_{3} Z_{3 i}+\cdots+\alpha_{m} Z_{m i}\right) \\ &=\alpha_{1}+\alpha_{2} Z_{2 i}+\alpha_{3} Z_{3 i}+\cdots+\alpha_{m} Z_{m i} \end {align}$$` 其中,部分或全部的自变量 `\(X_{pi},p \in (2,3,\cdots,k)\)`可以作为 `\(Z_{mi}\)`。 --- ## BPG检验(Breusch-Pagan-Goldfrey heteroscedastic test) **步骤**: - 先做主回归(不考虑异方差问题,直接OLS估计) - 再利用主回归模型的残差序列,做如下的**BPG辅助回归**: `$$\begin {align} P_{i} &=\alpha_{1}+\alpha_{2} Z_{2 i}+\alpha_{3} Z_{3 i}+\cdots+\alpha_{m} Z_{m i} && \leftarrow \left[ P_{i}=\frac{{e_i^2}} {\tilde{\sigma}^2};\quad \tilde{\sigma}^2=\frac{\sum{e_i^2}} {n} \right] \end {align}$$` - 计算**BPG辅助回归**方程的ESS(回归平方和),并得到如下**LM统计量**(卡方统计量): `$$\begin {align} LM \equiv {\chi^2}^{\ast}=\frac{ESS}{2} \sim \chi^{2}(m-1) \end {align}$$` --- ## BPG检验(Breusch-Pagan-Goldfrey heteroscedastic test) **诊断标准**: - 如果**BPG辅助回归方程**的卡方检验**不显著**,也即 `\(LM \equiv {\chi^2}^{\ast}< \chi^2_{1-\alpha}(m-1)\)`(对应的概率值P>0.1),则表明主模型是同方差。 - 如果**BPG辅助回归方程**的卡方检验**显著**,也即 `\(LM \equiv {\chi^2}^{\ast} > \chi^2_{1-\alpha}(m-1)\)`(对应的概率值P<0.1),则表明主模型是异方差。 --- ### BPG检验(案例检验) 薪水案例中,为验证**主模型**是否存在异方差问题。我们可以构建如下的**BPG检验辅助方程** `$$\begin{equation} \begin{alignedat}{999} &Pi=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} X&&+e_i\\ \end{alignedat} \end{equation}$$` **BPG检验辅助方程**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Pi}=&&+1.50&&-0.00X\\ &\text{(t)}&&(0.2314)&&(-0.0774)\\&\text{(se)}&&(6.4714)&&(0.0007)\\&\text{(fitness)}&& R^2=0.0009;&& \bar{R^2}=-0.1419\\& && F^{\ast}=0.01;&& p=0.9404 \end{alignedat} \end{equation}$$` **BPG检验辅助方程**的回归平方和为 `\(ESS=\)` -5.3979;**LM统计量**(绝对值)为 `\(LM \equiv {\chi^2}^{\ast}=ESS/2=\)` 2.6990。给定显著性水平 `\(\alpha=0.05\)`时卡方分布的理论查表值为 `\(\chi^2_{1-\alpha}(m-1)=\chi^2_{0.95}(1)=\)` 3.841459。从而可以得到**BPG检验**初步结论:卡方检验不显著,不能拒绝原假设 `\(H_0\)`,认为**主模型**为**同方差**。 >**提示**: `\(P_{i}=\frac{{e_i^2}} {\tilde{\sigma}^2};\quad \tilde{\sigma}^2=\frac{\sum{e_i^2}} {n}\)` --- ### BPG检验(案例检验EViews报告) 薪水案例中,**BPG检验**的EViews报告如下(**注意**:EViews采用了BPG不同分析方法,EViews结果(本页)与手动计算结果(上一页)): <img src="../pic/chpt8-diagnose-BPG.png" width="468" style="display: block; margin: auto;" /> --- ## GQ检验(Goldfeld–Quandt heteroscedastic test) **原理**:若 `\(\sigma^2_i\)`随着某一个自变量的平方项 `\((X_i^2\)`而变化( `\(H_0:\)`同方差模式),则可以将其表达为: `$$\begin {align} Y_{i} &=\beta_{1}+\beta_{2} X_2+u_{i} \\ \sigma^2_i &=\sigma^2 X_i^2 \end {align}$$` --- ## GQ检验(Goldfeld–Quandt heteroscedastic test) **步骤**: - 把数据按 `\(X_i\)`由小到大排序,从小到大;去掉中间大约c个数(预先确定的) - 把数据分成两份样本:前一半样本数 `\((n-c)/2\)`,后一半样本数 `\((n-c)/2\)` - 对两份**分段样本**数据,做如下的**GQ辅助回归**,并分别进行OLS回归 `$$\begin {align} \overleftarrow{Y_{i}} &=\overleftarrow{\alpha_{1}}+\overleftarrow{\alpha_{2}} \overleftarrow{X}_i+\overleftarrow{e_{i}} \\ \overrightarrow{Y_{i}} &=\overrightarrow{\alpha_{1}}+\overrightarrow{\alpha_{2}} \overrightarrow{X}_i+\overrightarrow{e_{i}} \end {align}$$` - 分别得到两个辅助回归方程的残差平方和: `\(RSS_1\)`和 `\(RSS_2\)`,其分别对应的自由度为 `\(df_1=df_2=(n-c-2k)/2\)`。 - 计算得到如下F统计量: `$$\begin {align} F^{*}=\frac{\mathrm{RSS}_{1} / df_1}{\mathrm{RSS}_{2} / df_2} \sim F((n-c-2k)/2,(n-c-2k)/2) \end {align}$$` --- ## GQ检验(Goldfeld–Quandt heteroscedastic test) **诊断标准**: - 如果**GQ辅助回归方程**的F检验**不显著**,也即 `\(F^{*} < F_{1-\alpha}((n-c-2k)/2,(n-c-2k)/2)\)`(对应的概率值P>0.1),则表明主模型是同方差。 - 如果**GQ辅助回归方程**的F检验**显著**,也即 `\(F^{*} > F_{1-\alpha}((n-c-2k)/2,(n-c-2k)/2)\)`(对应的概率值P<0.1),则表明主模型是异方差。 --- ## 怀特检验(White heteroscedastic test) **步骤**: - 先做主回归(不考虑异方差问题,直接OLS估计) - 再利用主回归模型的残差序列,做如下的**怀特辅助回归**: `$$\begin {align} e_i^2 &=\alpha_{1}+\alpha_{2} X_{2 i}+\alpha_{3} X_{3 i}+\alpha_{4} X_{2 i}^{2}+\alpha_{5} X_{3 i}^{2}+\alpha_{6} X_{2 i} X_{3 i}+v_{i} \end {align}$$` - 计算**怀特辅助回归**方程的判定系数 `\(R^2\)`,并得到如下卡方统计量( `\(\tilde{k}\)`为辅助方程中回归系数个数): `$$\begin {align} \chi^{*}=n \cdot R^2 \sim \chi^{2}(\tilde{k}-1) \end {align}$$` --- ## 怀特检验(White heteroscedastic test) **诊断标准**: - 如果**怀特辅助回归方程**的卡方检验**不显著**,也即 `\(\chi^{*} < \chi^2_{1-\alpha}(m-1)\)`(对应的概率值P>0.1),则表明主模型是同方差。 - 如果**怀特辅助回归方程**的卡方检验**显著**,也即 `\(\chi^{*} > \chi^2_{1-\alpha}(m-1)\)`(对应的概率值P<0.1),则表明主模型存在异方差问题。 --- ### 怀特检验(案例检验) 薪水案例中,为验证**主模型**是否存在异方差问题。我们可以构建如下的**怀特检验辅助方程** `$$\begin{equation} \begin{alignedat}{999} &I(ei^2)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} X&& + \hat{\beta}_{3} I(X^2)&&+e_i\\ \end{alignedat} \end{equation}$$` **怀特检验辅助方程**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{I(ei^2)}=&&-3793851.07&&+810.57X&&-0.04I(X^2)\\ &\text{(t)}&&(-0.7835)&&(0.8105)&&(-0.8169)\\&\text{(se)}&&(4842167.3561)&&(1000.0435)&&(0.0510)\\&\text{(fitness)}&& R^2=0.1008;&& \bar{R^2}=-0.1989\\& && F^{\ast}=0.34;&& p=0.7269 \end{alignedat} \end{equation}$$` --- ### 怀特检验(案例检验) **怀特检验辅助方程**的判定系数为 `\(R^2=\)` 0.1008;样本卡方统计量(绝对值)为 `\({\chi^2}^{\ast}=nR^2=\)` 0.9076。给定显著性水平 `\(\alpha=0.05\)`时卡方分布的理论查表值为 `\(\chi^2_{1-\alpha}(m-1)=\chi^2_{0.95}(1)=\)` 5.991465。从而可以得到**怀特检验**初步结论:卡方检验不显著,不能拒绝原假设 `\(H_0\)`,认为**主模型**为**同方差**。 >**提示**: .red[`I(ei^2)`]表示残差的平方,也即 `\(e_i^2\)`。.red[`I(X^2)`]表示自变量平方,也即 `\(X_i^2\)` --- ### 怀特检验(案例检验EViews报告) 薪水案例中,**怀特检验**的EViews报告如下: <img src="../pic/chpt8-diagnose-white.png" width="530" style="display: block; margin: auto;" /> --- layout: false class: center, middle, duke-softblue,hide_logo name: adjust # 8.5 异方差性问题的矫正 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter08">第08章 放宽基本假设:异方差性 </a>                       <a href="#adjust">8.5 异方差性问题的矫正</a> </span></div> --- ## WLS矫正1(方差初步已知) **矫正情形1**:方差 `\(\sigma^2_i\)`已知且等于样本方差 `\(S^2_{Y_i}\)` 如果主模型存在异方差问题,且假设方差正比于样本方差 `\(S^2_{Y_i}\)`,则有: `$$\begin{equation} var(u_i)=E(u^2_i)=\sigma^2_i=\sigma^2S^2_{Y_i} \end{equation}$$` 此时,加权最小二乘法(WLS)矫正可以采用权重 `\(w_i=\frac{1}{S_i}\)` 也即可以对主模型的变量进行如下加权变换: `\(Y^{\ast}=w_iY_i=\frac{Y_i}{S_i}\)`; `\(X^{\ast}=w_iX_i=\frac{X_i}{S_i}\)`; `\(v_i=w_iu_i=\frac{u_i}{S_i}\)`。 --- ## WLS矫正1(方差初步已知) 进而得到WLS变换后的新模型: `$$\begin{align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+u_{i} \\ \frac{Y_i}{S_i} &=\frac{\beta_1}{S_i}+\beta_2\frac{X_{2i}}{S_i}+ \cdots +\beta_k\frac{X_{ki}}{S_i}+\frac{u_{i}}{S_i}\\ Y^{\ast}_i &=\beta^{\ast}_1+\beta^{\ast}_2X^{\ast}_{2i}+ \cdots +\beta^{\ast}_kX^{\ast}_{ki}+v_{i} \end{align}$$` 容易证明新模型将消除异方差性: `$$\begin {align} E\left(v_{i}^{2}\right)=E\left(\frac{u_{i}}{S_{Y_i}}\right)^{2}=\frac{1}{S_{Y_i}^{2}} E\left(u_{i}^{2}\right)=\sigma^{2} \end {align}$$` --- ## WLS矫正2(方差正比于自变量平方项) **矫正情形2**:方差 `\(\sigma^2_i\)`正比于 `\(X^2_i\)` 如果主模型存在异方差问题,且假设方差正比于 `\(X^2_{2i}\)`,则有: `$$\begin{equation} var(u_i)=E(u^2_i)=\sigma^2_i=\sigma^2X^2_{2i} \end{equation}$$` <img src="../pic/chpt8-hetero-scedasiticity-type-x-sqr.png" width="381" style="display: block; margin: auto;" /> --- ## WLS矫正2(方差正比于自变量平方项) 此时,加权最小二乘法(WLS)矫正可以采用权重 `\(w_i=\frac{1}{X_{2i}}\)` 也即可以对主模型的变量进行如下加权变换: `\(Y^{\ast}=w_iY_i=\frac{Y_i}{X_{2i}}\)`; `\(X^{\ast}=w_iX_i=\frac{X_i}{X_{2i}}\)`; `\(v_i=w_iu_i=\frac{u_i}{X_{2i}}\)`。 进而得到WLS变换后的新模型: `$$\begin{align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+u_{i} \\ \frac{Y_i}{X_{2i}} &=\frac{{\beta}_1}{X_{2i}}+\beta_2+\beta_3\frac{X_{3i}}{X_{2i}}+{\beta}_4\frac{X_{4i}}{X_{2i}}+{\beta}_5\frac{X_{5i}}{X_{2i}}+\frac{u_{i}}{X_{2i}} \\ Y^{\ast}_i &=\beta^{\ast}_2X^{\ast}_{2i}+\beta^{\ast}_1+ \beta^{\ast}_3X^{\ast}_{3i}\cdots +\beta^{\ast}_kX^{\ast}_{ki}+v_{i} \end{align}$$` 容易证明新模型将消除异方差性: `$$\begin {align} E\left(v_{i}^{2}\right)=E\left(\frac{u_{i}}{X_{2i}}\right)^{2}=\frac{1}{X_{2i}^{2}} E\left(u_{i}^{2}\right)=\sigma^{2} \end {align}$$` --- ## WLS矫正3(方差正比于自变量) **矫正情形3**:方差 `\(\sigma^2_i\)`正比于 `\(X_i\)` 如果主模型存在异方差问题,且假设方差正比于 `\(X_{2i}\)`,则有: `$$\begin{equation} var(u_i)=E(u^2_i)=\sigma^2_i=\sigma^2X_{2i} \end{equation}$$` <img src="../pic/chpt8-hetero-scedasiticity-type-x.png" width="406" style="display: block; margin: auto;" /> --- ## WLS矫正3(方差正比于自变量) 此时,加权最小二乘法(WLS)矫正可以采用权重 `\(w_i=\frac{1}{\sqrt{X_{2i}}}\)` 也即可以对主模型的变量进行如下加权变换: `\(Y^{\ast}=w_iY_i=\frac{Y_i}{\sqrt{X_{2i}}}\)`; `\(X^{\ast}=w_iX_i=\frac{X_i}{\sqrt{X_{2i}}}\)`; `\(v_i=w_iu_i=\frac{u_i}{\sqrt{X_{2i}}}\)`。 进而得到WLS变换后的新模型: `$$\begin{align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+u_{i} \\ \frac{Y_i}{\sqrt{X_{2i}}} &=\frac{{\beta}_1}{\sqrt{X_{2i}}}+{\beta}_2\sqrt{X_{2i}}+{\beta}_3\frac{X_{3i}}{\sqrt{X_{2i}}}+\cdots+{\beta}_5\frac{X_{5i}}{\sqrt{X_{2i}}}+\frac{u_{i}}{\sqrt{X_{2i}}}\\ Y^{\ast}_i &=\beta^{\ast}_1+\beta^{\ast}_2X^{\ast}_{2i}+ \cdots +\beta^{\ast}_kX^{\ast}_{ki}+v_{i} \end{align}$$` 容易证明新模型将消除异方差性: `$$\begin {align} E\left(v_{i}^{2}\right)=E\left(\frac{u_{i}}{\sqrt{X_{2i}}}\right)^{2}=\frac{1}{X_{2i}} E\left(u_{i}^{2}\right)=\sigma^{2} \end {align}$$` --- ## WLS矫正4(方差正比于因变量平方项) **矫正情形4**:方差 `\(\sigma^2_i\)`正比于 `\(\hat{Y_i}^2\)` 如果主模型存在异方差问题,且假设方差正比于 `\(\hat{Y_i}^2\)`,也即: `$$\begin{equation} var(u_i)=E(u^2_i)=\sigma^2_i=\sigma^2\hat{Y_i}^2 \end{equation}$$` 此时,加权最小二乘法(WLS)矫正可以采用权重 `\(w_i=\frac{1}{\hat{Y_i}}\)` 也即可以对主模型的变量进行如下加权变换: `\(Y^{\ast}=w_iY_i=\frac{Y_i}{\hat{Y_i}}\)`; `\(X^{\ast}=w_iX_i=\frac{X_i}{\hat{Y_i}}\)`; `\(v_i=w_iu_i=\frac{u_i}{\hat{Y_i}}\)`。 --- ## WLS矫正4(方差正比于因变量平方项) 从而得到WLS变换后的新模型: `$$\begin{align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+u_{i} \\ \frac{Y_i}{\hat{Y_i}} &=\frac{{\beta}_1}{\hat{Y_i}}+{\beta}_2\frac{X_{2i}}{\hat{Y_i}}+\cdots+{\beta}_k\frac{X_{ki}}{\hat{Y_i}}+\frac{u_{i}}{\hat{Y_i}} \\ Y^{\ast}_i &=\beta^{\ast}_1+\beta^{\ast}_2X^{\ast}_{2i}+ \cdots +\beta^{\ast}_kX^{\ast}_{ki}+v_{i} \end{align}$$` 容易证明新模型将消除异方差性: `$$\begin {align} E\left(v_{i}^{2}\right)=E\left(\frac{u_{i}}{\hat{Y_i}}\right)^{2}=\frac{1}{\hat{Y_i}^{2}} E\left(u_{i}^{2}\right)=\sigma^{2} \end {align}$$` --- ## WLS矫正5(方差是某种组合形式) **矫正情形5**:方差是某种组合形式 如果主模型存在异方差问题,且假设方差是某种组合形式,也即: `$$\begin{equation} var(u_i|X_{2i},X_{3i}\cdots)=E(u^2_i)=\sigma^2_i=\sigma^2 \cdot {f}(X_{2i},X_{3i}\cdots) \end{equation}$$` 此时,加权最小二乘法(WLS)矫正可以采用权重 `\(w_i=\frac{1}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}}\)`。 也即可以对主模型的变量进行如下加权变换 `\(Y^{\ast}=w_iY_i=\frac{Y_i}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}}\)`; `\(X^{\ast}=w_iX_i=\frac{X_i}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}}\)`; `\(v_i=w_iu_i=\frac{u_i}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}}\)`。 --- ## WLS矫正5(方差是某种组合形式) 从而得到WLS变换后的新模型: `$$\begin{align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+u_{i} \\ \frac{Y_i}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}} &=\frac{{\beta}_1}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}}+{\beta}_2\frac{X_{2i}}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}}+\cdots\\ &\quad +{\beta}_k\frac{X_{ki}}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}}+\frac{u_{i}}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}} \\ Y^{\ast}_i &=\beta^{\ast}_1+\beta^{\ast}_2X^{\ast}_{2i}+ \cdots +\beta^{\ast}_kX^{\ast}_{ki}+v_{i} \end{align}$$` 容易证明新模型将消除异方差性: `$$\begin {align} E\left(v_{i}^{2}\right)=E\left(\frac{u_{i}}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}}\right)^{2}=\frac{1}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}^{2}} E\left(u_{i}^{2}\right)=\sigma^{2} \end {align}$$` --- ## WLS矫正6(方差完全未知) **矫正情形6**:方差 `\(\sigma^2_i\)`未知 如果主模型存在异方差问题,对主模型两边同时取对数 `\(ln()\)`通常能够减低异方差性问题。 `$$\begin{align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+u_{i} \\ ln{Y_t} &={\beta}_1+{\beta}_2ln{X_{2i}}+\cdots+{\beta}_kln{X_{ki}}+v_{i} \end{align}$$` --- ## WLS矫正(小结) 以上所有讨论的变换都是一种权宜之计。我们基本上是在猜测 `\(\sigma^2_i\)`的情形。 > “幸福的家庭大抵类似,不幸的家庭各不相同!”——列夫托尔斯泰 > “同方差只有同一种结果(理想状态),异方差则可以异得千奇百怪(普遍现实)” 在所讨论的变换中哪一种能行之有效,要看问题的性质和异方差性的严重程度。这样做也会带来新的问题: - 当我们超出双变量模型的范围时,我们也许不能预先知道应选择哪一个 `\(X_{pi}\)`变量进行数据变换。 - 对数变换或开根号变换,当某些Y和X值为零或负数时便不适用。 --- ## 稳健标准误协方差矫正法(White法):基本介绍 使用使用稳健标准误(robust standard errors)协方差矫正,可以一定程度上降低异方差问题对模型的影响(假设检验和预测)。 这里我们将主要讨论采用White (1980)提出的异方差一致性矫正法(heteroskedasticity consistent covariance)进行模型处理<sup>注释1</sup>。 因此,我们可以看到两份可供对比的回归分析报告: - 分析报告A:使用OLS方法,不进行稳健标准误协方差矫正。 - 分析报告B:使用OLS方法,进行(white方法的)稳健标准误协方差矫正。 .footnote[ 注释1.实际的稳健标准误协方差矫正方法有很多,目的、作用和算法各不相同。 ] --- ### 稳健标准误协方差矫正法(White法):EViews菜单操作 EViews软件中,方程估计时,可以在引导设置中做出White稳健标准误协方差设定,具体是: > **Equation Estimation** `\(\Rightarrow\)` **Options**设置框 `\(\Rightarrow\)` **Coefficient covariance**设置框(系数协方差) `\(\Rightarrow\)` **Covariance method**下拉框(协方差方法) `\(\Rightarrow\)`下拉选择`Huber-White` --- ### 稳健标准误协方差矫正法(White法):EViews菜单操作 <img src="../pic/chpt8-white-menu-covariance-adjust.png" width="431" style="display: block; margin: auto;" /> --- ### 进行稳健标准误协方差矫正(White法):B分析报告 在EViews软件中,White稳健标准误协方差矫正的报告结果如下: <img src="../pic/chpt8-salary-adj-white.png" width="605" style="display: block; margin: auto;" /> --- ### 没有进行稳健标准误协方差矫正(White法):A分析报告 作为对照,下面是**没有**进行White稳健标准误协方差矫正的EViews报告: <img src="../pic/chpt8-salary-main.png" width="672" style="display: block; margin: auto;" /> --- layout: false class: center, middle, duke-softblue,hide_logo name: example # 8.6 案例(异方差问题诊断和矫正) --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter08">第08章 放宽基本假设:异方差性 </a>                       <a href="#example">8.6 案例展示(异方差问题的诊断和矫正)</a> </span></div> --- ## 吸烟案例(数据表) <div class="figure" style="text-align: center">
<p class="caption">吸烟数量及其影响因素案例数据n=(807)</p> </div> > `cigs`作为因变量Y,表示吸烟数量(每天); 其余变量表示自变量X,其中:`income`表示年收入;`cigpric`表示每包香烟价格;`educ`表示读书年数;`age`表示年龄;`restaurn`表示是否禁止在餐馆公共场所吸烟。 --- ## 吸烟案例(主模型) 首先构建如下**主回归模型**: `$$\begin{equation} \begin{alignedat}{999} &cigs=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} log(income)&& + \hat{\beta}_{3} log(cigpric)&& + \hat{\beta}_{4} educ\\ &\text{(cont.)}&& + \hat{\beta}_{5} age&& + \hat{\beta}_{6} I(age^2)&& + \hat{\beta}_{7} restaurn&&+e_i\\ \end{alignedat} \end{equation}$$` 主回归模型回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{cigs}=&&-3.64&&+0.88log(income)&&-0.75log(cigpric)&&-0.50educ\\ &\text{(t)}&&(-0.1512)&&(1.2095)&&(-0.1301)&&(-3.0016)\\&\text{(se)}&&(24.0787)&&(0.7278)&&(5.7733)&&(0.1671)\\&\text{(cont.)}&&+0.77age&&-0.01I(age^2)&&-2.83restaurn\\&\text{(t)}&&(4.8132)&&(-5.1765)&&(-2.5410)\\&\text{(se)}&&(0.1601)&&(0.0017)&&(1.1118)\\&\text{(fitness)}&& R^2=0.0527;&& \bar{R^2}=0.0456\\& && F^{\ast}=7.42;&& p=0.0000\\ \end{alignedat} \end{equation}$$` --- ## 吸烟案例(主模型EViews报告) <img src="../pic/chpt8-smoke-main.png" width="577" style="display: block; margin: auto;" /> --- ## 吸烟案例(残差数据) 得到主回归模型的残差序列 `\(e_i\)`、残差平方和序列 `\(e_i^2\)`(及其他变换数据):
> **提示**:后面BPJ检验中需要用到的数据 `\(P_{i}=\frac{\sum{e_i^2}} {\tilde{\sigma}^2};\quad \tilde{\sigma}^2=\frac{\sum{e_i^2}} {n}\)` --- ## 残差分布模式(按观测样本) **对数化**残差平方序列 `\(log(e_i^2)\)`的**描点图**(dot plot)为: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-64-1.png" style="display: block; margin: auto;" /> --- ## 残差分布模式(对收入) **对数化**残差平方序列 `\(log(e_i^2)\)`与**对数化**收入序列 `\(log(income)\)`的**散点图**(scatter plot)为: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-65-1.png" style="display: block; margin: auto;" /> --- ## 残差分布模式(对香烟价格) **对数化**残差平方序列 `\(log(e_i^2)\)`与**对数化**香烟价格序列 `\(log(cigpric)\)`的**散点图**(scatter plot)为: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-66-1.png" style="display: block; margin: auto;" /> --- ## 残差分布模式(对受教育年数) **对数化**残差平方序列 `\(log(e_i^2)\)`与受教育年数序列 `\(educ\)`的**散点图**(scatter plot)为: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-67-1.png" style="display: block; margin: auto;" /> --- ## 残差分布模式(对年龄) **对数化**残差平方序列 `\(log(e_i^2)\)`与年龄序列 `\(age\)`的**散点图**(scatter plot)为: <img src="08-hetero-scadeciticity-slide_files/figure-html/unnamed-chunk-68-1.png" style="display: block; margin: auto;" /> --- ## 帕克检验(关注收入变量) 为验证**主模型**是否存在异方差问题。我们可以构建如下的**帕克检验辅助方程1** `$$\begin{equation} \begin{alignedat}{999} &log(ei^2)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} log(income)&&+e_i\\ \end{alignedat} \end{equation}$$` **帕克检验辅助方程**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(ei^2)}=&&-0.41&&+0.48log(income)\\ &\text{(t)}&&(-0.5366)&&(6.0171)\\&\text{(se)}&&(0.7700)&&(0.0793)\\&\text{(fitness)}&& R^2=0.0430;&& \bar{R^2}=0.0419\\& && F^{\ast}=36.21;&& p=0.0000 \end{alignedat} \end{equation}$$` 从而可以得到**帕克检验**初步结论:F检验极显著,拒绝原假设 `\(H_0\)`,认为**主模型**为**异方差**。 --- ## BPG检验(LM检验) 为验证**主模型**是否存在异方差问题。我们可以构建如下的**BPG检验辅助方程** `$$\begin{equation} \begin{alignedat}{999} &Pi=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} log(income)&& + \hat{\beta}_{3} log(cigpric)&& + \hat{\beta}_{4} educ\\ &\text{(cont.)}&& + \hat{\beta}_{5} age&& + \hat{\beta}_{6} I(age^2)&& + \hat{\beta}_{7} restaurn&&+e_i\\ \end{alignedat} \end{equation}$$` **BPG检验辅助方程**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Pi}=&&-3.57&&+0.14log(income)&&+0.34log(cigpric)&&-0.01educ\\ &\text{(t)}&&(-0.9752)&&(1.2493)&&(0.3898)&&(-0.5266)\\&\text{(se)}&&(3.6630)&&(0.1107)&&(0.8783)&&(0.0254)\\&\text{(cont.)}&&+0.11age&&-0.00I(age^2)&&-0.40restaurn\\&\text{(t)}&&(4.4750)&&(-4.5474)&&(-2.3626)\\&\text{(se)}&&(0.0244)&&(0.0003)&&(0.1691)\\&\text{(fitness)}&& R^2=0.0400;&& \bar{R^2}=0.0328\\& && F^{\ast}=5.55;&& p=0.0000\\ \end{alignedat} \end{equation}$$` --- ## BPG检验(LM检验) **BPG检验辅助方程**的回归平方和为 `\(ESS=\)` 113.5691;**LM统计量**(绝对值)为 `\(LM \equiv {\chi^2}^{\ast}=ESS/2=\)` 56.7845。给定显著性水平 `\(\alpha=0.05\)`时卡方分布的理论查表值为 `\(\chi^2_{1-\alpha}(m-1)=\chi^2_{0.95}(6)=\)` 12.59159。从而可以得到**BPG检验**初步结论:卡方检验极显著,拒绝原假设 `\(H_0\)`,认为**主模型**存在**异方差性**。 >**提示**: `\(P_{i}=\frac{\sum{e_i^2}} {\tilde{\sigma}^2};\quad \tilde{\sigma}^2=\frac{\sum{e_i^2}} {n}\)` --- ## 怀特检验 通过构建**怀特检验辅助方程**: `$$\begin{equation} \begin{alignedat}{999} &I(ei^2)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} log(income)&& + \hat{\beta}_{3} I((log(income))^2)\\ &\text{(cont.)}&& + \hat{\beta}_{4} log(cigpric)&& + \hat{\beta}_{5} I((log(cigpric))^2)&& + \hat{\beta}_{6} educ\\ &\text{(cont.)}&& + \hat{\beta}_{7} age&& + \hat{\beta}_{8} I(age^2)&& + \hat{\beta}_{9} restaurn&&+e_i\\ \end{alignedat} \end{equation}$$` --- ## 怀特检验 进而可以得到如下辅助回归的诊断结果: `$$\begin{equation} \begin{alignedat}{999} &\widehat{I(ei^2)}=&&+19699.17&&+43.49log(income)&&-1.04I((log(income))^2)\\ &\text{(t)}&&(1.0527)&&(0.1572)&&(-0.0683)\\&\text{(se)}&&(18712.4188)&&(276.6317)&&(15.2518)\\&\text{(cont.)}&&-10054.87log(cigpric)&&+1251.96I((log(cigpric))^2)&&-2.34educ\\&\text{(t)}&&(-1.0865)&&(1.0932)&&(-0.5116)\\&\text{(se)}&&(9254.3280)&&(1145.2348)&&(4.5649)\\&\text{(cont.)}&&+19.51age&&-0.22I(age^2)&&-67.03restaurn\\&\text{(t)}&&(4.4901)&&(-4.5759)&&(-2.2029)\\&\text{(se)}&&(4.3442)&&(0.0473)&&(30.4296)\\&\text{(fitness)}&& R^2=0.0414;&& \bar{R^2}=0.0318\\& && F^{\ast}=4.31;&& p=0.0000\\ \end{alignedat} \end{equation}$$` --- ## 怀特检验 **怀特检验辅助方程**的判定系数为 `\(R^2=\)` 0.0414;样本卡方统计量(绝对值)为 `\({\chi^2}^{\ast}=nR^2=\)` 33.4198。给定显著性水平 `\(\alpha=0.05\)`时卡方分布的理论查表值为 `\(\chi^2_{1-\alpha}(m-1)=\chi^2_{0.95}(8)=\)` 15.50731。从而可以得到**怀特检验**初步结论:卡方检验显著,应拒绝原假设 `\(H_0\)`,认为**主模型**存在**异方差问题**。 --- ## WLS矫正1(收入变量) 根据散点图,可以认为主模型方差正比于收入(income)的平方,因此加权最小二乘法(WLS)矫正模型如下: `$$\begin{equation} \begin{alignedat}{999} &\widehat{I(cigs/income)}=&&+0.00&&+0.00I(log(cigpric/income))&&+0.07I(educ/income)\\ &\text{(t)}&&(5.4182)&&(6.7093)&&(2.1392)\\&\text{(se)}&&(0.0006)&&(0.0001)&&(0.0331)\\&\text{(cont.)}&&+0.00age&&-0.00I(age^2)&&-0.00restaurn\\&\text{(t)}&&(3.6951)&&(-4.0142)&&(-2.3069)\\&\text{(se)}&&(0.0000)&&(0.0000)&&(0.0001)\\&\text{(fitness)}&& R^2=0.1486;&& \bar{R^2}=0.1432\\& && F^{\ast}=27.95;&& p=0.0000\\ \end{alignedat} \end{equation}$$` --- ### 对WLS矫正(收入)模型进行BPG检验 我们可以构建如下的**BPG检验辅助方程** `$$\begin{equation} \begin{alignedat}{999} &Pi=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} I(log(cigpric/income))&& + \hat{\beta}_{3} I(educ/income)\\ &\text{(cont.)}&& + \hat{\beta}_{4} age&& + \hat{\beta}_{5} I(age^2)&& + \hat{\beta}_{6} restaurn&&+e_i\\ \end{alignedat} \end{equation}$$` **BPG检验辅助方程**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Pi}=&&+3.77&&+0.95I(log(cigpric/income))&&+1090.12I(educ/income)\\ &\text{(t)}&&(1.4638)&&(2.2419)&&(8.0546)\\&\text{(se)}&&(2.5730)&&(0.4237)&&(135.3412)\\&\text{(cont.)}&&+0.08age&&-0.00I(age^2)&&-0.60restaurn\\&\text{(t)}&&(1.1710)&&(-1.2426)&&(-1.2390)\\&\text{(se)}&&(0.0704)&&(0.0008)&&(0.4858)\\&\text{(fitness)}&& R^2=0.1851;&& \bar{R^2}=0.1800\\& && F^{\ast}=36.38;&& p=0.0000\\ \end{alignedat} \end{equation}$$` --- ### 对WLS矫正(收入)模型进行BPG检验 **BPG检验辅助方程**的回归平方和为 `\(ESS=\)` 115.8392;**LM统计量**(绝对值)为 `\(LM \equiv {\chi^2}^{\ast}=ESS/2=\)` 57.9196。 给定显著性水平 `\(\alpha=0.05\)`时卡方分布的理论查表值为 `\(\chi^2_{1-\alpha}(m-1)=\chi^2_{0.95}(4)=\)` 9.487729。 从而可以得到**BPG检验**初步结论:卡方检验极显著,拒绝原假设 `\(H_0\)`,认为**WLS矫正模型**仍旧存在**异方差性**。 --- ## WLS矫正2(香烟价格变量) 根据散点图,也可以认为主模型方差正比于香烟价格(cigpric)的平方,因此加权最小二乘法(WLS)矫正模型如下: `$$\begin{equation} \begin{alignedat}{999} &\widehat{I(cigs/cigpric)}=&&-0.06&&+0.01I(log(income/cigpric))&&-0.39I(educ/cigpric)\\ &\text{(t)}&&(-0.7733)&&(1.1926)&&(-2.4633)\\&\text{(se)}&&(0.0742)&&(0.0123)&&(0.1598)\\&\text{(cont.)}&&+0.01age&&-0.00I(age^2)&&-0.06restaurn\\&\text{(t)}&&(4.5097)&&(-4.8636)&&(-3.0092)\\&\text{(se)}&&(0.0027)&&(0.0000)&&(0.0185)\\&\text{(fitness)}&& R^2=0.0492;&& \bar{R^2}=0.0432\\& && F^{\ast}=8.29;&& p=0.0000\\ \end{alignedat} \end{equation}$$` --- ### 对WLS矫正(香烟价格)模型进行BPG检验 我们可以构建如下的**BPG检验辅助方程** `$$\begin{equation} \begin{alignedat}{999} &Pi=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} I(log(income/cigpric))&& + \hat{\beta}_{3} I(educ/cigpric)\\ &\text{(cont.)}&& + \hat{\beta}_{4} age&& + \hat{\beta}_{5} I(age^2)&& + \hat{\beta}_{6} restaurn&&+e_i\\ \end{alignedat} \end{equation}$$` **BPG检验辅助方程**的回归结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Pi}=&&-1.41&&+0.12I(log(income/cigpric))&&+0.01I(educ/cigpric)\\ &\text{(t)}&&(-2.1108)&&(1.0434)&&(0.0044)\\&\text{(se)}&&(0.6675)&&(0.1103)&&(1.4379)\\&\text{(cont.)}&&+0.10age&&-0.00I(age^2)&&-0.48restaurn\\&\text{(t)}&&(4.0588)&&(-4.1341)&&(-2.8722)\\&\text{(se)}&&(0.0242)&&(0.0003)&&(0.1663)\\&\text{(fitness)}&& R^2=0.0376;&& \bar{R^2}=0.0316\\& && F^{\ast}=6.27;&& p=0.0000\\ \end{alignedat} \end{equation}$$` --- ### 对WLS矫正(香烟价格)模型进行BPG检验 **BPG检验辅助方程**的回归平方和为 `\(ESS=\)` 117.8926;**LM统计量**(绝对值)为 `\(LM \equiv {\chi^2}^{\ast}=ESS/2=\)` 58.9463。给定显著性水平 `\(\alpha=0.05\)`时卡方分布的理论查表值为 `\(\chi^2_{1-\alpha}(m-1)=\chi^2_{0.95}(5)=\)` 11.0705。从而可以得到**BPG检验**初步结论:卡方检验极显著,拒绝原假设 `\(H_0\)`,认为**WLS矫正模型**仍旧存在**异方差性**。 --- ## WLS矫正3(多个变量的组合):思路 如果主模型存在异方差问题,且假设方差是某种组合形式,也即: `$$\begin{equation} var(u_i|X_{2i},X_{3i}\cdots)=E(u^2_i)=\sigma^2_i=\sigma^2 \cdot {f}(X_{2i},X_{3i}\cdots) \end{equation}$$` 此时,加权最小二乘法(WLS)矫正可以采用权重 `\(w_i=\frac{1}{\sqrt{{f}(X_{2i},X_{3i}\cdots)}}\)`。 为了获得权重 `\(w_i\)`,可以考虑到如下的异方差模式方程: `$$\begin{align} ln(f(.))=ln{(\tilde{e}_i^2)} =\tilde{\lambda}_1 &+ \tilde{\lambda}_1ln{(income)}_i + \tilde{\lambda}_3ln{(cigpric)}_{i} + \tilde{\lambda}_4educ_i + \tilde{\lambda}_5age_i + \tilde{\lambda}_6restaurant_i\\ & + \tilde{\lambda}_7{(ln(income_i))}^2 + \tilde{\lambda}_8(ln(cigpric_i))^2 + \tilde{\lambda}_9educ_i^2 + \tilde{\lambda}_{10}age_i^2 \end{align}$$` 上述异方差模式方程的拟合值可以作为WLS的权重,也即 `\(w_i=\frac{1}{\sqrt{f(.)}}=\frac{1}{\sqrt{exp(\tilde{e}_i^2)}}=\frac{1}{\tilde{e}_i}\)`。 --- ## WLS矫正3(多个变量的组合):操作步骤 **步骤1**:构建OLS回归 `$$\begin{align} ln{(\tilde{e}_i^2)} =\tilde{\lambda}_1 &+ \tilde{\lambda}_1ln{(income)}_i + \tilde{\lambda}_3ln{(cigpric)}_{i} + \tilde{\lambda}_4educ_i + \tilde{\lambda}_5age_i + \tilde{\lambda}_6restaurant_i\\ & + \tilde{\lambda}_7{(ln(income_i))}^2 + \tilde{\lambda}_8(ln(cigpric_i))^2 + \tilde{\lambda}_9educ_i^2 + \tilde{\lambda}_{10}age_i^2 \end{align}$$` **步骤2**:得到拟合值 `\(f(.)=exp(linear)=\tilde{e}_i^2\)`,并计算权重 `\(w_i=\frac{1}{\sqrt{f(.)}}=\frac{1}{\tilde{e}_i}\)` **步骤3**:WLS变量变换, `\(Y^{\ast}_i=w_i{Y_i}=\frac{Y_i}{\tilde{e}_i}\)`, `\(X^{\ast}_i=w_i{X_i}=\frac{X_i}{\tilde{e}_i}\)`。 **步骤4**:估计变换后的新模型 `\(Y^{\ast}_i = \alpha_0 +\alpha_1X^{\ast}_i+v_i\)` --- exclude: true ### software code EVIEWS code ``` series ei2 = ei^2 eq_fx.fit series ei_tilde = ei2_tilde^0.5 series nincome = income/ei_tilde series ncigs = cigs/ei_tilde series neduc =educ/ei_tilde series nage =age/ei_tilde series ncigpric = cigpric /ei_tilde ``` R code here --- ### WLS矫正3(多个变量的组合):异方差探查方程的回归 **步骤1**:构建OLS回归,探明异方差的变量组合形式。 `$$\begin{equation} \begin{alignedat}{999} &\widehat{lnei2}=&&+13.3430&&+0.7081lnincome_i&&-8.4510lncigpric_i&&-0.0221educ_i\\ &(s)&&(73.6034)&&(1.0878)&&(36.3946)&&(0.1089)\\ &(t)&&(+0.18)&&(+0.65)&&(-0.23)&&(-0.20)\\ &(cont.)&&+0.2051age_i&&-0.0024age^2_i&&-0.6194restaurn_i&&-0.0232lnincome2_i\\ &(s)&&(0.0171)&&(0.0002)&&(0.1197)&&(0.0600)\\ &(t)&&(+11.96)&&(-12.89)&&(-5.18)&&(-0.39)\\ &(cont.)&&+1.0685lncigpric2_i&&-0.0023educ^2_i && &&\\ &(s)&&(4.5039)&&(0.0043) && &&\\ &(t)&&(+0.24)&&(-0.53) && &&\\ &(over)&&n=807&&\hat{\sigma}=1.4291 && &&\\ &(fit)&&R^2=0.2478&&\bar{R}^2=0.2393 && &&\\ &(Ftest)&&F^*=29.18&&p=0.0000 && && \end{alignedat} \end{equation}$$` --- ### WLS矫正3(多个变量的组合):权重和变量变换(数据表) **步骤2**:得到变量组合形式的权重 `\(w_i=\frac{1}{\tilde{e}_i}\)`。 **步骤3**:利用权重 `\(w_i=\frac{1}{\tilde{e}_i}\)`,进行WLS变量变换并回归。
--- ### WLS矫正4(多个变量的组合):WLS矫正后的回归 利用WLS权重变换后新变量进行OLS回归,结果如下: `$$\begin{equation} \begin{alignedat}{999} &\widehat{ncigs}=&&+1.5511&&-0.0636nlnincome_i&&+0.1475nlncigpric_i&&-0.2390neduc_i\\ &(s)&&(0.8433)&&(0.0923)&&(0.2795)&&(0.1097)\\ &(t)&&(+1.84)&&(-0.69)&&(+0.53)&&(-2.18)\\ &(cont.)&&-0.0037nage_i&&+0.0003nage^2_i&&-0.0321restaurn_i &&\\ &(s)&&(0.0211)&&(0.0003)&&(0.1462) &&\\ &(t)&&(-0.18)&&(+0.99)&&(-0.22) &&\\ &(over)&&n=807&&\hat{\sigma}=1.5650 && &&\\ &(fit)&&R^2=0.0119&&\bar{R}^2=0.0045 && &&\\ &(Ftest)&&F^*=1.61&&p=0.1416 && && \end{alignedat} \end{equation}$$` --- ## 稳健标准误协方差矫正法(White法):知识回顾 使用使用稳健标准误(robust standard errors)协方差矫正,可以一定程度上降低异方差问题对模型的影响(假设检验和预测)。这里我们将主要采用White (1980)提出的异方差一致性矫正法(heteroskedasticity consistent covariance)进行模型处理。 因此,我们可以看到两份可供对比的回归分析报告: - 分析报告A:使用OLS方法,不进行稳健标准误协方差矫正。 - 分析报告B:使用OLS方法,进行(white方法的)稳健标准误协方差矫正。 --- ### 使用White稳健标准误法矫正异方差问题:B分析报告 使用White校正法矫正异方差的EViews报告如下: <img src="../pic/chpt8-smoke-white-adj.png" width="483" style="display: block; margin: auto;" /> --- ### 没有使用White稳健标准误法矫正异方差问题:A分析报告 作为对照,下面给出的是主模型的EViews报告: <img src="../pic/chpt8-smoke-main.png" width="577" style="display: block; margin: auto;" /> --- layout:false background-image: url("../pic/thank-you-gif-funny-little-yellow.gif") class: inverse,center # 本章结束