background-image: url("../pic/slide-front-page.jpg") class: center,middle # 计量经济学(Econometrics) ### 胡华平 ### 西北农林科技大学 ### 经济管理学院数量经济教研室 ### huhuaping01@hotmail.com ### 2021-09-07
--- class: center, middle, duke-orange,hide_logo name: chapter11 # 第11章:内生自变量问题 [11.1 简单回归模型中的遗漏变量](#ommit) [11.2 内生变量法下的估计问题](#problem) [11.3 多元回归模型的IV估计](#IV) [11.4 工具变量法的一些讨论](#discuss) [11.5 解释变量的内生性检验(豪斯曼检验)](#endogeneity-test) [11.6 工具变量的外生性检验](#exogeneity-test) --- layout: false class: center, middle, duke-softblue,hide_logo name: ommit # 11.1 简单回归模型中的遗漏变量 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第11章 内生自变量问题 </a>                             <a href="#ommit">11.1 简单回归模型中的遗漏变量</a> </span></div> --- ## 一个简单示例 假定工资水平的**“真实模型”**为: `$$\begin {align} \log (wage_i)=\beta_{0}+\beta_{1} educ_i+\beta_{2} abil_i+u_i \end {align}$$` -- 然而,因为能力变量( `\(abil_i\)`)无法观测得到,所以我们经常用智商水平变量( `\(IQ_i\)`)来替换,并构建如下**“代理变量模型”**: `$$\begin {align} \log (wage_i)=\beta_{0}+\beta_{1} educ_i+\beta_{2} IQ_i+u_i^{\ast} \end {align}$$` --- ## 一个简单示例 进一步地,如果拿不到智力水平( `\(IQ_i\)`)数据,我们很可能构建出如下**遗漏重要变量**的**“偏误模型”**: `$$\begin {align} \log (wage_i)=\beta_{0}+\beta_{1} educ_i+v_i \end {align}$$` -- - 此时,我们可以认为重要变量 `\(abil_i\)`被遗漏,从而进入到随机干扰项 `\(v_i\)`中。 -- - 又因为,一般情况下我们认为教育水平( `\(educ_i\)`)与能力( `\(abil_i\)`)是相关的,从而可以认为 自变量 `\(educ_i\)`与随机干扰项 `\(v_i\)`是相关的。而这是违背CLRM假设的(违背了哪一条?)。 --- ## 知识回顾 对于总体回归模型: `$$\begin{align} Y_i &= \beta_1 +\beta_2X_i + u_i && \text{(PRM)} \end{align}$$` - 在CLRM假设下:**CLRM假设3**——X是固定的(给定的)或独立于误差项。也即自变量X**不是**随机变量。此时,我们可以使用OLS方法,并得到**BLUE**。 `$$\begin{align} Cov(X_i, u_i)= 0\\ E(X_i u_i)= 0 \end{align}$$` -- - 如果违背上述假设,也即自变量X与随机干扰项相关。此时使用OLS估计将不再能得到**BLUE**,而应该采用**工具变量法**(IV)进行估计。 `$$\begin{align} Cov(X_i, u_i)= 0\\ E(X_i u_i)= 0 \end{align}$$` -- 事实上,无论 `\(X_i\)`与 `\(u_i\)`是否相关,我们都可以采用**IV法**得到**BLUE**。 --- ## 代理变量 **代理变量**(proxy variable):一般因为某些原因,某个变量 `\(X_i\)`不能直接观测得到(数据不可得),那么常常会找一个能够观测到到的、并与 `\(X_i\)`高度相关的变量 `\(D_i\)`作为替代。 -- - 假定工资水平的**“真实模型”**为: `$$\begin {align} \log (wage_i)=\beta_{0}+\beta_{1} educ_i+\beta_{2} abil_i+u_i \end {align}$$` -- - 然而,因为能力变量( `\(abil_i\)`)无法观测得到,所以我们经常用智商水平变量( `\(IQ_i\)`)来替换,并构建如下**“代理变量模型”**: `$$\begin {align} \log (wage_i)=\beta_{0}+\beta_{1} educ_i+\beta_{2} IQ_i+u_i^{\ast} \end {align}$$` 此时,智力水平 `\(IQ_i\)`就可以认为是变量 能力 `\(abil_i\)`的**代理变量**。 --- ## 工具变量 **代理变量**(proxy variable):一般因为某些原因,某个变量 `\(X_i\)`不能直接观测得到(数据不可得),那么常常会找一个能够观测到到的、并与 `\(X_i\)`高度相关的变量 `\(D_i\)`作为替代。 **工具变量**(instrument variable):一般记为 `\(Z_i\)`,是指一个具备如下**两个性质**的可观测的变量: `$$\begin{align} Y_i &= \beta_1 +\beta_2X_i + u_i && \text{(PRM)} \end{align}$$` `$$\begin{align} Cov(Z_i, u_i) & = 0 && \text{(instrumental exogeneity)}\\ Cov(Z_i, X_i) & \neq 0 && \text{(instrumental relevance)} \end{align}$$` - 工具外生性(instrumental exogeneity):工具变量对于总体回归模型是外生的。 - 工具相关性(instrumental relevance):工具变量对于解释 `\(X_i\)`的变异时有很重要的作用。 **思考**: 我们很容易就能检验出模型是不是具有工具外生性或工具相关性么?为什么? ??? 从遗漏变量角度来看,工具变量 `\(Z_i\)`对 `\(Y_i\)`没有多余的影响,并且 `\(Z_i\)`与遗漏变量也不相关。 `$$\begin{align} X_i &= \pi_1 +\pi_2Z_i + v_i \\ \pi_2 & = \frac{cov(X_i,Z_i)}{var(Z_i)} \end{align}$$` --- ## 对示例的进一步扩展 对于**“真实模型”**: `$$\begin {align} \log (wage_i)=\beta_{0}+\beta_{1} educ_i+\beta_{2} abil_i+u_i \end {align}$$` 我们很可能构建出如下**遗漏重要变量**的**“偏误模型”**: `$$\begin {align} \log (wage_i)=\beta_{0}+\beta_{1} educ_i+v_i \end {align}$$` 因此,对于教育 `\(edu_i\)`的工具变量 `\(Z_i\)`而言: - 工具变量 `\(Z_i\)`必须与能力 `\(abil_i\)`不相关,但又必须与教育 `\(edu_i\)`相关。 -- - 选择方案1:家庭背景教育如母亲的教育 `\(MotherEdu_i\)`就可能是工具变量备选方案之一。因为我们通常可以认为**母亲教育水平**与孩子教育是正相关的。 -- - 选择方案2:另一个工具变量的备选方案是家庭中**兄弟姐妹的数量** `\(sibs\)`。因为我们通常可以认为家庭中兄弟姐妹数量会导致较低的平均教育水平(也即负相关)。 **提问**:哪一个方案更好呢?为什么? ??? 对于能力 `\(abil_i\)`的工具变量 `\(Z_i\)`: - 工具变量 `\(Z_i\)`必须与教育 `\(edu_i\)`不相关,但又必须与能力 `\(abil_i\)`相关。 - 智商水平 `\(IQ_i\)`就是一个符合以上条件的、较理想的工具变量。 --- ## 学习成绩与逃课次数的例子 下面我们以学习成绩与逃课次数的例子进行分析讨论。 --- ## 模型设定 假设**“真实模型”**是: `$$\begin {align} score_i=\alpha_{1}+\alpha_{2}skipped_i+ \alpha_3 abil_i + \alpha_4 mot_i + \alpha_5 income_i +u_i \end {align}$$` 一个遗漏了重要变量的**“偏误模型”**是: `$$\begin {align} score_i=\beta_{1}+\beta_{2}skipped_i+v_i \end {align}$$` - 学习成绩受到逃课次数的影响,但是我们也很担心以上模型中 `\(skipped_i\)`与 `\(v_i\)`中的某些因素相关,例如越有能力 `\(abil_i\)`、越积极 `\(mot_i\)`的学生,逃课也越少。 - 因为自变量 `\(skipped_i\)`可能与随机干扰项 `\(v_i\)`相关。此时,对于以上简单的回归,可能得不出可靠的估计。 --- ## 模型设定 `$$\begin {align} score_i=\beta_{1}+\beta_{2}skipped_i+v_i \end {align}$$` 逃课次数 `\(skipped_i\)`的工具变量 `\(Z_i\)`有哪些可供备选的呢? -- - 宿舍跟上课地点的距离 `\(distance\)`。我们一般认为,它与逃课次数相关 `\(skipped_i\)`,但是它与 `\(v_i\)`中的某些因素也会相关么? -- - 如果收入水平 `\(income\)`确实影响了学习成绩,但是模型却没有引入收入水平 `\(income\)`变量,也就意味着 `\(v_i\)`中包含了遗漏的重要变量——收入水平 `\(income\)`。此时,距离 `\(distance\)`就会与收入水平 `\(income\)`相关,进而与 `\(v_i\)`相关。——因为收入少的学生,更倾向于在外租房(合租);收入多的学生,更倾向于住校。 ??? - 此外,如果能找到能力 `\(abil_i\)`的一个合适的工具变量 `\(Z_{2i}\)`,那么也可以减弱我们对一元回归模型估计问题的担忧。例如,累计学积分 `\(GPA\)`。 --- layout:false class: center, middle, duke-softblue,hide_logo name: problem # 11.2 内生变量法下的估计问题 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第11章 内生自变量问题 </a>                             <a href="#problem">11.2 内生变量法下的估计问题</a> </span></div> --- ## 工具变量法下系数的估计过程 把上述**“偏误模型”**记为: `$$\begin {align} score_i & =\beta_{1}+\beta_{2}skipped_i+u_i \\ Y_i & = \beta_{1}+\beta_{2}X_i+u_i \end {align}$$` 假设我们找到了理想的工具变量 `\(Z_i\)`,并构建如下的**工具变量模型**: `$$\begin {align} Y_i & = \alpha_{1}+\alpha_{2}Z_i+v_i \end {align}$$` `$$\begin {align} cov(Z_i, Y_i) & = \alpha_{2}cov(Z_i,X_i)+ cov(Z_i,u_i) && \leftarrow [cov(Z_i,u_i)=0] \\ \alpha_2|_{IV}^{plim} & = \frac{cov(Z_i, Y_i)}{cov(Z_i, X_i)} = \frac{\sum{z_iy_i}}{\sum{z_ix_i}} && \leftarrow [if \quad X_i=Z_i] \\ & = \frac{\sum{x_iy_i}}{\sum{x_i^2}} =\beta_2 \end {align}$$` 这将意味着工具变量法IV会得到最小二乘法OLS下的估计结果。 --- ## 工具变量法下系数的真实方差 .pull-left[ 对于**“偏误模型”**和**工具变量模型**: `$$\begin{align} Y_i &= \beta_1 +\beta_2X_i + u_i && \text{(PRM)} \\ Y_i &= \alpha_1 +\alpha_2Z_i + v_i && \text{(IV)} \end{align}$$` 如果如下三个条件成立: `$$\begin{align} Cov(Z_i, u_i) & = 0 \\ Cov(Z_i, X_i) & \neq 0 \\ E(v_i^2|Z_i) & \equiv \sigma^2 \equiv var(u_i) \end{align}$$` ] -- .pull-right[ 可证明斜率系数 `\(\alpha_2\)`的渐近方差: `$$\begin{align} var(\alpha_2) \simeq \frac{\sigma^2}{n \sigma^2_{X_i} \rho^2_{(X_i,Z_i)}} \end{align}$$` 其中: - `\(\sigma^2\)`是 `\(v_i\)`的**总体方差**,也即 `\(var(v_i) \equiv \sigma^2\)`。 - `\(\sigma^2_{X_i}\)`是 `\(X_i\)`的**总体方差**,也即 `\(var(X_i) \equiv \sigma^2_{X_i}\)`。 - `\(\rho^2_{(X_i,Z_i)}\)`是 `\(X_i\)`和 `\(Z_i\)`的**总体相关系数**的平方,也即 `\(\rho^2_{(X_i,Z_i)} \equiv \frac{[cov(X_i,Z_i)]^2}{var(X_i)var(Z_i)}\)`; ] --- ## 工具变量法下系数的样本方差 对于给定的样本数据,我们可以计算出 `$$\begin{align} var(\alpha_2) \simeq \frac{\sigma^2}{n \sigma^2_{X_i} \rho^2_{(X_i,Z_i)}} \simeq \frac{\hat{\sigma}^2}{n S^2_{X_i} R^2_{(X_i,Z_i)}} \end{align}$$` 其中: - `\(\sigma^2_{X_i} \simeq S^2_{X_i}=\frac{\sum{(X_i-\bar{X})^2}}{n-1}\)`。 - `\(\rho^2_{(X_i,Z_i)}\simeq R^2\)`,其中 `\(R^2\)`为通过做 `\(X_i\)`对 `\(Z_i\)`的回归来获得的**判定系数**。 `$$\begin{align} X_i = \hat{\pi}_1 +\hat{\pi}_2 Z_i + \epsilon_i \end{align}$$` - `\(\hat{\sigma}^2 = \frac{\sum{e_i^2}}{n-2}\)`,是来自对**工具变量回归**的残差计算。 `$$\begin{align} Y_i = \hat{\alpha}_1 +\hat{\alpha}_2 Z_i + e_i \end{align}$$` --- ## 已婚女性的教育回报案例 下面我们对已婚女性的教育回报案例进行分析讨论。 --- ## 变量说明 研究者关注428名已婚女性**时均工资** `\(wage\)`与其**受教育年数** `\(educ\)`之间的关系,并考虑如下变量:
--- ## 原始数据
--- ## 散点图1 <div class="figure" style="text-align: center"> <img src="11-instrument-variable-slide_files/figure-html/unnamed-chunk-4-1.png" alt="受教育年数与时均工资的散点图" /> <p class="caption">受教育年数与时均工资的散点图</p> </div> --- ## 散点图2 <div class="figure" style="text-align: center"> <img src="11-instrument-variable-slide_files/figure-html/unnamed-chunk-5-1.png" alt="考虑父亲受教育年数的散点图" /> <p class="caption">考虑父亲受教育年数的散点图</p> </div> --- ## OLS回归 如果直接构建如下的**“偏误模型”**,并坚持采用OLS估计: `$$\begin{equation} \begin{alignedat}{999} &log(wage)=&& + \beta_{1} && + \beta_{2} educ&&+u_i\\ \end{alignedat} \end{equation}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(wage)}=&&-0.19&&+0.11educ\\ &\text{(t)}&&(-0.9998)&&(7.5451)\\&\text{(se)}&&(0.1852)&&(0.0144)\\&\text{(fitness)}&& R^2=0.1179;&& \bar{R^2}=0.1158\\& && F^{\ast}=56.93;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ## 工具变量法回归(IV):手工分步计算 采用工具变量法的第一阶段回归: `$$\begin{equation} \begin{alignedat}{999} &educ=&& + \beta_{1} && + \beta_{2} fatheduc&&+u_i\\ \end{alignedat} \end{equation}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{educ}=&&+10.24&&+0.27fatheduc\\ &\text{(t)}&&(37.0993)&&(9.4255)\\&\text{(se)}&&(0.2759)&&(0.0286)\\&\text{(fitness)}&& R^2=0.1726;&& \bar{R^2}=0.1706\\& && F^{\ast}=88.84;&& p=0.0000 \end{alignedat} \end{equation}$$` 采用工具变量法的第二阶段回归: `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(wage)}=&&+0.44&&+0.06educ.hat\\ &\text{(t)}&&(0.9443)&&(1.6081)\\&\text{(se)}&&(0.4671)&&(0.0368)\\&\text{(fitness)}&& R^2=0.0060;&& \bar{R^2}=0.0037\\& && F^{\ast}=2.59;&& p=0.1086 \end{alignedat} \end{equation}$$` --- ## 工具变量法回归(IV):R软件自动计算 采用R包`AER`的工具变量回归函数`ivreg()`,可以得到如下回归结果: .pull-left[ ``` Call: ivreg(formula = log(wage) ~ educ | fatheduc, data = mroz) Residuals: Min 1Q Median 3Q Max -3.0870 -0.3393 0.0525 0.4042 2.0677 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.44110 0.44610 0.989 0.3233 educ 0.05917 0.03514 1.684 0.0929 . --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.6894 on 426 degrees of freedom Multiple R-Squared: 0.09344, Adjusted R-squared: 0.09131 Wald test: 2.835 on 1 and 426 DF, p-value: 0.09294 ``` ] .pull-right[ **工具变量回归模型**: `$$\begin{align} log(wage) = \lambda_1 + \lambda_2educ|fatheduc + \epsilon_i \end{align}$$` **提问**: - 手工分步计算与软件自动计算有哪些不同? - 判定系数和系数标准误差为什么会不同? ] --- ## 工具变量法回归(IV):EViews软件自动计算 EViews软件下工具变量法的实现: <img src="../pic/chpt11-eq-iv-estimation.png" width="431" style="display: block; margin: auto;" /> --- ## 工具变量法回归(IV):EViews软件自动计算 EViews软件下工具变量法的结果: <img src="../pic/chpt11-eq-iv-eviews.png" width="590" style="display: block; margin: auto;" /> --- layout:false class: center, middle, duke-softblue,hide_logo name: IV # 11.3 多元回归模型的IV估计 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第11章 内生自变量问题 </a>                             <a href="#IV">11.3 多元回归模型的IV估计</a> </span></div> --- ## 新的符号表达体系 对于多元回归模型,我们可以记为: `$$\begin {align} \log (wage) & = \beta_{1}+\beta_{2} educ+\lambda_{1} exper+u_{i} \\ Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i}+u_{i} \\ E(u_i)&=0; \quad cov(Y_{2i}, u_i) \neq 0 ;\\ cov(Z_{1i},u_i)&=0;\quad cov(Y_{2i},Z_{1i})=0 \end {align}$$` - **内生变量**(endogenous variable):用符号 `\(Y_i\)`表达。例如,因变量(工资水平) `\(Y_{1i}\)`显然是内生变量;而其中的一个自变量(教育年数) `\(Y_{2i}\)`我们在这里认为也是内生的——也即允许它跟随机干扰项 `\(u_i\)`**相关**。 - **外生变量**(exogenous variable):用符号 `\(Z_i\)`表达。例如另一个自变量(工作经历) `\(Z_{1i}\)`则认为它是外生的——也即它跟随机干扰项 `\(u_i\)`**不相关**。 --- ## 约简方程 `$$\begin {align} \log (wage) & = \beta_{1}+\beta_{2} educ+\lambda_{1} exper+u_{i} \\ Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i}+u_{i} \\ \end {align}$$` 如果给内生变量 `\(Y_{2i}\)`找到一个理想工具变量 `\(Z_{2i}\)`,则可构建如下**约简方程**: `$$\begin {align} Y_{2i} & =\pi_{0}+\pi_{1} Z_{1i}+\pi_{2} Z_{2i}+v_{i} \\ E(v_i)&=0; \quad cov(Y_{2i},Z_{1i})=0;\\ cov(Z_{1i},v_i) &=0; \quad cov(Z_{2i}, v_i) = 0 \end {align}$$` - **约简方程**(reductive equation):是指一个**内生变量**对全部**外生变量**的回归方程。 - 因为 `\(Z_{1i};Z_{2i}\)`为外生变量都为**外生变量**,所以满足CLRM假设,上述**偏相关分析模型**可以直接使用OLS方法而得到**BLUE**。**偏相关分析模型**可以用于检验 `\(Y_{2i}\)`与 `\(Z_{2i}\)`是否相关,也即检验: `\(H_0:\pi_2=0; \quad H_1:\pi_2 \neq 0\)`。具体可以采用通常的**t检验**方法。 **提问1**:我们能不能检验 `\(Z_{2i}\)`与 `\(u_i\)`相关?能不能检验 `\(Z_{1i}\)`与 `\(u_i\)`相关? **提问2**:还能不能构造别的**简约方程**? --- ## 两阶段最小二乘法(2SLS) `$$\begin {align} \log (wage) & = \beta_{1}+\beta_{2} educ+\lambda_{1} exper+u_{i} \\ Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i}+u_{i} \\ \end {align}$$` 第一阶段OLS回归:对约简方程进行回归。 `$$\begin {align} Y_{2i} & =\pi_{0}+\pi_{1} Z_{1i}+\pi_{2} Z_{2i}+v_{i} && \leftarrow \left[ \pi_2 \neq 0 \right]\\ \hat{Y}_{2i} & =\pi_{0}+\pi_{1} Z_{1i}+\pi_{2} Z_{2i} \end {align}$$` 第二阶段OLS回归:基于估计值进行回归。 `$$\begin {align} Y_{1i} & =\alpha_{0}+\alpha_{1} Z_{1i}+\beta_{2} \hat{Y}_{2i}+\epsilon_{i} \end {align}$$` --- ## 已婚女性的教育回报案例 我们继续对已婚女性的教育回报案例进行分析讨论。 --- ## 原始数据
--- ## 偏误OLS回归:精炼报告 如果认为工作经历 `\(exper\)`是**外生变量**变量;且认为已婚女性的受教育年数 `\(educ\)`为**内生变量**。直接构建如下的**“偏误模型”**,并坚持采用OLS方法,估计结果为: `$$\begin{equation} \begin{alignedat}{999} &log(wage)=&& + \beta_{1} && + \beta_{2} educ&& + \beta_{3} exper&& + \beta_{4} I(exper^2)&&+u_i\\ \end{alignedat} \end{equation}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(wage)}=&&-0.52&&+0.11educ&&+0.04exper&&-0.00I(exper^2)\\ &\text{(t)}&&(-2.6282)&&(7.5983)&&(3.1549)&&(-2.0628)\\&\text{(se)}&&(0.1986)&&(0.0141)&&(0.0132)&&(0.0004)\\&\text{(fitness)}&& R^2=0.1568;&& \bar{R^2}=0.1509\\& && F^{\ast}=26.29;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ## 偏误OLS回归:EViews报告 下面给出EViews软件分析报告: <img src="../pic/chpt11-mroz2-eq-ols.png" width="564" style="display: block; margin: auto;" /> --- ## 两阶段回归法(2SLS):第一阶段 假设**父亲受教育年数** `\(fatheduc\)`和**母亲受教育年数** `\(motheduc\)`都是已婚女性**受教育年数** `\(educ\)`的理想**工具变量**。 采用工具变量法的对如下**约简方程**: `$$\begin{equation} \begin{alignedat}{999} &educ=&& + \pi_{1} && + \pi_{2} exper&& + \pi_{3} exper^2&&+ \pi_{4} fatheduc&& + \pi_{5} motheduc&&+v_i\\ \end{alignedat} \end{equation}$$` 对以上**约简方程**进行第一阶段OLS回归,估计结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{educ}=&&+9.10&&+0.05exper&&-0.00I(exper^2)&&+0.19fatheduc&&+0.16motheduc\\ &\text{(t)}&&(21.3396)&&(1.1236)&&(-0.8386)&&(5.6152)&&(4.3906)\\&\text{(se)}&&(0.4266)&&(0.0403)&&(0.0012)&&(0.0338)&&(0.0359)\\&\text{(fitness)}&& R^2=0.2115;&& \bar{R^2}=0.2040\\& && F^{\ast}=28.36;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ## 两阶段回归法(2SLS):第二阶段 利用前述第一阶段回归得到的 `\(\widehat{educ}\)`以及原来的**外生变量** `\(exper\)`,我们可以构建如下的第二阶段回归模型: `$$\begin {align} log(wage) & =\alpha_{1}+\alpha_{2} exper_{i}+\alpha_{3} exper_{i}^2 +\beta_{1} \widehat{educ}_{i}+\epsilon_{i} \end {align}$$` 采用OLS方法对以上模型进行估计,得到如下结果: `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(wage)}=&&+0.05&&+0.06educ.hat&&+0.04exper&&-0.00I(exper^2)\\ &\text{(t)}&&(0.1146)&&(1.8626)&&(3.1361)&&(-2.1344)\\&\text{(se)}&&(0.4198)&&(0.0330)&&(0.0141)&&(0.0004)\\&\text{(fitness)}&& R^2=0.0498;&& \bar{R^2}=0.0431\\& && F^{\ast}=7.40;&& p=0.0001 \end{alignedat} \end{equation}$$` --- ### 两阶段最小二乘法(2SLS,不调整方差):EViews实现 EViews软件的具体设置为: <img src="../pic/chpt11-mroz2-eq-2sls-specif.png" width="634" style="display: block; margin: auto;" /> --- ### 两阶段最小二乘法(2SLS,不调整方差):EViews结果 EViews软件的分析结果: <img src="../pic/chpt11-mroz2-eq-2sls.png" width="530" style="display: block; margin: auto;" /> --- ### 两阶段最小二乘法(2SLS,怀特矫正):EViews实现 EViews软件设置: <img src="../pic/chpt11-mroz2-eq-2sls-adj-specif.png" width="634" style="display: block; margin: auto;" /> --- ### 两阶段最小二乘法(2SLS,怀特矫正):EViews结果 EViews软件分析结果: <img src="../pic/chpt11-mroz2-eq-2sls-adj.png" width="536" style="display: block; margin: auto;" /> --- layout:false class: center, middle, duke-softblue,hide_logo name: discuss # 11.4 工具变量法的一些讨论 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第11章 内生自变量问题 </a>                             <a href="#discuss">11.4 工具变量法的一些讨论</a> </span></div> --- ## 工具变量法回归中的判定系数 1. 与OLS中的怙况不同,由于IV的SSR实际上可能大亍SST。所以IV估计中的 `\(R^2\)`可能为负。尽管报告IV估计的 `\(R^2\)`也不会有什么害处,但也不是很有用。 -- 2. 当自变量 `\(X_i\)`与随机干扰项 `\(v_i\)`**相关**时,因变量 `\(Y_i\)`的方差分解成 `\(\lambda_2^2var(X_i) + var(v_i)\)`,因此**判定系数** `\(R^2\)`没有合理的解释。进一步地,工具变量回归下 `\(R^2\)`也**不能**用于联合约束的**F检验**。 -- 3. 如果目标是为了得到最大的 `\(R^2\)`,我们将总是使用**OLS**。如果采用工具变量法(IV),拟合优度 `\(R^2\)`已经不是其考虑的方面了。 -- 4. **两阶段最小二乘法**(2SLS)是GLS方法的一种,它是需要利用额外的信息(工具变量)。很多时候2SLS还需要考虑对**系数方差矩阵**的矫正——**怀特矫正**(White方法)或**HAC矫正**(Neway-West方法)。 --- ## 低劣工具变量条件下IV的性质 `$$\begin {align} Y_i & = \beta_{1}+\beta_{2}X_i+u_i \\ Y_i & = \alpha_{1}+\alpha_{2}Z_i+v_i \end {align}$$` 最小二乘法(OLS)估计下: `$$\begin {align} \hat{\beta}_2|_{OLS}^{plim} & = {\beta}_2 +corr(u_i, X_i) \cdot \frac{\sigma_{u_i}}{\sigma_{X_i}} \end {align}$$` 工具变量法(IV)估计下: `$$\begin {align} \hat{\alpha}_2|_{IV}^{plim} & = {\alpha}_2 +\frac{corr(Z_i, v_i)}{corr(Z_i, X_i)} \cdot \frac{\sigma_{v_i}}{\sigma_{X_i}} \end {align}$$` - 如果 `\(corr(Z_i,X_i)=0.2\)`,要使得IV比OLS具有更小的渐近偏误, `\(corr(Z_i,v_i)\)`必须小于 `\(corr(X_i,u_i)\)`的1/5. --- layout:false class: center, middle, duke-softblue,hide_logo name: endogeneity-test # 11.5 解释变量的内生性检验 ## (豪斯曼检验) --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第11章 内生自变量问题 </a>                             <a href="#endogeneity-test">11.5 解释变量的内生性检验(豪斯曼检验)</a> </span></div> --- ## 内生性检验的内容 **工具变量**(instrument variable)具备如下**两个性质**: `$$\begin{align} Cov(Z_i, u_i) & = 0 && \text{(instrumental exogeneity)}\\ Cov(Z_i, X_i) & \neq 0 && \text{(instrumental relevance)} \end{align}$$` 我们先来检验**第二个**条件:一个变量 `\(X_i\)`是否真的是**内生性**的? > 因为 `\(u_i\)`不能直接观测得到,所以第一个条件的检验往往不是很直接。 --- ## 豪斯曼检验:偏误模型和2SLS 给定如下的**“偏误回归模型”**: `$$\begin {align} Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i} +\lambda_{2} Z_{2i}+u_{i} && \text{(stucture eq.)} \end {align}$$` - 仅有1个疑似**内生变量** `\(Y_{2i}\)`;2个**外生变量** `\(Z_{1i};Z_{2i}\)`。 - 假定已经找到了变量 `\(Y_{2i}\)`的两个理想**工具变量** `\(Z_{3i};Z_{4i}\)`。 我们可以利用**两阶段最小二乘法**(2SLS)方法进行估计: `$$\begin{align} Y_{2i} &= \pi_{0} + \pi_{1}Z_{1i} + \pi_{2}Z_{2i} + \pi_{3}Z_{3i} + \pi_{4}Z_{4i} +v_i && \text{( 1st eq. / reduce eq. )} \\ Y_{1i} & =\alpha_{1}+\alpha_{2} \hat{Y}_{2i}+\gamma_{1} Z_{1i} +\gamma_{2} Z_{2i} + \epsilon_i && \text{( 2st eq. )} \end{align}$$` --- ## 豪斯曼检验:基本思想 **豪斯曼检验**(Hausman Test)的基本思想是: - 如果疑似**内生变量** `\(Y_{2i}\)`与随机干扰项 `\(u_i\)`**不相关**。那么以上模型符合**CLRM假设**,就可以直接使用**OLS估计**。而且使用OLS估计和使用**2SLS估计**结果应该是**一致的**(why?)。 - 如果疑似**内生变量** `\(Y_{2i}\)`与随机干扰项 `\(u_i\)`**相关**。那么使用OLS估计和使用**2SLS估计**结果应该是有**差异的**(why?)。 - 如果有差异,将表明 `\(Y_{2i}\)`必定是**内生的**(其中 `\(Z_{ki} \quad (k \in 1, 2, 3, 4)\)`仍旧保持**外生的**)。而且,理论上可以证明 `\(Z_{ki} \quad (k \in 1, 2, 3, 4)\)`与 `\(u_i\)`不相关的**充要条件**是 `\(v_i\)`与 `\(u_i\)`不相关,也即: > 若 `\(cov(u_i,v_i)=0\)`,则 `\(cov(Z_{ki},u_i)=0 \quad (k \in 1, 2, 3, 4)\)`。 --- ## 豪斯曼检验:分析模型 为了证实上述观点,**豪斯曼**(Hausman)提出构建如下的回归模型,并检验 `\(H_0: \delta=0; H_1:\delta \neq 0\)`。 `$$\begin{align} u_i & = \delta v_i + \varepsilon_i && \leftarrow [cov(v_i, \varepsilon_i)=0; E(\varepsilon_i)=0] \end{align}$$` `$$\begin{align} Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i} +\lambda_{2} Z_{2i}+\delta v_{i} + \epsilon_i \\ & \leftarrow \left[ v_i = Y_{2i}- \pi_{0} - \pi_{1}Z_{1i} - \pi_{2}Z_{2i} + \pi_{3}Z_{3i} - \pi_{4}Z_{4i} = Y_{2i}- E({Y}_{2i}) \right ] \end{align}$$` 因为 `\(v_i\)`不能观测得到,实际上使用的是**约简方程**的残差 `\(\hat{v}_i\)`,最终估计如下的**豪斯曼检验方程**: `$$\begin{align} Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i} +\lambda_{2} Z_{2i}+\delta \hat{v}_{i} + \varepsilon_i \\ &\leftarrow \left[ \hat{v}_i = Y_{2i}- \hat{\pi}_{0} - \hat{\pi}_{1}Z_{1i} - \hat{\pi}_{2}Z_{2i} + \hat{\pi}_{3}Z_{3i} - \hat{\pi}_{4}Z_{4i} = Y_{2i}- \hat{Y}_{2i} \right ] \end{align}$$` --- ## 豪斯曼检验:操作过程 **步骤1**:明确**外生变量**( `\(Z_{1i},Z_{2i}\)`);**疑似内生变量**( `\(Y_{2i}\)`)及其**工具变量**( `\(Z_{3i};Z_{4i}\)`): `$$\begin {align} Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i} +\lambda_{2} Z_{2i}+u_{i} && \text{(stucture eq.)} \\ Y_{2i} &= \pi_{0} + \pi_{1}Z_{1i} + \pi_{2}Z_{2i} + \pi_{3}Z_{3i} + \pi_{4}Z_{4i} +v_i && \text{( 1st eq. / reduce eq. )} \\ Y_{1i} & =\alpha_{1}+\alpha_{2} \hat{Y}_{2i}+\gamma_{1} Z_{1i} +\gamma_{2} Z_{2i} + \epsilon_i && \text{( 2st eq. )} \end {align}$$` **步骤2**:采用**OLS方法**估计**约简方程**并得到残差 `\(\hat{v}_i\)`: `$$\begin{align} \hat{v}_i = Y_{2i}- \hat{\pi}_{0} - \hat{\pi}_{1}Z_{1i} - \hat{\pi}_{2}Z_{2i} + \hat{\pi}_{3}Z_{3i} - \hat{\pi}_{4}Z_{4i} = Y_{2i}- \hat{Y}_{2i} \end{align}$$` --- ## 豪斯曼检验:操作过程 **步骤3**:采用**OLS方法**估计**豪斯曼检验方程**: `$$\begin{align} Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i} +\lambda_{2} Z_{2i}+\delta \hat{v}_{i} + \varepsilon_i \end{align}$$` **步骤4**:做出判断并得到**内生性检验**的结论: 给出检验假设: `\(H_0: \delta=0; H_1:\delta \neq 0\)`。在给定置信水平 `\(\alpha\)`,对**豪斯曼检验方程**中的 `\(\delta\)`进行t检验(需要进行**异方差矫正**): - 如果t检验**显著**,则拒绝原假设 `\(H_0\)`,表明 `\(Y_{2i}\)`是**内生的**。 - 如果t检验结果**不显著**,则不能拒绝原假设 `\(H_0\)`,表明 `\(Y_{2i}\)`是**外生的**。 --- ## 已婚女性的教育回报案例 我们继续对已婚女性的教育回报案例进行分析讨论。 --- ## 案例:明确变量和模型 如果认为工作经历 `\(exper\)`是**明确外生变量**。认为已婚女性的受教育年数 `\(educ\)`为**疑似内生变量**,如果找到它的2个**工具变量**分别为母亲受教育年数 `\(motheduc\)`和父亲受教育年数 `\(fatheduc\)`: `$$\begin {align} log(wage_i) & =\beta_1+\beta_2 educ_i+\lambda_1 exper_i +\lambda_{2} exper^2_i+u_{i} && \text{(stucture eq.)} \\ educ_i &= \pi_{0} + \pi_{1}exper_i + \pi_{2}exper^2_i && \\ &+ \pi_{3}motheduc_{i} + \pi_{4}fatheduc_{i} +v_i && \text{( 1st eq. / reduce eq. )} \\ log(wage_i) & =\alpha_{1}+\alpha_{2} \widehat{educ}_i+\gamma_{1} exper_i +\gamma_{2} exper^2_i+ \epsilon_i && \text{( 2st eq. )} \end {align}$$` --- ## 案例:估计简约方程 采用**OLS方法**估计**约简方程**并得到残差 `\(\hat{v}_i\)`: `$$\begin{align} \hat{v}_i = Y_{2i}- \hat{\pi}_{0} - \hat{\pi}_{1}Z_{1i} - \hat{\pi}_{2}Z_{2i} + \hat{\pi}_{3}Z_{3i} - \hat{\pi}_{4}Z_{4i} = Y_{2i}- \hat{Y}_{2i} \end{align}$$` 对以上**约简方程**进行OLS回归,估计结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{educ}=&&+9.10&&+0.05exper&&-0.00I(exper^2)&&+0.19fatheduc&&+0.16motheduc\\ &\text{(t)}&&(21.3396)&&(1.1236)&&(-0.8386)&&(5.6152)&&(4.3906)\\&\text{(se)}&&(0.4266)&&(0.0403)&&(0.0012)&&(0.0338)&&(0.0359)\\&\text{(fitness)}&& R^2=0.2115;&& \bar{R^2}=0.2040\\& && F^{\ast}=28.36;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ## 案例:估计简约方程的残差数据
--- ## 案例:估计豪斯曼检验方程 为了检验 `\(educ_i\)`是否为**内生变量**,构建如下**豪斯曼检验模型**: `$$\begin{align} log(wage_i) & =\beta_{1}+\beta_{2} educ_i+\lambda_{1} exper_i +\lambda_{2} exper^2_i+\delta \hat{v}_{i} + \varepsilon_i \end{align}$$` 对以上**豪斯曼检验方程**进行OLS回归,估计结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(wage)}=&&+0.05&&+0.06educ&&+0.04exper&&-0.00I(exper^2)&&+0.06vi.hat\\ &\text{(t)}&&(0.1219)&&(1.9815)&&(3.3363)&&(-2.2706)&&(1.6711)\\&\text{(se)}&&(0.3946)&&(0.0310)&&(0.0132)&&(0.0004)&&(0.0348)\\&\text{(fitness)}&& R^2=0.1624;&& \bar{R^2}=0.1544\\& && F^{\ast}=20.50;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ## 案例:得出豪斯曼检验结论 可以看到 `\(\hat{v}_i\)`(也即`vi.hat`)前的系数 `\(\delta\)`对应的t样本统计量值为`1.6711`。 - 若给定置信水平 `\(\alpha=0.05\)`,查t表可知 `\(t_{1-\alpha/2}(n-k)=t_{0.975}(428-5)=\)` 1.9656。因此 `\(t^{\ast} < t_{1-\alpha/2}(n-k)\)`,不能拒绝原假设 `\(H_0\)`,认为模型中的 `\(educ\)`是**外生的**。 - 若给定置信水平 `\(\alpha=0.1\)`,查t表可知 `\(t_{1-\alpha/2}(n-k)=t_{0.95}(428-5)=\)` 1.6485。因此 `\(t^{\ast} > t_{1-\alpha/2}(n-k)\)`,则拒绝原假设 `\(H_0\)`,接受备择假设 `\(H_1\)`,认为模型中的 `\(educ\)`是**内生的**。 - 你如何看待以上的结论? --- ### 案例:豪斯曼检验EViews操作1 <img src="../pic/chpt11-mroz2-hausman-step.png" width="546" style="display: block; margin: auto;" /> --- ### 案例:豪斯曼检验EViews操作2 <img src="../pic/chpt11-mroz2-hausman-step2.png" width="548" style="display: block; margin: auto;" /> --- ### 案例:豪斯曼检验EViews结果 <img src="../pic/chpt11-mroz2-hausman-test.png" width="623" style="display: block; margin: auto;" /> --- layout:false class: center, middle, duke-softblue,hide_logo name: exogeneity-test # 11.6 工具变量的外生性检验 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第11章 内生自变量问题 </a>                             <a href="#exogeneity-test">11.6 工具变量的外生性检验 </a></span></div> --- ## 外生性检验的内容 **工具变量**(instrument variable)具备如下**两个性质**: `$$\begin{align} Cov(Z_i, u_i) & = 0 && \text{(instrumental exogeneity)}\\ Cov(Z_i, X_i) & \neq 0 && \text{(instrumental relevance)} \end{align}$$` 我们现在来检验**第一个**条件:工具变量 `\(Z_i\)`是否真的是**外生性**的? - 因为 `\(u_i\)`不能直接观测得到,所以第一个条件的检验往往不是很直接。 - 如果只有一个**工具变量**,第一个条件往往不能检验。(为什么?) --- ## 外生性检验:基本思路 考虑如下**分析情形**:有明确的**外生变量**( `\(Z_{1i},Z_{2i}\)`);有**疑似内生变量**( `\(Y_{2i}\)`)及其2个**工具变量**( `\(Z_{3i};Z_{4i}\)`)。考虑如下的一个**偏误模型**(结构模型): `$$\begin {align} Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i} +\lambda_{2} Z_{2i}+u_{i} && \text{(stucture eq.)} \end {align}$$` - 仅利用工具变量 `\(Z_{3i}\)`时的**2SLS**分析为: `$$\begin {align} Y_{2i} &= \acute{\pi}_{0} + \acute{\pi}_{1}Z_{1i} + \acute{\pi}_{2}Z_{2i} + \acute{\pi}_{3}Z_{3i} +\acute{v}_i && \text{( 1st eq. / reduce eq. )} \\ Y_{1i} & =\acute{\alpha}_{1}+\acute{\alpha}_{2} \acute{\hat{Y}}_{2i}+\acute{\gamma}_{1} Z_{1i} +\acute{\gamma}_{2} Z_{2i} + \acute{\epsilon}_i && \text{( 2st eq. )} \end {align}$$` - 仅利用工具变量 `\(Z_{4i}\)`时的**2SLS**分析为: `$$\begin {align} Y_{2i} &= \grave{\pi}_{0} + \grave{\pi}_{1}Z_{1i} + \grave{\pi}_{2}Z_{2i} + \grave{\pi}_{4}Z_{4i} +\grave{v}_i && \text{( 1st eq. / reduce eq. )} \\ Y_{1i} & =\grave{\alpha}_{1}+\grave{\alpha}_{2} \grave{\hat{Y}}_{2i}+\grave{\gamma}_{1} Z_{1i} +\grave{\gamma}_{2} Z_{2i} + \grave{\epsilon}_i && \text{( 2st eq. )} \end {align}$$` --- ## 外生性检验:基本思路 - 如果:所有的 `\(Z_{ki} \quad (k \in 1, 2, 3, 4)\)`都是**外生的**;而且**疑似内生变量**( `\(Y_i\)`)确实与变量 `\(Z_{3i},Z_{4i}\)`部分相关。 - 那么:两次**2SLS**估计得到的 `\(\acute{\alpha}_2\)`和 `\(\grave{\alpha}_2\)`就都是真值 `\(\alpha_2\)`的**一致估计量**。 - 因此:我们可以基于这两个估计量的差( `\(\acute{\alpha}_2-\grave{\alpha}_2\)`)来检验 `\(Z_{3i}\)`和 `\(Z_{4i}\)`是否都是**外生的**。——但是我们**很难区分**是哪一个或全部两个都是外生的? - 然而:假设我们选择工具变量( `\(Z_{3i},Z_{4i}\)`)的逻辑是相同的,如果一个**不是外生的**,那么另一个往往也**不是外生的**。 --- ## 外生性检验:操作过程 **步骤1**:用两阶段法估计**结构方程**(使用2个工具变量),获得2SLS的残差 `\(\hat{u}_i\)`: `$$\begin {align} Y_{1i} & =\beta_{1}+\beta_{2} Y_{2i}+\lambda_{1} Z_{1i} +\lambda_{2} Z_{2i}+u_{i} && \text{(stucture eq.)} \\ Y_{2i} &= \pi_{0} + \pi_{1}Z_{1i} + \pi_{2}Z_{2i} + \pi_{3}Z_{3i} + \pi_{4}Z_{4i} +v_i && \text{( 1st eq. / reduce eq. )} \\ Y_{1i} & =\alpha_{1}+\alpha_{2} \hat{Y}_{2i}+\gamma_{1} Z_{1i} +\gamma_{2} Z_{2i} + \epsilon_i && \text{( 2st eq. )} \end {align}$$` **步骤2**:构建外生性检验模型。将残差 `\(\hat{u}_i\)`对所有外生变量进行回归,并获得判定系数 `\(R^2\)`。 `$$\begin{align} \hat{u}_{i} & =\lambda_{0}+\lambda_{1} Z_{1i} +\lambda_{2} Z_{2i}+\lambda_{3} Z_{3i} +\lambda_{4} Z_{4i} + \varepsilon_i \end{align}$$` --- ## 外生性检验:操作过程 **步骤3**:构建**卡方统计量**,根据原假设( `\(H_0:\)`全部工具变量都是**外生的**)/备择假设( `\(H_1:\)`部分工具变量不是**外生的**),做出判断并得到假设检验结论。 `$$\begin{align} {\chi^2}^\ast & = nR^2 \simeq \chi^2(q) && \leftarrow [q =(n_{iv} -n_{env})] \end{align}$$` - 卡方分布的自由度为 `\(q =(n_{iv} -n_{env})\)`,其中 `\(n_{iv}\)`指**工具变量**的个数(也即 `\((mothedu_i,fatheduc_i)\)`), `\(n_{env}\)`指**内生变量**的个数(也即 `\(edu_i\)`)——(不包括结构模型中的因变量 `\(log(wage_i)\)`)。 - 如果卡方统计量值**大于**查表值,也即 `\({\chi^2}^\ast > \chi^2_{1-\alpha}(q)\)`,则拒绝原假设 `\(H_0\)`,接收备择假设 `\(H_1\)`,表明**至少**部分工具变量**不是外生的**。 - 如果卡方统计量值**小于**查表值,也即 `\({\chi^2}^\ast < \chi^2_{1-\alpha}(q)\)`,则接受原假设 `\(H_0\)`,表明**全部**工具变量**是外生的**。 --- ## 已婚女性的教育回报案例 我们继续对已婚女性的教育回报案例进行**外生性检验**的分析讨论。 --- ## 案例:明确变量和模型 如果认为工作经历 `\(exper\)`是**明确外生变量**。认为已婚女性的受教育年数 `\(educ\)`为**疑似内生变量**,如果找到它的2个**工具变量**分别为母亲受教育年数 `\(motheduc\)`和父亲受教育年数 `\(fatheduc\)`: `$$\begin {align} log(wage_i) & =\beta_1+\beta_2 educ_i+\lambda_1 exper_i +\lambda_{2} exper^2_i+u_{i} && \text{(stucture eq.)} \\ educ_i &= \pi_{0} + \pi_{1}exper_i + \pi_{2}exper^2_i && \\ &+ \pi_{3}motheduc_{i} + \pi_{4}fatheduc_{i} +v_i && \text{( 1st eq. / reduce eq. )} \\ log(wage_i) & =\alpha_{1}+\alpha_{2} \widehat{educ}_i+\gamma_{1} exper_i +\gamma_{2} exper^2_i && \text{( 2st eq. )} \end {align}$$` --- ## 案例:两阶段最小二乘法估计(2SLS) 采用**2SLS方法**估计前述**结构方程**并得到残差 `\(\hat{u}_i\)`,`R软件`估计结果为: .scroll-box-16[ ``` Call: ivreg(formula = log(wage) ~ educ + exper + I(exper^2) | exper + I(exper^2) + fatheduc + motheduc, data = mroz) Residuals: Min 1Q Median 3Q Max -3.0986 -0.3196 0.0551 0.3689 2.3493 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.0481003 0.4003281 0.120 0.90442 educ 0.0613966 0.0314367 1.953 0.05147 . exper 0.0441704 0.0134325 3.288 0.00109 ** I(exper^2) -0.0008990 0.0004017 -2.238 0.02574 * --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.6747 on 424 degrees of freedom Multiple R-Squared: 0.1357, Adjusted R-squared: 0.1296 Wald test: 8.141 on 3 and 424 DF, p-value: 2.787e-05 ``` ] --- ## 案例:2SLS的残差数据
--- ## 案例:构建外生性检验模型 将残差 `\(\hat{u}_i\)`对所有外生变量进行回归,并获得判定系数 `\(R^2\)`。 `$$\begin{align} \hat{u}_{i} & =\lambda_{0}+\lambda_{1} exper_i +\lambda_{2} exper^2_i+\lambda_{3} montheduc_i +\lambda_{4} fatheduc_i + \varepsilon_i \end{align}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{ui.hat}=&&+0.01&&-0.00exper&&+0.00I(exper^2)\\ &\text{(t)}&&(0.0776)&&(-0.0014)&&(0.0018)\\&\text{(se)}&&(0.1413)&&(0.0133)&&(0.0004)\\&\text{(cont.)}&&-0.01motheduc&&+0.01fatheduc\\&\text{(t)}&&(-0.5558)&&(0.5173)\\&\text{(se)}&&(0.0119)&&(0.0112)\\&\text{(fitness)}&& R^2=0.0009;&& \bar{R^2}=-0.0086\\& && F^{\ast}=0.09;&& p=0.9845\\ \end{alignedat} \end{equation}$$` --- ## 案例:外生性检验验结论 - 原假设( `\(H_0:\)`全部工具变量都是**外生的**)/备择假设( `\(H_1:\)`部分工具变量不是**外生的**). - 构建并计算**卡方统计量**。容易发现,判定系数 `\(R^2=\)` 0.0009。可以计算得到样本卡方统计量为 `\({\chi^2}^\ast= nR^2=\)` 0.3781。 - 查卡方分布。容易计算出卡方分布的自由度为: `\(q =(n_{iv} -n_{env})=\)` 1,其中 `\(n_{iv}=\)` 2(**工具变量**的个数,也即 `\((mothedu_i,fatheduc_i)\)`。 `\(n_{env}=\)` 1(**内生变量**的个数,也即 `\(edu_i\)`)。若给定置信水平 `\(\alpha=0.05\)`,查卡方分布表可知 `\(\chi^2_{1-\alpha}(q)=\chi^2_{0.95}(1)=\)` 3.8415。 - 给出假设检验结论。因为 `\({\chi^2}^{\ast} < \chi^2_{1-\alpha}(q)\)`,不能拒绝原假设 `\(H_0\)`,认为模型中的工具变量 `\((motheduc_i,fatheduc_i)\)`都是**外生的**。 --- ### 案例:工具外生性检验EViews操作1 <img src="../pic/chpt11-mroz2-exo-test-step1.png" width="566" style="display: block; margin: auto;" /> --- ### 案例工具外生性检验EViews操作2 <img src="../pic/chpt11-mroz2-exo-test-step2.png" width="529" style="display: block; margin: auto;" /> --- ### 案例:工具外生性检验EViews结果 <img src="../pic/chpt11-mroz2-exo-test-result.png" width="623" style="display: block; margin: auto;" /> --- layout: false background-image: url("../pic/thank-you-gif-funny-little-yellow.gif") class: inverse,center # 本章结束