background-image: url("../pic/slide-front-page.jpg") class: center,middle # 计量经济学(Econometrics) ### 胡华平 ### 西北农林科技大学 ### 经济管理学院数量经济教研室 ### huhuaping01@hotmail.com ### 2023-02-15
--- class: center, middle, duke-orange,hide_logo name: chapter06a # 第06章 多元回归I:代数部分 .red[ [6.1 估计问题](#estimation) [6.2 推断问题](#inference) [6.3 受约束的最小二乘法](#restricted-reg) [6.4 检验回归模型的结构或稳定性](#structure-break) ] --- layout: false class: center, middle, duke-softblue,hide_logo name: estimation # 6.1 多元回归分析:估计问题 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter06a">第06章 多元回归I:代数部分</a>                             <a href="#inference">6.1 多元回归分析:估计问题</a></span></div> --- ## 三变量模型:符号与假定 三变量的PRM和PRF为: `$$\begin {align} Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} \\ E\left(Y_{i} | X_{2 i}, X_{3 i}\right)=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i} \end {align}$$` 多元回归分析是以多个解释变量的固定值为条件的回归分析。 我们所获得的,是各个自变量X值固定时,Y的平均值或Y的平均响应(mean response)。 - `\(\beta_1\)`:截距项 - `\(u_i\)`:表示所有未包含到模型中来的变量对Y的平均影响。 - `\(\beta_2,\beta_3\)`:偏回归系数(partial regression coefficients) - `\(i\)`:指第i次观测,当数据为时间序列时用t表示; --- ## 三变量模型:CLRM假设 **CLRM假设1-1**:模型是正确设置的。(这里大有学问,也是一切计量分析问题的根本来源) **CLRM假设1-2**:模型应该是参数线性的。也即模型中**参数**必须线性,变量可以不是线性 `$$\begin {align} Y_{i}=\beta_1+ \beta_{2} X_{2i}+ \beta_{3} X_{3i}+u_{i} \end {align}$$` --- ## 三变量模型:CLRM假设 **CLRM假设2-1**:X是固定的(给定的)或独立于误差项。也即自变量X**不是**随机变量。 `$$\begin{align} Cov(X_{2i}, u_i)= Cov(X_{3i}, u_i)= 0, \quad i=1,2, \ldots, n \\ E(X_i, u_i)= 0 \end{align}$$` **CLRM假设2-2**:X变量间不存在**完全共线性** --- ## 三变量模型:CLRM假设 **CLRM假设3-1**:假设随机干扰项均值为零。也即给定 `\(X_i\)`的情形下,假定随机干扰项 `\(u_i\)`的**条件期望**为零。 `$$\begin{align} E(u|X_{2i},X_{3i})= 0 \end{align}$$` **CLRM假设3-2**:随机干扰项的方差为同方差。也即给定 `\(X_i\)`的情形下,随机干扰项 `\(u_i\)`的方差,处处都是相等的。记为: `$$\begin{align} Var\left(u_i|(X_{2i},X_{3i}) \right) & = E \left[ \left( u_i -E(u_i) \right)^2|(X_{2i},X_{3i}) \right] \\ & = E(u_i^2|X_i) = E(u_i^2) \equiv \sigma^2 \end{align}$$` --- ## 三变量模型:CLRM假设 **CLRM假设3-3**:各个随机干扰之间无自相关。也即给定两个不同的自变量取值( `\(X_i,X_j;i \neq j\)`)情形下,随机干扰项 `\(u_i,u_j\)`的相关系数为0。或者说 `\(u_i,u_j\)`最好是相互独立的。记为: 在 `\(X_i\)`为给定情形下,且 `\(i,j \in (1, 2, \cdots, n); i \neq j\)`,假定: `$$\begin{align} Cov(u_i, u_j|X_i,X_j) & = E \left[ \left( u_i -E(u_i) \right)\left( u_j -E(u_j) \right) \right] \\ & = E(u_iu_j) \\ & \equiv 0 \end{align}$$` --- ## 对多元回归方程的解释 三变量的PRM和PRF为: `$$\begin {align} Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} \\ E\left(Y_{i} | X_{2 i}, X_{3 i}\right)=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i} \end {align}$$` 多元回归分析是以多个解释变量的固定值为条件的回归分析。 我们所获得的,是各个自变量X值固定时,Y的平均值或Y的平均响应(mean response)。偏回归系数的含义: - `\(\beta_2\)`度量着在保持 `\(X_{3i}\)`不变的情况下, `\(X_{2i}\)`每变化1个单位时,Y的均值的变化。换一句话说, 给出 `\(X_{2i}\)`的单位变化对Y均值的“直接”或“净”影响(净在不染有 `\(X_{3i}\)`的影响)。 - `\(\beta_3\)`则给出了 `\(X_{3i}\)`的单位变化对Y均值 `\(E(Y)\)`的“直接”或“净”影响,净在不沾有 `\(X_{2i}\)`的影响。 --- ### 儿童死亡率案例:数据 研究关注儿童死亡率(`CM`,千分数)与人均GNP(`PGNP`,1980年的人均GNP)和妇女识字率(`FLR`,百分数)的关系,并构建如下PRM: `$$\begin{equation} \begin{alignedat}{999} &CM=&& + \beta_{1} && + \beta_{2} PGNP&& + \beta_{3} FLR&&+u_i\\ \end{alignedat} \end{equation}$$`
--- ### 儿童死亡率案例:散点图 绘制散点图1: <img src="06-multiple-reg-algebra-slide_files/figure-html/unnamed-chunk-4-1.png" style="display: block; margin: auto;" /> --- ### 儿童死亡率案例:散点图 绘制散点图2: <img src="06-multiple-reg-algebra-slide_files/figure-html/unnamed-chunk-5-1.png" style="display: block; margin: auto;" /> --- ### 儿童死亡率案例:二元模型 儿童死亡率的二元回归模型如下: `$$\begin{equation} \begin{alignedat}{999} &CM=&& + \beta_{1} && + \beta_{2} PGNP&& + \beta_{3} FLR&&+u_i\\ \end{alignedat} \end{equation}$$` 以上二元回归模型的OLS估计结果如下: `$$\begin{equation} \begin{alignedat}{999} &\widehat{CM}=&&+263.64&&-0.01PGNP&&-2.23FLR\\ &\text{(t)}&&(22.7411)&&(-2.8187)&&(-10.6293)\\&\text{(se)}&&(11.5932)&&(0.0020)&&(0.2099)\\&\text{(fitness)}&& R^2=0.7077;&& \bar{R^2}=0.6981\\& && F^{\ast}=73.83;&& p=0.0000 \end{alignedat} \end{equation}$$` - 是如何分离出人均国民收入PNGP对CM的“真实”或净影响呢? - 是如何分离出妇女识字率FLR对CM的“真实”或净影响呢? --- ### 儿童死亡率案例:一元回归重现(PGNP纯影响) <img src="../pic/chpt6-children-mod-demo.png" width="713" style="display: block; margin: auto;" /> .pull-left[ **步骤1**:妇女识字率FLR对儿童死亡率CM的回归**模型1**: `$$\begin{equation} \begin{alignedat}{999} &CM=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} FLR&&+e_i\\ \end{alignedat} \end{equation}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{CM}=&&+263.86&&-2.39FLR\\ &\text{(t)}&&(21.5840)&&(-11.2092)\\&\text{(se)}&&(12.2250)&&(0.2133)\\&\text{(fitness)}&& R^2=0.6696;&& \bar{R^2}=0.6643\\& && F^{\ast}=125.65;&& p=0.0000 \end{alignedat} \end{equation}$$` ] .pull-right[ **步骤2**:妇女识字率FLR对人均国民收入PGNP的回归**模型2**: `$$\begin{equation} \begin{alignedat}{999} &PGNP=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} FLR&&+e_i\\ \end{alignedat} \end{equation}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{PGNP}=&&-39.30&&+28.14FLR\\ &\text{(t)}&&(-0.0535)&&(2.1950)\\&\text{(se)}&&(734.9526)&&(12.8211)\\&\text{(fitness)}&& R^2=0.0721;&& \bar{R^2}=0.0571\\& && F^{\ast}=4.82;&& p=0.0319 \end{alignedat} \end{equation}$$` ] --- ### 儿童死亡率案例:一元回归重现(PGNP纯影响) **步骤3**:分别得到两次一元线性回归的残差 `\(e_{1i}\)`(`resid1`)和 `\(e_{2i}\)`(`resid2`),然后进行**无截距**回归分析:
对两个残差序列进一步构造如下的**无截距**回归模型: `$$\begin{equation} \begin{alignedat}{999} &\widehat{resid1}=&&+\hat{\beta}_{1}resid2\\ \end{alignedat} \end{equation}$$` --- ### 儿童死亡率案例:一元回归重现(PGNP纯影响) <img src="../pic/chpt6-children-mod-demo.png" width="713" style="display: block; margin: auto;" /> .pull-left[ 残差模型将得到如下回归分析结果: `$$\begin{equation} \begin{alignedat}{999} &\widehat{resid1}=&&-0.01resid2\\ &\text{(t)}&&(-2.8645)\\&\text{(se)}&&(0.0020)\\&\text{(fitness)}&& R^2=0.1152;&& \bar{R^2}=0.1012\\& && F^{\ast}=8.21;&& p=0.0057 \end{alignedat} \end{equation}$$` ] .pull-right[ 对比原来的二元回归模型结果: `$$\begin{equation} \begin{alignedat}{999} &\widehat{CM}=&&+263.64&&-0.01PGNP&&-2.23FLR\\ &\text{(t)}&&(22.7411)&&(-2.8187)&&(-10.6293)\\&\text{(se)}&&(11.5932)&&(0.0020)&&(0.2099)\\&\text{(fitness)}&& R^2=0.7077;&& \bar{R^2}=0.6981\\& && F^{\ast}=73.83;&& p=0.0000 \end{alignedat} \end{equation}$$` ] --- ### 儿童死亡率案例:一元回归重现(FLR纯影响) <img src="../pic/chpt6-children-mod-demo.png" width="713" style="display: block; margin: auto;" /> .pull-left[ **步骤1**:人均国民收入PGNP对儿童死亡率CM的回归**模型3**: `$$\begin{equation} \begin{alignedat}{999} &CM=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} PGNP&&+e_i\\ \end{alignedat} \end{equation}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{CM}=&&+157.42&&-0.01PGNP\\ &\text{(t)}&&(15.9893)&&(-3.5157)\\&\text{(se)}&&(9.8456)&&(0.0032)\\&\text{(fitness)}&& R^2=0.1662;&& \bar{R^2}=0.1528\\& && F^{\ast}=12.36;&& p=0.0008 \end{alignedat} \end{equation}$$` ] .pull-right[ **步骤2**:人均国民收入PGNP对妇女识字率FLR的回归**模型4**: `$$\begin{equation} \begin{alignedat}{999} &FLR=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} PGNP&&+e_i\\ \end{alignedat} \end{equation}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{FLR}=&&+47.60&&+0.00PGNP\\ &\text{(t)}&&(13.3876)&&(2.1950)\\&\text{(se)}&&(3.5553)&&(0.0012)\\&\text{(fitness)}&& R^2=0.0721;&& \bar{R^2}=0.0571\\& && F^{\ast}=4.82;&& p=0.0319 \end{alignedat} \end{equation}$$` ] --- ### 儿童死亡率案例:一元回归重现(FLR纯影响) **步骤3**:分别得到两次一元线性回归的残差 `\(e_{3i}\)`(`resid3`)和 `\(e_{4i}\)`(`resid4`),然后进行**无截距**回归分析:
对两个残差序列进一步构造如下的**无截距**回归模型: `$$\begin{equation} \begin{alignedat}{999} &\widehat{resid3}=&&+\hat{\beta}_{1}resid4\\ \end{alignedat} \end{equation}$$` --- ### 儿童死亡率案例:一元回归重现(FLR纯影响) <img src="../pic/chpt6-children-mod-demo.png" width="713" style="display: block; margin: auto;" /> .pull-left[ 残差模型将得到如下回归分析结果: `$$\begin{equation} \begin{alignedat}{999} &\widehat{resid3}=&&-2.23resid4\\ &\text{(t)}&&(-10.8021)\\&\text{(se)}&&(0.2066)\\&\text{(fitness)}&& R^2=0.6494;&& \bar{R^2}=0.6438\\& && F^{\ast}=116.69;&& p=0.0000 \end{alignedat} \end{equation}$$` ] .pull-right[ 对比原来的二元回归模型结果: `$$\begin{equation} \begin{alignedat}{999} &\widehat{CM}=&&+263.64&&-0.01PGNP&&-2.23FLR\\ &\text{(t)}&&(22.7411)&&(-2.8187)&&(-10.6293)\\&\text{(se)}&&(11.5932)&&(0.0020)&&(0.2099)\\&\text{(fitness)}&& R^2=0.7077;&& \bar{R^2}=0.6981\\& && F^{\ast}=73.83;&& p=0.0000 \end{alignedat} \end{equation}$$` ] --- ## 偏回归系数的OLS估计:模型 样本回归函数SRF、样本回归模型SRM、样本回归函数的离差形式: `$$\begin {align} \hat{Y}_{i} &=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i} \\ Y_{i} &=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+e_{i} \\ \hat{y}_{i} &=\hat{\beta}_{2} x_{2 i}+\hat{\beta}_{3} x_{3 i} \end {align}$$` 总体回归函数PRF和总体回归模型PRM: `$$\begin {align} \mathrm{E}\left( Y_{i} | (X_{2 i}, X_{3 i} ) \right) & =\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i} \\ Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} \end {align}$$` --- ## 偏回归系数的OLS估计:OLS方法 `$$\begin {align} \begin{array}{c}{\mathrm{E}\left(Y_{i}\left|\left(X_{2 i}, X_{3 i}\right)=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}\right.\right.} \\ {Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i}}\end{array} \end {align}$$` `$$\begin {align} \frac{\partial \sum{e_i^2}} {\partial \hat{\beta}_{1}} & =2 \sum\left(Y_{i}-\hat{\beta}_{1}-\hat{\beta}_{2} X_{2 i}-\hat{\beta}_{3} X_{3 i}\right)(-1) =0 \\ \frac{\partial \sum{e_i^2}} {\partial \hat{\beta}_{2}} & =2 \sum\left(Y_{i}-\hat{\beta}_{1}-\hat{\beta}_{2} X_{2 i}-\hat{\beta}_{3} X_{3 i}\right)\left(-X_{2 i}\right) =0 \\ \frac{\partial \sum e_i^2} {\partial \hat{\beta}_{3}} & =2 \sum\left(Y_{i}-\hat{\beta}_{1}-\hat{\beta}_{2} X_{2 i}-\hat{\beta}_{3} X_{3 i}\right)\left(-X_{3 i}\right) =0 \end {align}$$` `$$\begin {align} \overline{Y} &=\hat{\beta}_{1}+\hat{\beta}_{2} \overline{X}_{2}+\hat{\beta}_{3} \overline{X}_{3} \\ \sum_{i} Y_{2 i} &=\hat{\beta}_{1} \sum X_{2 i}+\hat{\beta}_{2} \sum X_{2 i}^{2}+\hat{\beta}_{3} \sum X_{2 i} X_{3 i} \\ \sum Y_{i} X_{3 i} &=\hat{\beta}_{1} \sum X_{3 i}+\hat{\beta}_{2} \sum X_{2 i} X_{3 i}+\hat{\beta}_{3} \sum X_{3 i}^{2} \end {align}$$` --- ## 回归系数的OLS估计:回归系数 `$$\begin {align} \hat{\beta}_{1} &=\overline{Y}-\hat{\beta}_{2} \overline{X}_2-\hat{\beta}_{3} \overline{X}_{3} \\ \hat{\beta}_{2} &=\frac{\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \\ \hat{\beta}_{3} &=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i}^{2}\right)-\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \end {align}$$` **偏斜率系数** `\((\hat{\beta}_2,\hat{\beta}_3)\)`OLS估计量公式的特点: - 公式是**对称的**。通过对调 `\(x_{2i},x_{3i}\)`而得到另一个。 - 两个方程的分母完全相同。 - 三变量情形是双变量情形的自然而然的推广。 --- ## 回归系数的OLS估计:随机干扰项的方差 对于二元回归模型: `$$\begin {align} Y_{i} &=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} \end {align}$$` 在CLRM假设下, `\(var(u_i) \equiv \sigma^2\)`,可以证明其OLS估计量(证明略): .pull-left[ `$$\begin {align} \hat{\sigma}^{2}=\frac{\sum \mathrm{e}_{i}^{2}}{n-3} \end {align}$$` ] .pull-right[ `$$\begin {align} (n-3) \frac{\hat{\sigma}^{2}}{\sigma^{2}} \sim \chi^{2}(n-3) \end {align}$$` ] <!---其中:---> `$$\begin {align} \begin{aligned} \sum e_{i}^{2} &=\sum\left(e_{i} e_{i}\right) =\sum e_{i}\left(y_{i}-\hat{\beta}_{2} x_{2 i}-\hat{\beta}_{3} x_{3 i}\right) \\ &=\sum e_{i} y_{i} && \leftarrow \left[ \sum e_{i} x_{2 i}=\sum e_{i} x_{3 i}=0 \right] \\ &=\sum y_{i}\left(y_{i}-\hat{\beta}_{2} x_{2 i}-\hat{\beta}_{3} x_{3 i}\right) \\ &=\sum y_{i}^{2}-\hat{\beta}_{2} \sum y_{i} x_{2 i}-\hat{\beta}_{3} \sum y_{i} x_{3 i} \end{aligned} \end {align}$$` --- ## 回归系数的OLS估计:方差和标准差 `\(\hat{\beta}_1\)`的**真实方差**: `$$\begin {align} \operatorname{var}\left(\hat{\beta}_{1}\right) \equiv \sigma_{\hat{\beta}_1}^{2} =\left[\frac{1}{n}+\frac{\overline{X}_{2}^{2} \sum x_{3 i}^{2}+\overline{X}_{3}^{2} \sum x_{2 i}^{2}-2 \overline{X}_{2} \overline{X}_{3} \sum x_{2 i} x_{3 i}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}-\left(\sum x_{2 i} x_{3 i}\right)^{2}}\right] \cdot \sigma^{2} \end {align}$$` `\(\hat{\beta}_1\)`的**样本方差**: `$$\begin {align} S_{\hat{\beta}_1}^{2} =\left[\frac{1}{n}+\frac{\overline{X}_{2}^{2} \sum x_{3 i}^{2}+\overline{X}_{3}^{2} \sum x_{2 i}^{2}-2 \overline{X}_{2} \overline{X}_{3} \sum x_{2 i} x_{3 i}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}-\left(\sum x_{2 i} x_{3 i}\right)^{2}}\right] \cdot \hat{\sigma}^{2} \end {align}$$` --- ## 回归系数的OLS估计:方差和标准差 `\(\hat{\beta}_2\)`的**真实方差**: `$$\begin {align} \operatorname{var}\left(\hat{\beta}_{2}\right) &\equiv \sigma_{\hat{\beta}_{2}}^{2} =\frac{\sum x_{3 i}^{2}}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \sigma^{2} \\ & =\frac{\sigma^{2}}{\sum x_{2 i}^{2}\left(1-r_{23}^{2}\right)} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` `\(\hat{\beta}_2\)`的**样本方差**: `$$\begin {align} S_{\hat{\beta}_{2}}^{2} & =\frac{\sum x_{3 i}^{2}}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \hat{\sigma}^{2} \\ & =\frac{\hat{\sigma}^{2}}{\sum x_{2 i}^{2}\left(1-r_{23}^{2}\right)} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` --- ## 回归系数的OLS估计:方差和标准差 `\(\hat{\beta}_3\)`的**真实方差**: `$$\begin {align} \operatorname{var}\left(\hat{\beta}_{3}\right) &\equiv \sigma_{\hat{\beta}_{3}}^{2} =\frac{\sum x_{2 i}^{2}}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \sigma^{2} \\ & =\frac{\sigma^{2}}{\sum x_{3 i}^{2}\left(1-r_{23}^{2}\right)} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` `\(\hat{\beta}_3\)`的**样本方差**: `$$\begin {align} S_{\hat{\beta}_{3}}^{2} & =\frac{\sum x_{2 i}^{2}}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \hat{\sigma}^{2} \\ & =\frac{\hat{\sigma}^{2}}{\sum x_{3 i}^{2}\left(1-r_{23}^{2}\right)} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` --- ## 回归系数的OLS估计:协方差 随机变量 `\(\hat{\beta}_{2}\)`和 `\(\hat{\beta}_{3}\)`之间的**协方差**为: `$$\begin {align} \operatorname{cov}\left(\hat{\beta}_{2}, \hat{\beta}_{3}\right) & =\frac{-r_{23} \sigma^{2}}{\left(1-r_{23}^{2}\right) \sqrt{\sum x_{2 i}^{2}} \sqrt{\sum x_{3 i}^{2}}} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` 随机变量 `\(\hat{\beta}_{2}\)`和 `\(\hat{\beta}_{3}\)`之间的**样本协方差**为: `$$\begin {align} S^2_{\hat{\beta}_{2} \hat{\beta}_{3}} & =\frac{-r_{23} \hat{\sigma}^{2}}{\left(1-r_{23}^{2}\right) \sqrt{\sum x_{2 i}^{2}} \sqrt{\sum x_{3 i}^{2}}} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` --- ## OLS估计量的特征1、2 **特征1**:三变量回归面通过均值点 `\((\bar{Y},\bar{X}_2, \bar{X}_3)\)` `$$\begin{align} \bar{Y} = \hat{\beta}_1 +\hat{\beta}_2\bar{X}_2 +\hat{\beta}_3\bar{X}_3 \end{align}$$` `$$\begin{align} \bar{Y} = \hat{\beta}_1 +\hat{\beta}_2\bar{X}_2 +\hat{\beta}_3\bar{X}_3 + \cdots +\hat{\beta}_k\bar{X}_k \end{align}$$` **特征2**: `\(Y_i\)`的**估计值**( `\(\hat{Y}_i\)`)的均值( `\(\bar{\hat{Y_i}}\)`)等于Y的样本均值( `\(\bar{Y}\)`) `$$\begin{align} \hat{Y_i} &= \hat{\beta}_1 +\hat{\beta}_2{X}_{2i} +\hat{\beta}_3{X}_{3i} \\ & =(\bar{Y} - \hat{\beta}_2\bar{X}_2 -\hat{\beta}_3\bar{X}_3 ) + \hat{\beta_2}X_{2i} +\hat{\beta}_3 X_{3i} \\ & = \bar{Y} + \hat{\beta}_2(X_{2i} - \bar{X}_2) + \hat{\beta}_3(X_{3i} - \bar{X}_3) \end{align}$$` `$$\begin{align} &\Rightarrow 1/n\sum{\hat{Y_i}} = 1/n\sum{ \left( \bar{Y} - \hat{\beta}_2(X_{2i} - \bar{X}_2) - \hat{\beta}_3(X_{3i} - \bar{X}_3) \right) } \\ &\Rightarrow \bar{\hat{Y_i}} = \bar{Y} \end{align}$$` --- ## OLS估计量的特征3 **特征3**:残差的均值( `\(\bar{e_i}\)`)为零: `$$\begin{align} \frac{\partial \sum e_{i}^{2}}{\partial \hat{\beta}_{1}}=2 \sum\left(Y_{i}-\hat{\beta}_{1}-\hat{\beta}_{2} X_{2 i}-\hat{\beta}_{3} X_{3 i}\right)(-1)&=0 \\ \sum{\left[ Y_i- \hat{\beta}_1 - \hat{\beta}_2X_i -\hat{\beta}_{3} X_{3 i}\right]} &=0 \\ \sum{( Y_i- \hat{Y}_i )} &=0 \\ \sum{e_i} &=0 \\ \bar{e_i} &=0 \end{align}$$` --- ## OLS估计量的特征4 **特征4**:残差( `\(e_i\)`)和 `\(Y_i\)`的拟合值( `\(\hat{Y_i}\)`)不相关 `$$\begin{align} Cov(e_i, \hat{Y_i}) &= E \left[ \left( e_i-E(e_i)\right )\cdot \left( \hat{Y_i}-E(\hat{Y_i})\right ) \right]\\ & = E(e_i \cdot \hat{y_i}) \\ & = \sum \mathrm{e}_{i}\left(\hat{y}_{i}+\bar{Y}\right)\\ & =\sum \mathrm{e}_{i} \hat{y}_{i}+\bar{Y} \sum e_{i}\\ & =0 \end{align}$$` 其中: `$$\begin {align} \sum \hat{y}_{i} \mathrm{e}_{i} &=\hat{\beta}_{2} \sum x_{2 i} e_{i}+\hat{\beta}_{3} \sum x_{3 i} e_{i} && \leftarrow \left[ \hat{y}_{i}=\hat{\beta}_{2} x_{2 i}+\hat{\beta}_{3} x_{3 i} \right] \\ &=\hat{\beta}_{2} \sum\left(X_{2 i}-\overline{X}_{2}\right) e_{i}+\hat{\beta}_{3} \sum\left(X_{3 i}-\overline{X}_{3}\right) e_{i} \\ &=\hat{\beta}_{2} \sum X_{2 i} e_{i}-\hat{\beta}_{2} \overline{X}_{2} \sum e_{i}+\hat{\beta}_{3} \sum X_{3 i} e_{i}-\hat{\beta}_{3} \overline{X}_{3} \sum e_{i} \\ &=0 \end {align}$$` --- ## OLS估计量的特征5 **特征5**:残差( `\(e_i\)`)和自变量( `\(X_{2i},X_{3i}\)`)不相关 `$$\begin {align} \frac{\partial \sum e_{i}^{2}}{\partial \hat{\beta}_{2}} & =2 \sum\left(Y_{i}-\hat{\beta}_{1}-\hat{\beta}_{2} X_{2 i}-\hat{\beta}_{3} X_{3 i}\right)\left(-X_{2 i}\right)=0 \\ \frac{\partial \sum e_{i}^{2}}{\partial \hat{\beta}_{3}} &=2 \sum\left(Y_{i}-\hat{\beta}_{1}-\hat{\beta}_{2} X_{2 i}-\hat{\beta}_{3} X_{3 i}\right)\left(-X_{3 i}\right)=0\\ \sum{e_iX_{2i}} &=0 \\ \sum{e_iX_{3i}} &=0 \end {align}$$` --- ## OLS估计量的特征6 **特征6**: `\(var(\hat{\beta}_2)\)`和 `\(var(\hat{\beta}_3)\)`的关系。 `$$\begin{align} \operatorname{var}\left(\hat{\beta}_{2}\right)=\sigma_{\hat{\beta}_{2}}^{2} & =\frac{\sigma^{2}}{\sum x_{2 i}^{2}\left(1-r_{23}^{2}\right)} \\ \operatorname{var}\left(\hat{\beta}_{3}\right)=\sigma_{\hat{\beta}_{3}}^{2} &=\frac{\sigma^{2}}{\sum x_{3 i}^{2}\left(1-r_{23}^{2}\right)} \\ r_{23}^{2} &= \frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \end{align}$$` `$$r_{23} \rightarrow 1, \operatorname{var}\left(\hat{\beta}_{2}\right) \rightarrow \infty ; \operatorname{var}\left(\hat{\beta}_{3}\right) \rightarrow \infty$$` - 给定 `\(\sum{x_{ki}^2},\sigma^2\)`:真值 `\(\beta_i\)`的估计将变得很困难。 - 给定 `\(\sum{x_{ki}^2},r_{23}^2\)`: `\(var(\hat{\beta}_i)\)`与总体方差呈正比。 - 给定 `\(\sigma^2,r_{23}^2\)`: `\(var(\hat{\beta}_i)\)`与 `\(\sum{x_{ki}^2}\)`呈反比。表明 `\(x_{ki}\)`样本值变化越大,真值 `\(\beta_i\)`的估计精度越高! --- ## 多元判定系数 **多元判定系数**:在三变量(或者更多变量)的模型中,衡量Y的变异由变量 `\((X_{2i},X_{3i})\)`等联合解释的比重,记作 `\(R^2\)`。 `$$\begin {align} Y_{i} &=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+e_{i} \\ \overline{Y} &=\hat{\beta}_{1}+\hat{\beta}_{2} \overline{X}_{2}+\hat{\beta}_{3} \overline{X}_{3} \\ y_{i} &=\hat{\beta}_{2} x_{2 i}+\hat{\beta}_{3} x_{3 i}+e_{i} \\ &=\hat{y}_{i}+e_{i} \end {align}$$` `$$\begin{alignedat}{2} &&(Y_i - \bar{Y}) &&= (\hat{Y}_i - \bar{Y}) &&+ (Y_i - \hat{Y}_i ) \\ &&y_i &&= \hat{y}_i &&+ e_i \\ &&\sum{y_i^2} &&= \sum{\hat{y}_i^2} &&+ \sum{e_i^2} \\ &&TSS &&=ESS &&+RSS \end{alignedat}$$` --- ## 多元判定系数 `$$\begin {align} RSS &= \sum e_{i}^{2}=\sum y_{i}^{2}-\hat{\beta}_{2} \sum y_{i} x_{2 i}-\hat{\beta}_{3} \sum y_{i} x_{3 i} \\ ESS &=\sum \hat{y}_{i}^{2}=\hat{\beta}_{2} \sum y_{i} x_{2 i}+\hat{\beta}_{3} \sum y_{i} x_{3 i} \\ TSS &= \sum y_{i}^{2}=\sum \hat{y}_{i}^{2}+\left(\sum y_{i}^{2}-\hat{\beta}_{2} \sum y_{i} x_{2 i}-\hat{\beta}_{3} \sum y_{i} x_{3 i}\right) \end {align}$$` `$$\begin {align} R^{2}=\frac{E S S}{T S S}=1-\frac{\mathrm{RSS}}{T S S}=1-\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}=\frac{\hat{\beta}_{2} \sum y_{i} x_{2 i}+\hat{\beta}_{3} \sum y_{i} x_{3 i}}{\sum y_{i}^{2}} \end {align}$$` 比较一元回归下的判定系数: `$$\begin {align} r^{2}=\frac{E S S}{T S S}=\frac{\hat{\beta}_{2}^{2} \sum x_{i}^{2}}{\sum y_{i}^{2}}=\hat{\beta}_{2}\left(\frac{\sum x_{i}^{2}}{\sum y_{i}^{2}}\right) \end {align}$$` --- ## 多元判定系数 `$$\begin {align} R^{2}=\frac{E S S}{T S S}=1-\frac{\mathrm{RSS}}{T S S}=1-\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}=\frac{\hat{\beta}_{2} \sum y_{i} x_{2 i}+\hat{\beta}_{3} \sum y_{i} x_{3 i}}{\sum y_{i}^{2}} \end {align}$$` - 分母部分与 `\(X_{ki}\)`的变量数**无关**: `$$\sum y_{i}^{2}=\sum\left(Y_{i}-\overline{Y}\right)^{2}$$` - 分子部分与 `\(X_{ki}\)`的变量数**有关**: `$$\sum e_{i}^{2}=\sum y_{i}^{2}-\hat{\beta}_{2} \sum y_{i} x_{2 i}-\hat{\beta}_{3} \sum y_{i} x_{3 i}$$` - 如果 `\(X_{ki}\)`的变量数**增加**,RSS会**减小**,而TSS总是**不变**,因此判定系数 `\(R^2\)`自然会**变大**。一般而言,自变量数越多,判定系数约接近于1。 - 启示:模型选择时,较高的 `\(R^2\)`可能来自解释变量个数的增加,并不能说明模型就一定更好。 --- ## 调整多元判定系数 **调整判定系数**(adjusted R square): 利用相应的自由度对平方和进行校正,基于此计算得到的判定系数,记为 `\(\bar{R}^2\)`。对于如下的多元回归方程: `$$\begin {align} Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i} + \cdots +\beta_{k} X_{k i}+u_{i} \end {align}$$` 则**调整判定系数** `\(\bar{R}^2\)`可以计算为: `$$\begin {align} \overline{R}^{2}= 1-\frac{\sum \mathrm{e}_{i}^{2} /(n-k)}{\sum y_{i}^{2} /(n-1)} \end {align}$$` --- ## 调整多元判定系数 **调整判定系数** `\(\bar{R}^2\)`还可以计算为: `$$\begin {align} \bar{R}^{2}&=1-\frac{\hat{\sigma}^{2}}{S_{Y}^{2}} && \leftarrow \left[\hat{\sigma}^{2} =\frac{\sum \mathrm{e}_{i}^{2}}{n-k} \right] \\ \bar{R}^{2} &=1-\left(1-R^{2}\right) \frac{n-1}{n-k} && \leftarrow \left[ S_{Y}^{2}=\frac{\sum(Y-\bar{Y})^{2}}{n-1} \right] \end {align}$$` - 如果 `\(k>1\)`,则 `\(R^2 > \bar{R}^2\)`。表明随着变量数的增多, `\(\bar{R}^2\)`相对要增大得慢一些。 - `\(R^2 \geq 0\)`,但 `\(\bar{R}^2\)`可以小于0 - 不能单凭最高的 `\(\bar{R}^2\)`之值来选择模型,可参考的标准还可以有AIC、APC等。 --- ### 模型选择的标准:儿童死亡率案例 人均国民收入PGNP和妇女识字率FLR对儿童死亡率CM的二元回归**模型1**:可以在不同回归元之间进行分配吗? `$$\begin{equation} \begin{alignedat}{999} &\widehat{CM}=&&+263.64&&-0.01PGNP&&-2.23FLR\\ &\text{(t)}&&(22.7411)&&(-2.8187)&&(-10.6293)\\&\text{(se)}&&(11.5932)&&(0.0020)&&(0.2099)\\&\text{(fitness)}&& R^2=0.7077;&& \bar{R^2}=0.6981\\& && F^{\ast}=73.83;&& p=0.0000 \end{alignedat} \end{equation}$$` .pull-left[ 妇女识字率FLR对死亡率CM**回归2**: `$$\begin{equation} \begin{alignedat}{999} &\widehat{CM}=&&+263.86&&-2.39FLR\\ &\text{(t)}&&(21.5840)&&(-11.2092)\\&\text{(se)}&&(12.2250)&&(0.2133)\\&\text{(fitness)}&& R^2=0.6696;&& \bar{R^2}=0.6643\\& && F^{\ast}=125.65;&& p=0.0000 \end{alignedat} \end{equation}$$` ] .pull-right[ 人均国民收入PGNP对死亡率CM**回归3**: `$$\begin{equation} \begin{alignedat}{999} &\widehat{CM}=&&+157.42&&-0.01PGNP\\ &\text{(t)}&&(15.9893)&&(-3.5157)\\&\text{(se)}&&(9.8456)&&(0.0032)\\&\text{(fitness)}&& R^2=0.1662;&& \bar{R^2}=0.1528\\& && F^{\ast}=12.36;&& p=0.0008 \end{alignedat} \end{equation}$$` ] --- ### 模型选择的标准:柯布道格拉斯生产曲线案例 以**柯布道格拉斯生产**模型为例: `$$\begin {align} Y_{i}=\beta_{1} X_{2 i}^{\beta_{2}} X_{3 i}^{\beta_{3}} e^{u_{i}} \end {align}$$` `$$\begin {align} \ln Y_{i} &=\ln \beta_{1}+\beta_{2} \ln X_{2 i}+\beta_{3} \ln X_{3 i}+u_{i} \\ &=\beta_{0}+\beta_{2} \ln X_{2 i}+\beta_{3} \ln X_{3 i}+u_{i} && \leftarrow \left[ \beta_{0}=\ln \beta_{1} \right] \end {align}$$` --- ### 模型选择的标准:柯布道格拉斯生产曲线(数据) <div class="figure" style="text-align: center">
<p class="caption">美国51个地区的制造业投入产出数据</p> </div> --- ### 模型选择的标准:柯布道格拉斯生产案例(回归) 双对数模型下: `$$\begin{equation} \begin{alignedat}{999} &log(Y)=&& + \beta_{1} && + \beta_{2} log(X2)&& + \beta_{3} log(X3)&&+u_i\\ \end{alignedat} \end{equation}$$` OLS估计结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(Y)}=&&+3.89&&+0.47log(X2)&&+0.52log(X3)\\ &\text{(t)}&&(9.8115)&&(4.7342)&&(5.3803)\\&\text{(se)}&&(0.3962)&&(0.0989)&&(0.0969)\\&\text{(fitness)}&& R^2=0.9642;&& \bar{R^2}=0.9627\\& && F^{\ast}=645.93;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ### 模型选择的标准:多项式回归 **多项式回归模型**(polynomial regression models): `$$\begin {align} Y &=\beta_{1}+\beta_{2} X+\beta_{3} X^{2} \\ Y_{i}&=\beta_{1}+\beta_{2} X_{i}+\beta_{3} X_{i}^{2}+u_{i} \\ Y_{i}&=\beta_{1}+\beta_{2} X_{i}+\beta_{3} X_{i}^{2}+\cdots+\beta_{k} X_{i}^{k}+u_{i} \\ \hat{Y}_{i}&=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i} \end {align}$$` - 思考1:上述模型是线性回归模型吗? - 思考2: X与X的诸多幂函数之间是高度相关的吗?有没有违背自变量无多重共线性的CLRM假设? --- ### 模型选择的标准:总生产成本案例(数据)
--- ### 模型选择的标准:总生产成本案例(绘图) 产出X与总成本Y的散点图关系如下: <img src="06-multiple-reg-algebra-slide_files/figure-html/unnamed-chunk-39-1.png" style="display: block; margin: auto;" /> --- ### 模型选择的标准:总生产成本案例(回归) 多项式模型下: `$$\begin{equation} \begin{alignedat}{999} &Y=&& + \beta_{1} && + \beta_{2} X&& + \beta_{3} XX&& + \beta_{4} XXX&&+u_i\\ \end{alignedat} \end{equation}$$` OLS估计结果为: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Y}=&&+141.77&&+63.48X&&-12.96XX&&+0.94XXX\\ &\text{(t)}&&(22.2368)&&(13.2837)&&(-13.1501)&&(15.8968)\\&\text{(se)}&&(6.3753)&&(4.7786)&&(0.9857)&&(0.0591)\\&\text{(fitness)}&& R^2=0.9983;&& \bar{R^2}=0.9975\\& && F^{\ast}=1202.22;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ## 偏相关系数 **偏相关系数**(partial correlation coefficient): 一个不依赖于 `\(X_{2i}\)`的,对 `\(X_{3i}\)`和 `\(Y_i\)`的影响的一种相关系数。 .pull-left[ - 保持 `\(X_{3i}\)`不变, `\(Y_i\)`和 `\(X_{2i}\)`之间的相关系数: `$$\begin {align} r_{12 \cdot 3}=\frac{r_{12}-r_{13} r_{23}}{\sqrt{\left(1-r_{13}^{2}\right)\left(1-r_{23}^{2}\right)}} \end {align}$$` ] .pull-right[ - 保持 `\(X_{2i}\)`不变, `\(Y_i\)`和 `\(X_{3i}\)`之间的相关系数: `$$\begin {align} r_{13.2}=\frac{r_{13}-r_{12} r_{23}}{\sqrt{\left(1-r_{12}^{2}\right)\left(1-r_{23}^{2}\right)}} \end {align}$$` ] - 保持 `\(Y_i\)`不变, `\(X_{2i}\)`和 `\(X_{3i}\)`之间的相关系数: `$$\begin {align} r_{23.1}=\frac{r_{23}-r_{12} r_{13}}{\sqrt{\left(1-r_{12}^{2}\right)\left(1-r_{13}^{2}\right)}} \end {align}$$` --- ## 简单相关系数 **简单相关系数**(simple correlation coefficient): .pull-left[ `\(Y_i\)`和 `\(X_{2i}\)`之间的相关系数: `$$\begin {align} r_{12}=\frac{\sum y_{i} x_{2 i}}{\sqrt{\sum y_{i}^{2}} \sqrt{\sum x_{2 i}^{2}}} \end {align}$$` ] .pull-right[ `\(Y_i\)`和 `\(X_{3i}\)`之间的相关系数: `$$\begin {align} r_{13}=\frac{\sum y_{i} x_{3 i}}{\sqrt{\sum y_{i}^{2}} \sqrt{\sum x_{3 i}^{2}}} \end {align}$$` ] `\(X_{2i}\)`和 `\(X_{3i}\)`之间的相关系数: `$$\begin {align} r_{23}=\frac{\sum x_{2 i} x_{3 i}}{\sqrt{\sum x_{2 i}^{2}} \sqrt{\sum x_{3 i}^{2}}} \end {align}$$` --- layout: false class: center, middle, duke-softblue,hide_logo name: inference # 6.2 多元回归分析:推断问题 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter06a">第06章 多元回归I:代数部分</a>                             <a href="#inference">6.2 多元回归分析:推断问题</a> </span></div> --- ## N-CLRM假设 **经典正态线性回归模型**(classical normal linear regression model , N-CLRM):在经典线性回归模型(CLRM)假设中再增加干扰项 `\(u_i\)`服从正态性的相关假设。 - 均值为0: `\(E(u|X_i)=0\)` - 同方差: `\(Var(u_i) \equiv \sigma^2\)` - 无自相关: `\(E(u_i,u_j)=0\)` - 正态性分布: `\(u_i \sim N(0, \sigma^2)\)` 以上几条也可以统写为: `\(u_i \sim iid. \ N(0, \sigma^2)\)` 其中,iid表示独立同分布(Independent Identical Distribution, iid)。 --- ## 个别回归系数的显著性检验(t检验理论) `$$\begin {align} Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} \end {align}$$` 二元线性回归模型,在N-CLRM假设容易得到: `$$\begin{align} T_1&=\frac{\hat{\beta}_{1}-\beta_{1}}{S_{\hat{\beta}_{1}}} \sim t(n-3) \\ T_2&=\frac{\hat{\beta}_{2}-\beta_{2}}{S_{\hat{\beta}_{2}}} \sim t(n-3) \\ T_3&=\frac{\hat{\beta}_{3}-\beta_{3}}{S_{\hat{\beta}_{3}}} \sim t(n-3) \end{align}$$` --- ## 个别回归系数的显著性检验(t检验理论) 其中: `$$\begin {align} S_{\hat{\beta}_1}^{2} =\left[\frac{1}{n}+\frac{\overline{X}_{2}^{2} \sum x_{3 i}^{2}+\overline{X}_{3}^{2} \sum x_{2 i}^{2}-2 \overline{X}_{2} \overline{X}_{3} \sum x_{2 i} x_{3 i}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}-\left(\sum x_{2 i} x_{3 i}\right)^{2}}\right] \cdot \hat{\sigma}^{2} \end {align}$$` `$$\begin {align} S_{\hat{\beta}_{2}}^{2} & =\frac{\hat{\sigma}^{2}}{\sum x_{2 i}^{2}\left(1-r_{23}^{2}\right)} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` `$$\begin {align} S_{\hat{\beta}_{3}}^{2} & =\frac{\hat{\sigma}^{2}}{\sum x_{3 i}^{2}\left(1-r_{23}^{2}\right)} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` `$$\begin {align} \hat{\sigma}^{2}=\frac{\sum \mathrm{e}_{i}^{2}}{n-3} = \frac{1}{n-3}\left(\sum y_{i}^{2}-\hat{\beta}_{2} \sum y_{i} x_{2 i}-\hat{\beta}_{3} \sum y_{i} x_{3 i}\right) \end {align}$$` --- ## 个别回归系数的显著性检验(t检验理论) 假设: `$$H_0: \beta_i =0; \quad H_1: \beta_i \neq 0, \quad i \in (1,2,3)$$` 基于 `\(H_0\)`可以得到: `$$\begin{align} t^{\ast}_{\hat{\beta}_1}&=\frac{\hat{\beta}_{1}}{S_{\hat{\beta}_{1}}} \\ t^{\ast}_{\hat{\beta}_2}&=\frac{\hat{\beta}_{2}}{S_{\hat{\beta}_{2}}} \\ t^{\ast}_{\hat{\beta}_3}&=\frac{\hat{\beta}_{3}}{S_{\hat{\beta}_{3}}} \end{align}$$` --- ## 个别回归系数的显著性检验(t检验理论) 给定显著性水平 `\(\alpha=0.05\)`下,查出统计量的**理论分布值**。 `\(t_{1-\alpha/2}(n-3)\)`。 得到显著性检验的判断结论。 - 若 `\(|t^{\ast}_{\hat{\beta}_2}| > t_{1-\alpha/2}(n-3)\)`,则 `\(\beta_i\)`的t检验结果**显著**。换言之,在显著性水平 `\(\alpha=0.05\)`下,应**显著**地拒绝原假设 `\(H_0\)`,接受备择假设 `\(H_1\)`,认为回归参数 `\(\beta_i \neq 0\)`。 - 若 `\(|t^{\ast}_{\hat{\beta}_i}| < t_{1-\alpha/2}(n-3)\)`,则 `\(\beta_i\)`的t检验结果**不显著**。换言之,在显著性水平 `\(\alpha=0.05\)`下,不能**显著**地拒绝原假设 `\(H_0\)`,只能暂时接受原假设 `\(H_0\)`,认为回归参数 `\(\beta_i = 0\)`。 --- ## 个别回归系数的显著性检验(t检验案例) 儿童死亡率的二元回归模型如下: `$$\begin{equation} \begin{alignedat}{999} &CM=&& + \beta_{1} && + \beta_{2} PGNP&& + \beta_{3} FLR&&+u_i\\ \end{alignedat} \end{equation}$$` 以上二元回归模型的OLS估计结果如下: `$$\begin{equation} \begin{alignedat}{999} &\widehat{CM}=&&+263.64&&-0.01PGNP&&-2.23FLR\\ &\text{(t)}&&(22.7411)&&(-2.8187)&&(-10.6293)\\&\text{(se)}&&(11.5932)&&(0.0020)&&(0.2099)\\&\text{(fitness)}&& R^2=0.7077;&& \bar{R^2}=0.6981\\& && F^{\ast}=73.83;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ## 样本回归模型的整体显著性检验(F检验) `$$\begin {align} Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} \end {align}$$` `$$\begin{alignedat}{2} &&(Y_i - \bar{Y}) &&= (\hat{Y}_i - \bar{Y}) &&+ (Y_i - \hat{Y}_i ) \\ &&y_i &&= \hat{y}_i &&+ e_i \\ &&\sum{y_i^2} &&= \sum{\hat{y}_i^2} &&+ \sum{e_i^2} \\ &&TSS &&=ESS &&+RSS \end{alignedat}$$` <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:center;"> 变异来源 </th> <th style="text-align:center;"> 平方和符号SS </th> <th style="text-align:center;"> 平方和计算公式 </th> <th style="text-align:center;"> 自由度df </th> <th style="text-align:center;"> 均方和符号MSS </th> <th style="text-align:center;"> 均方和计算公式 </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 回归平方和 </td> <td style="text-align:center;"> ESS </td> <td style="text-align:center;"> \(\hat{\beta}_2\sum{y_ix_{2i}}+\hat{\beta}_3\sum{y_ix_{3i}}\) </td> <td style="text-align:center;"> 2 </td> <td style="text-align:center;"> \(MSS_{ESS}\) </td> <td style="text-align:center;"> \(ESS/df_{ESS}=\sum{\hat{y}_i^2}/2 \) </td> </tr> <tr> <td style="text-align:center;"> 残差平方和 </td> <td style="text-align:center;"> RSS </td> <td style="text-align:center;"> \(\sum{(Y_i-\hat{Y_i})^2}=\sum{e_i^2}\) </td> <td style="text-align:center;"> n-3 </td> <td style="text-align:center;"> \(MSS_{RSS}\) </td> <td style="text-align:center;"> \(RSS/df_{RSS}=\frac{\sum{e_i^2}}{n-3}\) </td> </tr> <tr> <td style="text-align:center;"> 总平方和 </td> <td style="text-align:center;"> TSS </td> <td style="text-align:center;"> \(\sum{(Y_i-\bar{Y_i})^2}=\sum{y_i^2}\) </td> <td style="text-align:center;"> n-1 </td> <td style="text-align:center;"> \(MSS_{TSS}\) </td> <td style="text-align:center;"> \(TSS/df_{TSS}=\frac{\sum{y_i^2}}{n-1}\) </td> </tr> </tbody> </table> --- ## 样本回归模型的整体显著性检验(F检验) 在原假设下: `$$H_0: \beta_2 = \beta_3= 0; \quad H_1: \text{not all} \quad \beta_j = 0, \quad j \in 2, 3$$` 有: `$$\begin {align} F^{*}=\frac{MSS_{ESS}}{MSS_{RSS}}=\frac{ESS / df_{\mathrm{Ess}}}{RSS /d f_{\mathrm{RSS}}}=\frac{\left(\hat{\beta}_{2} \sum y_{i} x_{2 i}+\hat{\beta}_{3} \sum \mathrm{y}_{i} x_{3 i}\right) / 2}{\sum \mathrm{e}_{i}^{2} /(n-3)} \sim \mathrm{F}(2, \mathrm{n}-3) \end {align}$$` --- ## k变量回归模型的F检验 k变量回归模型下: `$$\begin{align} Y_i = \beta_1 + \beta_2X_{2i} + \beta_3X_{3i}+ \cdots + \beta_kX_{ki}+ u_i \end{align}$$` 给出如下假设: `$$H_0: \beta_2 = \beta_3 =\cdots= \beta_k= 0; \quad H_1: \text{not all} \quad \beta_j = 0, \quad j \in 2, 3, \cdots, k$$` F样本统计量可以表达为: `$$\begin {align} F^{\ast}=\frac{ESS / df_{ESS}}{RSS / df_{RSS}}=\frac{ESS /(k-1)}{RSS /(n-k)}=\frac{MSS_{ESS}}{MSS_{\mathrm{RSS}}} \sim \mathrm{F}(k-1, n-k) \end {align}$$` --- ## k变量回归模型的F检验 k变量回归模型下,F样本统计量也可以用判定系数 `\(R^2\)`表达为: `$$\begin {align} F &=\frac{(n-k) ESS}{(k-1) RSS} \\ &=\frac{n-k}{k-1} \cdot \frac{ESS}{TSS-ESS} \\ &=\frac{n-k}{k-1} \cdot \frac{ESS / TSS}{1-(ESS / TSS)} \\ &=\frac{n-k}{k-1} \cdot \frac{R^{2}}{1-R^{2}} \\ &=\frac{R^{2} /(k-1)}{\left(1-R^{2}\right) /(n-k)} \end {align}$$` --- ## k变量回归模型的F检验 k变量回归模型下,方差分析表(ANOVA)理论上可以写成: <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:center;"> 变异来源 </th> <th style="text-align:center;"> 平方和符号SS </th> <th style="text-align:center;"> 平方和计算公式 </th> <th style="text-align:center;"> 自由度df </th> <th style="text-align:center;"> 均方和符号MSS </th> <th style="text-align:center;"> 均方和计算公式 </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 回归平方和 </td> <td style="text-align:center;"> ESS </td> <td style="text-align:center;"> \( R^2\sum{y_i^2} \) </td> <td style="text-align:center;"> k-1 </td> <td style="text-align:center;"> \(MSS_{ESS}\) </td> <td style="text-align:center;"> \( R^2\sum{y_i^2}/(k-1) \) </td> </tr> <tr> <td style="text-align:center;"> 残差平方和 </td> <td style="text-align:center;"> RSS </td> <td style="text-align:center;"> \( (1-R^2)\sum{y_i^2} \) </td> <td style="text-align:center;"> n-3 </td> <td style="text-align:center;"> \(MSS_{RSS}\) </td> <td style="text-align:center;"> \( \frac{(1-R^2)\sum{y_i^2}}{n-3} \) </td> </tr> <tr> <td style="text-align:center;"> 总平方和 </td> <td style="text-align:center;"> TSS </td> <td style="text-align:center;"> \( \sum{y_i^2}\) </td> <td style="text-align:center;"> n-1 </td> <td style="text-align:center;"> \(MSS_{TSS}\) </td> <td style="text-align:center;"> \(TSS/df_{TSS}=\frac{\sum{y_i^2}}{n-1}\) </td> </tr> </tbody> </table> --- ## k变量回归模型的F检验(案例) 研究关注儿童死亡率(`CM`,千分数)与人均GNP(`PGNP`,1980年的人均GNP)和妇女识字率(`FLR`,百分数)的关系,并构建如下PRM: `$$\begin{equation} \begin{alignedat}{999} &CM=&& + \beta_{1} && + \beta_{2} PGNP&& + \beta_{3} FLR&&+u_i\\ \end{alignedat} \end{equation}$$` 可以计算得到如下方差分析表(AVOVA):
--- ## k变量回归模型的F检验(案例) 因此可以计算得到样本F统计量值( `\(F^{\ast}\)`)为: `$$\begin {align} F^{\ast} = \frac{ESS / df_{ESS}}{RSS / df_{RSS}} =\frac{MSS_{ESS}}{MSS_{RSS}} =\frac{128681.1865}{1742.8791}=73.8325 \end {align}$$` 给定显著性水平 `\(\alpha=0.05\)`下,查出F分布的**理论值** `\(F_{1-\alpha}(1,n-2)=F_{0.95}\)`(2,61)=3.1478 得到显著性检验的判断结论。因为 `\(F^{\ast}=\)` 73.8325 .red[**大于**] `\(F_{1-\alpha}(1,n-2)=F_{0.95}\)`(2,61)=3.1478,所以模型整体显著性的F检验结果**显著**。 换言之,在显著性水平 `\(\alpha=0.05\)`下,应**显著**地拒绝原假设 `\(H_0\)`,接受备择假设 `\(H_1\)`,认为斜率参数 `\(\beta_2=\beta_3 \neq 0\)`。 --- layout: false class: center, middle, duke-softblue,hide_logo name: restricted-reg # 6.3 受约束的最小二乘法 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter06a">第06章 多元回归I:代数部分</a>                             <a href="#restricted-reg">6.3 受约束的最小二乘法</a> </span></div> --- ## 线性等式约束条件 **线性等式约束条件**:根据已有的经济理论,某一回归模型中的系数需满足一些线性等式约束条件。 柯布道格拉斯生产函数(the Cobb-Douglas production function): `$$\begin {align} Y_{i}=\beta_{1} X_{2 i}^{\beta_{2}} X_{3 i}^{\beta_{3}} e^{u_{i}} \end {align}$$` 其中, `\(Y_i\)`表示产出; `\(X_{2i}\)`表示劳动投入; `\(X_{3i}\)`表示资本投入。 可以将指数模型转换成如下线性模型: `$$\begin {align} \ln Y_{i} &=\ln \beta_{1}+\beta_{2} \ln X_{2 i}+\beta_{3} \ln X_{3 i}+u_{i} \\ &=\beta_{0}+\beta_{2} \ln X_{2 i}+\beta_{3} \ln X_{3 i}+u_{i} && \leftarrow \left[ \beta_{0}=\ln \beta_{1} \right] \end {align}$$` 假设所描述的生产是规模报酬不变,由经济理论可得如下的**线性等式约束条件**: `$$\begin {align} \beta_{2}+\beta_{3}=1 \end {align}$$` --- ## 线性等式约束的t检验法 **步骤1**:先做无约束的或**无限制的回归**(unrestricted or unconstrained regression) `$$\begin{equation} \begin{alignedat}{999} &log(Y)=&& + \hat{\beta}_{1} && + \hat{\beta}_{2} log(X2)&& + \hat{\beta}_{3} log(X3)&&+e_i\\ \end{alignedat} \end{equation}$$` **步骤2**:构建T统计量: `$$\begin {align} T=\frac{\left(\hat{\beta}_{2}+\hat{\beta}_{3}\right)-\left(\beta_{2}+\beta_{3}\right)}{S_{\left(\hat{\beta}_{2}+\hat{\beta}_{3}\right)}} \sim \mathrm{t}(n-3) \end {align}$$` --- ## 线性等式约束的t检验法 其中: `$$\begin {align} S^2_{\left(\hat{\beta}_{2}+\hat{\beta}_{3}\right)} &= S^2_{\hat{\beta}_{2}}+S^2_{\hat{\beta}_{3}}+2 S^2_{\hat{\beta}_{2}\hat{\beta}_{3}} \end {align}$$` `$$\begin {align} S_{\hat{\beta}_{2}}^{2} & =\frac{\hat{\sigma}^{2}}{\sum x_{2 i}^{2}\left(1-r_{23}^{2}\right)} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` `$$\begin {align} S_{\hat{\beta}_{3}}^{2} & =\frac{\hat{\sigma}^{2}}{\sum x_{3 i}^{2}\left(1-r_{23}^{2}\right)} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` `$$\begin {align} S^2_{\hat{\beta}_{2} \hat{\beta}_{3}} & =\frac{-r_{23} \hat{\sigma}^{2}}{\left(1-r_{23}^{2}\right) \sqrt{\sum x_{2 i}^{2}} \sqrt{\sum x_{3 i}^{2}}} && \leftarrow \left[ r_{23}^{2}=\frac{\left(\sum x_{2 i} x_{3 i}\right)^{2}}{\sum x_{2 i}^{2} \sum x_{3 i}^{2}} \right] \end {align}$$` --- ## 线性等式约束的t检验法 提出理论假设: `$$H_0: \beta_{2}+\beta_{3}=1; H_1: \beta_{2}+\beta_{3} \neq 1$$` 在原假设 `\(H_0\)`下,可以计算得到如下样本t统计量: `$$\begin {align} t^{\ast}=\frac{\left(\hat{\beta}_{2}+\hat{\beta}_{3}\right)-1}{S_{\left(\hat{\beta}_{2}+\hat{\beta}_{3}\right)}} \end {align}$$` 给定显著性水平 `\(\alpha=0.05\)`下,查出统计量的**理论分布值**。 `\(t_{1-\alpha/2}(n-3)\)`。 得到显著性检验的判断结论。 - 若 `\(|t^{\ast}| > t_{1-\alpha/2}(n-2)\)`,则 `\(\beta_i\)`的t检验结果**显著**。换言之,在显著性水平 `\(\alpha=0.05\)`下,应**显著**地拒绝原假设 `\(H_0\)`,接受备择假设 `\(H_1\)`,认为 `\(\beta_{2}+\beta_{3} \neq 1\)`,也即**规模报酬可变**。 - 若 `\(|t^{\ast}_{\hat{\beta}_i}| < t_{1-\alpha/2}(n-2)\)`,则 `\(\beta_i\)`的t检验结果**不显著**。换言之,在显著性水平 `\(\alpha=0.05\)`下,不能**显著**地拒绝原假设 `\(H_0\)`,只能暂时接受原假设 `\(H_0\)`,认为回归参数 `\(\beta_{2}+\beta_{3} = 1\)`,也即**规模报酬不变**。 --- ## 线性等式约束的F检验 **无约束模型**(Unrestricted model): `$$\begin {align} \ln Y_{i}&=\beta_{0}+\beta_{2} \ln X_{2 i}+\beta_{3} \ln X_{3 i}+u_{i} && \leftarrow \left[ \beta_{0}=\ln \beta_{1} \right] \end {align}$$` 在线性等式约束条件下: `$$\begin {align} \beta_{2} =1- \beta_{3} \end {align}$$` 可以将原模型变换为如下的**受约束模型**(Restricted model): `$$\begin {align} \ln Y_{i} &=\beta_{0}+\left(1-\beta_{3}\right) \ln X_{2 i}+\beta_{3} \ln X_{3 i}+u_{i} \\ \ln Y_{i} &=\beta_{0}+\ln X_{2 i}+\beta_{3}\left(\ln X_{3 i}-\ln X_{2 i}\right)+u_{i} \\ \left(\ln Y_{i}-\ln X_{2 i}\right) & =\beta_{0}+\beta_{3}\left(\ln X_{3 i}-\ln X_{2 i}\right)+u_{i} \\ \ln \left(Y_{i} / X_{2 i}\right) &= \beta_{0}+\beta_{3} \ln \left(X_{3 i} / X_{2 i}\right)+u_{i} \end {align}$$` --- ## 线性等式约束的F检验 给出原假设 `\(H_0: \beta_2 + \beta_3 =1\)`下,可以得到如下样本F统计量: `$$\begin {align} F^{*}&=\frac{\left(RSS_{R}-RSS_{UR}\right) / m}{RSS_{UR} /(n-k)} =\frac{\left(\sum e_{R}^{2}-\sum e_{U \mathrm{R}}^{2}\right) / m}{\sum e_{U \mathrm{R}}^{2} /(n-k)} \sim \mathrm{F}(\mathrm{m}, \mathrm{n}-\mathrm{k})\\ F^{*}&=\frac{\left(R_{UR}^{2}-R_{R}^{2}\right) / m}{\left(1-R_{UR}^{2}\right) /(n-k)} \end {align}$$` 其中: - `\(RSS_UR\)`表示**无约束回归模型**的RSS; - `\(RSS_R\)`表示**受约束回归模型**的RSS; - `\(R_{UR}^{2}\)`表示**无约束回归模型**的判定系数; - `\(R_{R}^{2}\)`表示**受约束回归模型**的判定系数; - `\(m\)`表示线性约束条件的个数; `\(n\)`表示样本数; `\(k\)`表示无约束回归模型中回归系数个数(包括截距); --- ## 线性等式约束的F检验 给定显著性水平 `\(\alpha=0.05\)`下,查出统计量的**理论分布值**。 `\(F_{1-\alpha}(m,n-k)\)` 得到显著性检验的判断结论。 - 若 `\(F^{\ast} > F_{1-\alpha}(m,n-k)\)`,则**显著**地拒绝原假设 `\(H_0\)`,接受备择假设 `\(H_1\)`,认为**规模报酬可变**。 - 若 `\(F^{\ast} < F_{1-\alpha}(m,n-k)\)`,则不能**显著**地拒绝原假设 `\(H_0\)`,暂时接受原假设 `\(H_0\)`,认为**规模报酬不变**。 --- ## 线性等式约束的F检验(案例:数据)
- `\(Y.X_2\)`表示 `\(Y/X_2\)`; `\(X3.X_2\)`表示 `\(X_3/X_2\)` --- ## 线性等式约束的F检验(案例:回归1) **无约束模型**回归结果如下: `$$\begin{equation} \begin{alignedat}{999} &log(Y)=&& + \beta_{1} && + \beta_{2} log(X2)&& + \beta_{3} log(X3)&&+u_i\\ \end{alignedat} \end{equation}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(Y)}=&&+3.89&&+0.47log(X2)&&+0.52log(X3)\\ &\text{(t)}&&(9.8115)&&(4.7342)&&(5.3803)\\&\text{(se)}&&(0.3962)&&(0.0989)&&(0.0969)\\&\text{(fitness)}&& R^2=0.9642;&& \bar{R^2}=0.9627\\& && F^{\ast}=645.93;&& p=0.0000 \end{alignedat} \end{equation}$$` 其中: - `\(RSS_{UR}=\)` 3.4155 - `\(R^2_{UR}=\)` 0.9642 --- ## 线性等式约束的F检验(案例:回归2) **受约束模型**回归结果如下: `$$\begin{equation} \begin{alignedat}{999} &log(Y.X2)=&& + \beta_{1} && + \beta_{2} log(X3.X2)&&+u_i\\ \end{alignedat} \end{equation}$$` `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(Y.X2)}=&&+3.76&&+0.52log(X3.X2)\\ &\text{(t)}&&(20.2637)&&(5.4665)\\&\text{(se)}&&(0.1854)&&(0.0958)\\&\text{(fitness)}&& R^2=0.3788;&& \bar{R^2}=0.3661\\& && F^{\ast}=29.88;&& p=0.0000 \end{alignedat} \end{equation}$$` 其中: - `\(RSS_R=\)` 3.4256 - `\(R^2_R=\)` 0.3788 --- ## 线性等式约束的F检验(案例:F统计量) .pull-left[ 利用RSS计算样本F统计量: `$$\begin{align} F^{*}&=\frac{\left(RSS_{R}-RSS_{UR}\right) / m}{RSS_{UR} /(n-k)}\\ &=\frac{\left(3.4256-3.4155\right) /1}{3.4155/(51-3)} \\ &=0.1414 \end{align}$$` ] .pull-right[ 利用 `\(R^2\)`计算样本F统计量: `$$\begin{align} F^{*}&=\frac{\left(R_{UR}^{2}-R_{R}^{2}\right) / m}{\left(1-R_{UR}^{2}\right) /(n-k)}\\ &=\frac{\left(0.9642-0.3788\right) /1}{ (1-0.9642) /(51-3)} \\ &=784.2919 \end{align}$$` ] 给定显著性水平 `\(\alpha=0.05\)`下,查出F分布的**理论值** `\(F_{1-\alpha}(m,n-k)=F_{0.95}\)`(1,48)=4.0427 因为 `\(F^{\ast}=\)` 0.1414 .red[**小于**] `\(F_{1-\alpha}(m,n-k)=F_{0.95}\)` (1,48)=4.0427,所以,认为 `\(\beta_2+\beta_3 = 1\)`,也即**规模报酬不变**。 --- layout: false class: center, middle, duke-softblue,hide_logo name: structure-break # 6.4 检验回归模型的结构或稳定性 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter06a">第06章 多元回归I:代数部分</a>                             <a href="#structure-break">6.4 检验回归模型的结构或稳定性</a> </span></div> --- ## 邹至庄检验 <div class="figure" style="text-align: center">
<p class="caption">1970-1995年间美国储蓄、可支配收入数据(n=26)</p> </div> --- ## 邹至庄检验 按时间分段绘制散点图如下: <img src="06-multiple-reg-algebra-slide_files/figure-html/unnamed-chunk-63-1.png" style="display: block; margin: auto;" /> 其中:spl1表示1970-1981年;spl2表示1982-1995年。 --- ## 邹至庄检验 根据散点图的情况,我们可以构建如下三个模型: `$$\begin {align} 1970-1981 : & Y_{t}=\lambda_{1}+\lambda_{2} X_{t}+u_{1 t}&& {n_{1}=12} \\ 1982-1995 : & Y_{t}=\gamma_{1}+\gamma_{2} X_{t}+u_{2 t} && {n_{2}=14} \\ 1970-1995 : & Y_{t}=\alpha_{1}+\alpha_{2} X_{t}+u_{t} && n=\left(n_{1}+n_{2}\right)=26 \end {align}$$` --- ## 邹至庄检验 .pull-left[ 样本段spl1(1970-1981年)**回归1**: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Saving}=&&+1.02&&+0.08Income\\ &\text{(t)}&&(0.0873)&&(9.6016)\\&\text{(se)}&&(11.6377)&&(0.0084)\\&\text{(fitness)}&& R^2=0.9021;&& \bar{R^2}=0.8924\\& && F^{\ast}=92.19;&& p=0.0000 \end{alignedat} \end{equation}$$` ] .pull-right[ 样本段spl2(1982-1995年)**回归2**: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Saving}=&&+153.49&&+0.01Income\\ &\text{(t)}&&(4.6923)&&(1.7708)\\&\text{(se)}&&(32.7123)&&(0.0084)\\&\text{(fitness)}&& R^2=0.2072;&& \bar{R^2}=0.1411\\& && F^{\ast}=3.14;&& p=0.1020 \end{alignedat} \end{equation}$$` ] 全部样本(1970-1995年)**回归3**: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Saving}=&&+62.42&&+0.04Income\\ &\text{(t)}&&(4.8918)&&(8.8938)\\&\text{(se)}&&(12.7607)&&(0.0042)\\&\text{(fitness)}&& R^2=0.7672;&& \bar{R^2}=0.7575\\& && F^{\ast}=79.10;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ## 邹至庄检验 **邹至庄检验**的原理和过程如下: **步骤1**:估计在全部样本下的**约束方程**(方程3),得到**约束残差平方和**(记为 `\(RSS_R\)`,此处也记为 `\(RSS_3\)`)。在全部样本下(1970-1995)的模型,如果参数是稳定的,也即可以认为约束了如下两个条件: `$$\gamma_1=\lambda_1; \quad \gamma_2=\lambda_2$$` **步骤2**:估计分段样本(spl1=1970-1981)下的子方程1,得到其残差平方和 `\(RSS_1\)`,其自由度为 `\(df_{RSS_1}=n_1-k\)` **步骤3**:估计分段样本(spl2=1982-1995)下的子方程2,得到其残差平方和 `\(RSS_2\)`,其自由度为 `\(df_{RSS_2}=n_2-k\)` --- ## 邹至庄检验 **步骤4**:计算得到**无约束残差平方和**( `\(RSS_{UR}=RSS_1 +RSS_2\)`),其自由度为 `\(df_{RSS_{UR}}=n_1 +n_2 -2k\)` **步骤5**:如果没有结构性变动( `\(H_0\)`),则构造得到如下样本F统计量: `$$\begin {align} F^{\ast}=\frac{\left(\mathrm{RSS}_{\mathrm{R}}-\mathrm{RSS}_{\mathrm{UR}}\right) / k}{\left(\mathrm{RSS}_{\mathrm{UR}}\right) /\left(n_{1}+n_{2}-2 k\right)} \sim F_{\left[k,\left(n_{1}+n_{2}-2 k\right)\right]} \end {align}$$` **步骤6**:得到显著性检验的判断结论。 - 若 `\(F^{\ast} > F_{1-\alpha}(k,n_1+n_2-2k)\)`,则**显著**地拒绝原假设 `\(H_0\)`,接受备择假设 `\(H_1\)`,认为**存在结构变动**(也即参数不稳定)。 - 若 `\(F^{\ast} < F_{1-\alpha}(k,n_1+n_2-2k)\)`,则不能**显著**地拒绝原假设 `\(H_0\)`,暂时接受原假设 `\(H_0\)`,认为**不存在结构变动**(也即参数稳定)。 --- ## 邹至庄检验 在本案例中: - **约束残差平方和**(记为 `\(RSS_R=\)` 23248.2982) - **无约束残差平方和**( `\(RSS_{UR}=RSS_1 +RSS_2=\)` 1785.0321+10005=11790.2528),其自由度为 `\(df_{RSS_{UR}}=n_1 +n_2 -2k=\)` 12+14-2*2=22 `$$\begin{align} F^{*}&=\frac{\left(RSS_{R}-RSS_{UR}\right) / k}{RSS_{UR} /(n_1+n_2-2k)}\\ &=\frac{\left(23248.2982-11790.2528\right) /2}{11790.2528/(12+14-2*2)} \\ &=10.6901 \end{align}$$` - 因为 `\(F^{\ast}=\)` 10.6901 .red[**大于**]查表值 `\(F_{1-\alpha}(k,n_1+n_2-2k)=F_{0.95}\)`(2,12+14-2\*2)=3.4434,所以显著拒绝 `\(H_0\)`,接受备择假设 `\(H_1\)`,认为**存在结构性变动**,也即**参数不稳定**。 --- ## 邹至庄检验 牢记关于邹至庄检验的一些警告: - 必须满足该检验背后的假定。 - 邹至庄检验只是告诉我们子样本模型之间是否有差别,并没有告诉我们差别是来自截距、斜率还是二者都有。 - 邹至庄检验假定我们知道结构转折点。 --- layout: false background-image: url("../pic/thank-you-gif-funny-little-yellow.gif") class: inverse,center # 本章结束