background-image: url("../pic/slide-front-page.jpg") class: center,middle exclude: FALSE # 统计学原理(Statistic) <!--- chakra: libs/remark-latest.min.js ---> ### 胡华平 ### 西北农林科技大学 ### 经济管理学院数量经济教研室 ### huhuaping01@hotmail.com ### 2021-05-18
--- class: center, middle, duke-orange,hide_logo name: chapter exclude: FALSE # 第五章 相关和回归分析 ### [5.1 变量间关系的度量](#corl) ### [.white[5.2 回归分析的基本思想]](#concept) ### [5.3 OLS方法与参数估计](#ols) ### [5.4 假设检验](#hypthesis) ### [5.5 拟合优度与残差分析](#goodness) ### [5.6 回归预测分析](#forecast) ### [5.7 回归报告解读](#report) --- layout: false class: center, middle, duke-softblue,hide_logo name: concept # 5.2 回归分析的基本思想 ### [相关关系VS因果关系](#basic-vs) ### [重要概念](#basic-important) --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@    <a href="#chapter"> 第05章 相关和回归分析 </a>                       <a href="#concept"> 5.2 回归分析的基本思想 </a> </span></div> --- ## 线性回归分析 从一组样本数据出发,确定变量之间的数学关系式。 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。 --- name: basic-vs ## 相关关系:边际相关与条件相关1 <div class="figure" style="text-align: center"> <img src="../pic/chpt05-causality-margin.png" alt="边际相关但是条件独立" width="90%" /> <p class="caption">边际相关但是条件独立</p> </div> --- ## 相关关系:边际相关与条件相关2 <div class="figure" style="text-align: center"> <img src="../pic/chpt05-causality-margin-2.png" alt="边际独立但是条件相关" width="90%" /> <p class="caption">边际独立但是条件相关</p> </div> --- ## 相关关系VS因果关系 <div class="figure" style="text-align: center"> <img src="../pic/chpt05-causality-chocolate.png" alt="巧克力消费量与诺贝尔奖数量" width="60%" /> <p class="caption">巧克力消费量与诺贝尔奖数量</p> </div> --- ## 相关关系VS因果关系:性别的作用 <div class="figure" style="text-align: center"> <img src="../pic/chpt05-causality-drug-gender1.png" alt="治疗康复表" width="95%" /> <p class="caption">治疗康复表</p> </div> <div class="figure" style="text-align: center"> <img src="../pic/chpt05-causality-drug-gender-graph1.png" alt="因果关系图" width="60%" /> <p class="caption">因果关系图</p> </div> --- ## 相关关系VS因果关系:血压的作用 <div class="figure" style="text-align: center"> <img src="../pic/chpt05-causality-drug-pressure-tab.png" alt="治疗康复表" width="100%" /> <p class="caption">治疗康复表</p> </div> <div class="figure" style="text-align: center"> <img src="../pic/chpt05-causality-drug-pressure-graph.png" alt="因果关系图" width="60%" /> <p class="caption">因果关系图</p> </div> --- exclude: true ## (案例)微型家庭总体 <!---新数据表---> ``` Warning: The `x` argument of `as_tibble.matrix()` must have unique column names if `.name_repair` is omitted as of tibble 2.0.0. Using compatibility `.name_repair`. ``` --- ### (案例)假想总体:60个家庭的收支数据(直观列表) <div class="figure" style="text-align: center"> <img src="../pic/extra/chpt2-1-60families-pop.png" alt="60个家庭的收入和支出情况:假设的总体" width="754" /> <p class="caption">60个家庭的收入和支出情况:假设的总体</p> </div> ??? 提问: - 总体是什么? - 有多少总体单位? --- ### (案例)假想总体:60个家庭的收支数据(扁数据形态)
??? **扁数据形态**:“非标准”数据形态(但很直观) --- ### (案例)假想总体:60个家庭的收支数据(长数据形态)
??? **长数据形态**:标准数据形态(但不直观)。 --- name: basic-important ## 重要概念:无条件概率和无条件期望 **无条件概率**: - 定义:不受 `\(X_i\)`变量取值影响下, `\(Y_i\)`出现的可能性。 - 记号:离散变量 `\(P(Y_i)\)`;连续变量 `\(g(Y)\)` **无条件期望**: - 定义:不受 `\(X_i\)`变量取值影响下,变量 `\(Y_i\)`的期望值。 - 记号: `\(g(Y_i)\)`表示连续变量的概率密度函数(cdf) `$$\begin{align} E(Y) &= \sum_1^N{Y_i \cdot P(Y_i)} &&\text{(discrete vars)} \\ E(Y) &= \int{Y_i \cdot g(Y_i)dY} &&\text{(continue vars)} \end{align}$$` --- ### (示例)无条件概率和无条件期望的示例计算 <div class="figure" style="text-align: center"> <img src="../pic/extra/chpt2-1-60fams-unconditional-mean.png" alt="无条件概率和无条件期望" width="90%" /> <p class="caption">无条件概率和无条件期望</p> </div> --- ### (示例)无条件期望的计算过程 `$$\begin{align} E(Y) &= \sum_1^N{Y_i \cdot P(Y_i)} \\ &= \sum_1^{60}\left( 55*\frac{1}{60} + 60*\frac{1}{60} + \cdots + 191*\frac{1}{60} \right) \\ &=\frac{1}{60}\sum_1^{60}Y_i\\ &=\frac{7272}{60}\\ &=121.2 \end{align}$$` --- ## 重要概念:条件概率和条件期望 **条件概率**: - 定义:给定变量 `\(X_i\)`的取值条件下, `\(Y_i\)`出现的可能性。 - 记号:离散变量 `\(P(Y_i|X_i)\)`;连续变量 `\(g(Y|X)\)` **条件期望**: - 在给定变量 `\(X_i\)`的取值条件下, `\(Y_i\)`的期望值。 - 记号: `\(g(Y|X)\)`表示连续变量的条件概率密度函数(cdf) `$$\begin{align} E(Y|X_i) &= \sum_1^N{(Y_i|X_i) \cdot P(Y_i|X_i)} &&\text{(discrete vars)} \\ E(Y|X_i) &= \int{(Y|X) \cdot g(Y|X)dY} &&\text{(continue vars)} \end{align}$$` --- ### (示例)条件概率和条件期望的计算 <div class="figure" style="text-align: center"> <img src="../pic/extra/chpt2-1-60fams-conditional-mean.png" alt="条件概率和条件期望" width="90%" /> <p class="caption">条件概率和条件期望</p> </div> --- ### (示例)条件期望的计算过程 `$$\begin{align} E(Y|80) &= \sum_1^N{Y_i \cdot P(Y_i|X=80)} \\ &= \sum_1^{5}\left( 55*\frac{1}{5} + 60*\frac{1}{5} + \cdots + 75*\frac{1}{5} \right) \\ &=\frac{1}{5}\sum_1^{5}Y_i\\ &=\frac{325}{5}\\ &=65 \end{align}$$` --- ### (示例)假想总体的全部数据展示 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-16-1.png" width="90%" style="display: block; margin: auto;" /> --- ### (示例)给定不同X水平下Y条件期望值 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-17-1.png" style="display: block; margin: auto;" /> <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> G1 </th> <th style="text-align:right;"> G2 </th> <th style="text-align:right;"> G3 </th> <th style="text-align:right;"> G4 </th> <th style="text-align:right;"> G5 </th> <th style="text-align:right;"> G6 </th> <th style="text-align:right;"> G7 </th> <th style="text-align:right;"> G8 </th> <th style="text-align:right;"> G9 </th> <th style="text-align:right;"> G10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> E(Y|X) </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 77 </td> <td style="text-align:right;"> 89 </td> <td style="text-align:right;"> 101 </td> <td style="text-align:right;"> 113 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 137 </td> <td style="text-align:right;"> 149 </td> <td style="text-align:right;"> 161 </td> <td style="text-align:right;"> 173 </td> </tr> </tbody> </table> --- ### (示例)给定不同X水平下Y条件期望值 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-19-1.png" width="90%" style="display: block; margin: auto;" /> 给定 `\(X=120\)`水平下 `\(Y\)`条件期望值 `\(E(Y|X_i=120)\)`= 89 --- ### (示例)X均值和Y的无条件期望值 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-20-1.png" width="90%" style="display: block; margin: auto;" /> X的均值 `\(\bar{X}\)` =173.67和Y的无条件期望值 `\(E(Y)=\)` 121.20 --- ## 重要概念:总体回归线(PRL) - 几何:给定X值时Y的条件期望值的轨迹。 - 统计:实质上就是Y对X的回归。 总体回归曲线(Population Regression Curve,PRC):条件期望值的轨迹表现为一条曲线(Curve)。 总体回归线(Population Regression Line,PRL):条件期望值的轨迹表现为一条直线(Line)。 --- ## 重要概念:总体回归线(PRL) <div class="figure" style="text-align: center"> <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-21-1.png" alt="总体回归线PRL" width="90%" /> <p class="caption">总体回归线PRL</p> </div> --- ## 重要概念:总体回归函数(PRF) 总体回归函数(Population Regression Function,PRF):它是对总体回归曲线(PRC)的数学函数表现形式。 如果不知道总体回归曲线的具体形式,则总体回归函数PRF表达为如下隐函数形式(PRF): `$$\begin{align} E(Y|X_i) & = f(X_i) && \text{(PRF)} \end{align}$$` 如果总体回归曲线是直线形式,则总体回归函数PRF表达为如下显函数形式(PRF_L): `$$\begin{align} E(Y|X_i) &= \beta_1 +\beta_2X_i && \text{(PRF_L)} \end{align}$$` - `\(\beta_1,\beta_2\)`分别称为截距(intercept)和斜率系数(slope coefficient)。 - `\(\beta_1,\beta_2\)`称为总体参数或回归系数(regression coefficients)。 - `\(\beta_1,\beta_2\)`为未知但却是固定的参数。 --- ## 重要概念:总体回归函数(PRF) <div class="figure" style="text-align: center"> <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-22-1.png" alt="总体回归线PRL与总体回归函数PRF" width="90%" /> <p class="caption">总体回归线PRL与总体回归函数PRF</p> </div> --- ## 重要概念:总体回归模型(PRM) **总体回归模型**(Population Regression model, PRM):把总体回归函数表达成**随机设定**形式。 如果总体回归函数为隐函数,则**总体回归模型**记为: `$$\begin{align} Y_i &= E(Y|X_i) + u_i \\ &= f(X_i) +u_i \end{align}$$` 如果总体回归函数为线性函数,则**总体回归模型**记为: `$$\begin{align} Y_i &= E(Y|X_i) + u_i \\ &= \beta_1 +\beta_2X_i + u_i \end{align}$$` - 总体回归模型(PRM)属于**计量经济学模型**,而总体回归函数(PRF)是**数量经济学模型**(或数学模型)。 - 总体回归模型(PRM)能充分表达的是现实世界中 `\(Y_i\)`变量的行为特征。 --- ## 重要概念:随机干扰项 总体回归模型(PRM)设定下, `\(Y_i\)`将由两个部分组成。 - 特定家庭的支出( `\(Y_i\)`) = 系统性部分( `\(E(Y|X_i)\)` + 随机部分( `\(u_i\)`) - 特定家庭的支出( `\(Y_i\)`) = 系统性部分( `\(\beta_1+\beta_2X_i\)`) + 随机部分( `\(u_i\)`) **随机干扰项**: - 也被称为随机误差项(stochastic error term):总体回归函数中忽略掉的但又影响着Y的全部变量的替代物,它是 `\(Y_i\)`与条件期望( `\(E(Y|X_i)\)`)的离差。 `$$\begin{align} u_i &= Y_i - E(Y|X_i) \end{align}$$` --- ## 重要概念:随机干扰项 随机干扰项的来源: - 理论的含糊:除了主变量之外,还有其它变量的影响,但不清楚,只能用𝜇_𝑖代替它们。(家庭收入以外?) - 数据的不充分:可能知道被忽略的变量,但不能得到这些变量的数量信息。(如家庭财富数据不可得) - 核心变量与其它变量:其它变量全部或其中一些合起来影响还是很小的。(如子女、教育、性别、宗教等) - 人类行为的内在随机性。(客观存在、固有的) - 变量被“移花接木”而产生测量误差(如弗里德曼的持久收入和消费) - 节省原则:为了保持一个尽可能简单的回归模型 - 错误的函数形式:有时根据数据及经验无法确定一个正确的函数形式 (多元回归尤其如此) --- ## 重要概念:随机干扰项 .pull-left[ 为何是“随机的”? - 测不准?(误差) - 测错了?(误导) - 免不了!(内在性) ] .pull-right[ 拥抱随机世界 - 风筝: `\(Y_i\)` - 风筝线: `\(E(Y|X_i)\)` - 风: `\(u_i\)` ] --- ## 重要概念:理解PRM和PRF的关系 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-23-1.png" width="90%" style="display: block; margin: auto;" /> 若给定一个特定家庭 `\((X_i=120, Y_i=79)\)`,则条件期望为 `\(E(Y|120)=89\)` --- ## 重要概念:理解PRM和PRF的关系 若给定 `\(X_i=120\)`,则5个家庭的真实消费支出分别为: `$$\begin{align} (Y_1|X=120) = 79 &= \beta_1 + \beta_2 \cdot 120 +u_1\\ (Y_2|X=120) = 84 &= \beta_1 + \beta_2 \cdot 120 +u_2\\ (Y_3|X=120) = 90 &= \beta_1 + \beta_2 \cdot 120 +u_3\\ (Y_4|X=120) = 94 &= \beta_1 + \beta_2 \cdot 120 +u_4\\ (Y_5|X=120) = 98 &= \beta_1 + \beta_2 \cdot 120 +u_5 \end{align}$$` --- ## 重要概念:理解PRM和PRF的关系 主要结论: - 总体期望刻画总体的“趋势”,总体回归线让“趋势”直观化。 - 个体随机性是不可避免的,总会“游离”于“趋势”之外。 - 随机干扰项 `\(u_i\)`𝑖携带了随机个体的“游离”信息。 - 总体回归模型既“提取”了趋势和规律性,又“维系”着个体随机性,从而更好地表达了“真实世界”。 课后思考: - 如果是无限总体,总体的规律性在理论上也是可以被严格表达出来么? - 如果不告诉你总体,你怎么知道“触碰”到的是“真实的”趋势/规律? - 从假想的60个家庭的微型总体中,“随便”抽取10个家庭的数据,你还能看到“直线”趋势么? --- ## 重要概念:“线性”的含义 “线性回归模型”中“线性”一词的含义 - **变量“线性”模型**:因变量对于自变量是线性的。 - **参数“线性”模型**:因变量对于参数是线性的。 --- ### (测试题)“线性”的含义 下列模型分别属于哪一类?请指出来: `$$\begin{align} Y_i &= \beta_1 + \beta_2 X_i +u_i && \text{(mod1)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2 X_i + \beta_3 X_i^2 +u_i && \text{(mod2)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2 X_i + \beta_3 X_i^2 + \beta_4 X_i^3 +u_i && \text{(mod3)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2 \frac{1}{X_i} +u_i && \text{(mod4)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2 ln(X_i) +u_i && \text{(mod5)} \\ \end{align}$$` `$$\begin{align} ln(Y_i) &= \beta_1 + \beta_2 X_i +u_i && \text{(mod6)} \end{align}$$` --- ### (测试题)“线性”的含义 下列模型分别属于哪一类?请指出来: `$$\begin{align} ln(Y_i) &= \beta_1 - \beta_2 \frac{1}{X_i} +u_i && \text{(mod7)} \end{align}$$` `$$\begin{align} ln(Y_i) &= ln(\beta_1) + \beta_2 ln(X_i) +u_i && \text{(mod8)} \end{align}$$` `$$\begin{align} Y_i &= \frac{1}{1+e^{(\beta_1 + \beta_2 X_{2i} +u_i) }} && \text{(mod9)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 +(0.75-\beta_1)e^{-\beta_2(X_i-2)} +u_i && \text{(mod10)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2^3 X_i +u_i && \text{(mod11)} \end{align}$$` --- ## 重要概念:样本回归线(SRL) **样本(Sample)**: - 从总体中随机抽取得到的数据。 **样本回归线**(Sample Regression Line,SRL): - 是通过拟合**样本数据**得到的一条曲线(或直线)。换言之,这条线由拟合值 `\(\hat{Y}_i\)`连接而成。 - `\(\hat{Y}_i\)`是对条件期望值 `\(Y|X_i\)`的拟合。 - 拟合方法有很多,例如采用OLS方法对样本数据进行拟合。 - 尽可能拟合数据 - 用什么方法拟合? - 曲线是什么形态? --- ## 重要概念:样本回归函数(SRF) **样本回归函数**(Sample Regression Function,SRF):是样本回归曲线的数学函数形式,可是是线性的或非线性。如果是直线则可以写成: `$$\begin{align} \hat{Y}_i =\hat{\beta}_1 + \hat{\beta}_2X_i \end{align}$$` 对比总体回归函数(PRF): `$$\begin{align} E(Y|X_i) =\beta_1 + \beta_2X_i \end{align}$$` 可以认为: - `\(\hat{Y}_i\)`是对 `\(E(Y|X_i)\)`的估计量。 - `\(\hat{\beta}_1\)`是对 `\(\beta_1\)`的估计量。 - `\(\hat{\beta}_2\)`是对 `\(\beta_2\)`的估计量。 --- ### (示例)第一份随机样本:抽样 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-25-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 88 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 157 </td> <td style="text-align:right;"> 165 </td> <td style="text-align:right;"> 185 </td> </tr> </tbody> </table> --- ### (示例)第一份随机样本:数据 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-27-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 88 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 157 </td> <td style="text-align:right;"> 165 </td> <td style="text-align:right;"> 185 </td> </tr> </tbody> </table> --- ### (示例)第一份随机样本:SRL <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-30-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 88 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 157 </td> <td style="text-align:right;"> 165 </td> <td style="text-align:right;"> 185 </td> </tr> </tbody> </table> --- ### (示例)第一份随机样本:SRF 根据第一份随机样本拟合得到的**样本回归函数**SRF: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Y}=&&+13.38&&+0.64X\\ \end{alignedat} \end{equation}$$` 样本数据如下: <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 88 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 157 </td> <td style="text-align:right;"> 165 </td> <td style="text-align:right;"> 185 </td> </tr> </tbody> </table> --- ### (示例)第二份随机样本:抽样 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-35-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 70 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 136 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 155 </td> <td style="text-align:right;"> 178 </td> </tr> </tbody> </table> --- ### (示例)第二份随机样本:数据 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-37-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 70 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 136 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 155 </td> <td style="text-align:right;"> 178 </td> </tr> </tbody> </table> --- ### (示例)第二份随机样本:SRL <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-40-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 70 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 136 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 155 </td> <td style="text-align:right;"> 178 </td> </tr> </tbody> </table> --- ### (示例)第二份随机样本:SRF 根据第二份随机样本拟合得到的**样本回归函数**SRF: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Y}=&&+14.59&&+0.61X\\ \end{alignedat} \end{equation}$$` 样本数据如下: <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 70 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 136 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 155 </td> <td style="text-align:right;"> 178 </td> </tr> </tbody> </table> --- ### (示例)两份样本同时出现 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-45-1.png" style="display: block; margin: auto;" /> --- ## 重要概念:样本回归模型(SRM) 样本回归模型(Sample Regression Model,SRM):把样本回归函数表现为**“随机”**形式。 - 如果样本回归函数为隐函数,则样本回归模型可记为: `$$\begin{align} Y_i &= g(X_i) +e_i \end{align}$$` - 如果样本回归函数表现为直线,则样本回归模型可记为: `$$\begin{align} Y_i &= \hat{\beta}_1 +\hat{\beta}_2X_i +e_i && \text{(SRM_L)} \end{align}$$` 其中, `\(e_i\)`表示残差(Residual) --- ## 重要概念:残差 残差(Residual): - 定义:是样本回归函数与Y的样本观测值之间的离差。 - 记号: `$$\begin{align} e_i &= Y_i - \hat{Y}_i \\ &= Y_i - (\hat{\beta}_1 +\hat{\beta}_2X_i) \end{align}$$` --- ## 重要概念:理解SRF和SRM的关系 <img src="05-02-reg-basic_files/figure-html/unnamed-chunk-46-1.png" style="display: block; margin: auto;" /> 给定 `\(x_i=240\)`,样本2的观测值 `\(Y_i=240\)` ;拟合值 `\(\hat{Y}_i=\)` 161.6;残差 `\(e_i=Y_i- \hat{Y}_i=\)` -6.6。 --- ## 重要概念:样本回归与总体回归的比较 <img src="../pic/extra/chpt2-1-PRL-SRL.png" width="651" style="display: block; margin: auto;" /> -- 为何不同?继承性和变异性 --- ## 重要概念:样本回归与总体回归的比较 .pull-left[ .fl.ma2.pa2.bg-lightest-blue[ 总体回归函数PRF: `$$\begin{align} E(Y|X_i) &= \beta_1 +\beta_2X_i && \text{(PRF)} \end{align}$$` 总体回归模型PRM: `$$\begin{align} Y_i &= \beta_1 +\beta_2X_i + u_i && \text{(PRM)} \end{align}$$` ] ] .pull-right[ .fl.ma2.pa2.bg-light-green[ 样本回归函数SRF: `$$\begin{align} \hat{Y}_i =\hat{\beta}_1 + \hat{\beta}_2X_i && \text{(SRF)} \end{align}$$` 样本回归模型SRM: `$$\begin{align} Y_i &= \hat{\beta}_1 + \hat{\beta}_2X_i +e_i && \text{(SRM)} \end{align}$$` ] ] -- 思考: - PRF无法直接观测,只能用SRF近似替代 - 估计值与观测值之间存在偏差 - SRF又是怎样决定的呢? --- ## 重要概念:样本回归与总体回归的比较 总结: - 随机抽样数据继承了总体的特征。 - 利用随机样本进行数据拟合是对总体规律的“反向追踪”。 - 样本回归模型中的残差是拟合不完全的产物。 -- 思考: - 怎样来判定对随机样本的一次数据拟合是更优的? - 存不存在一种“最优”的拟合方法? -- 课后作业: - 请把162名同学的拟合线进行平均化处理(截距和斜率取均值),绘制得到一条“回归线”。 - 你认为是这根平均化的“回归线”与真相更逼近么? --- layout:false background-image: url("../pic/thank-you-gif-funny-little-yellow.gif") class: inverse,center # 本节结束