background-image: url("../pic/slide-front-page.jpg") class: center,middle # 计量经济学(Econometrics) ### 胡华平 ### 西北农林科技大学 ### 经济管理学院数量经济教研室 ### huhuaping01@hotmail.com ### 2023-02-15
--- class: center, middle, duke-orange,hide_logo name: chapter02 # 第2章:一元回归的基本思想 [2.1 “回归”的历史渊源](#history) [2.2 术语与符号](#notation) [2.3 数据的类型和性质](#data) [2.4 一个假想的微型总体](#micro-world) [2.5 一些重要的概念](#concepts) [2.6 总体回归](#population) [2.7 样本回归](#sample) --- layout: false class: center, middle, duke-softblue,hide_logo name: history # 2.1 “回归”的历史渊源 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter02">第02章 一元回归的基本思想</a>                             <a href="#history"> 2.1 “回归”的历史渊源 </a></span></div> --- ## 身高数据 皮尔逊和高尔顿的身高数据(1888年): <img src="../pic/chpt2-1-Golton.png" width="2501" style="display: block; margin: auto;" /> --- ## 回归到中等 高尔顿的发现: - 父母高,儿女也高;父母矮,儿女也矮 - 但给定父母的身高,儿女的平均身高却趋向于或者"回归"到全体人口的平均身高。 皮尔逊的证实: - 收集一些家庭群体的一千多名成员的身高记录。 - 两组样本:父亲高的群体VS父亲矮的群体 - 父亲高的群体,子辈平均身高要低于其父辈; - 父亲矮的群体,子辈平均身高要高于其父辈。 “回归到中等”(regression to mediocrity)的趋势,回归由此而得名 --- ## “回归”的现代解释 - 简单地,回归分析研究被解释变量(Y)对一个或多个解释变量(X)之间的依赖关系及规律性。 - 正式地,回归分析通过解释变量(抽样样本中)的观测值(X),去估计和(或)预测被解释变量(Y)的**均值**(总体期望)。 --- ### 案例说明:子辈身高 - 给定父亲身高,在一个假想人口总体中的子辈身高分布。 <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-case1-height.png" alt="给定父亲身高时儿子身高的假想分布" width="568" /> <p class="caption">给定父亲身高时儿子身高的假想分布</p> </div> --- ### 案例说明:年龄身高 - 给定年龄,男孩子身高总体的分布。 <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-case2-age.png" alt="对应于选定年龄的假想身高分布" width="571" /> <p class="caption">对应于选定年龄的假想身高分布</p> </div> --- ### 案例说明:消费函数 给定税后或可支配收入,个人消费是如何分布的。这种分析有助于估计边际消费倾向(MPC),就是实际收入每美元价值的变化所引起的消费支出的平均变化。 <div class="figure" style="text-align: center"> <img src="../pic/chp1-model-eco.png" alt="线性形式的凯恩斯消费模型" width="465" /> <p class="caption">线性形式的凯恩斯消费模型</p> </div> --- ### 案例说明:货币工资 失业率是怎样影响货币工资变化的。 <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-case3-philips-curve.png" alt="假想的菲利普斯曲线" width="504" /> <p class="caption">假想的菲利普斯曲线</p> </div> --- ### 案例说明:货币持有 通货膨胀率如何影响人们以货币形式持有的收入比例的变化。根据货币经济学,其他条件不变,通货膨胀率 `\(\pi\)`越高,人们愿意以货币形式持有的收入比例 `\(k\)`越低 <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-case4-inflation.png" alt="货币持有与通货膨胀率的关系" width="429" /> <p class="caption">货币持有与通货膨胀率的关系</p> </div> --- layout: false class: center, middle, duke-softblue,hide_logo name: notation # 2.2 术语与符号 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter02">第02章 一元回归的基本思想</a>                             <a href="#notation"> 2.2 术语与符号 </a></span></div> --- ## X和Y <table class="table" style="margin-left: auto; margin-right: auto;"> <caption>X和Y的各种术语约定</caption> <thead> <tr> <th style="text-align:left;"> Y </th> <th style="text-align:left;"> X </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 被解释变量(Explained variable) </td> <td style="text-align:left;"> 解释变量(Explanatory variable) </td> </tr> <tr> <td style="text-align:left;"> 因变量(Dependent variable) </td> <td style="text-align:left;"> 自变量(Independent variable) </td> </tr> <tr> <td style="text-align:left;"> 预测子(Predictand) </td> <td style="text-align:left;"> 预测元(Predictor) </td> </tr> <tr> <td style="text-align:left;"> 回归子(Regressand) </td> <td style="text-align:left;"> 回归元(Regressor) </td> </tr> <tr> <td style="text-align:left;"> 响应变量(Response variable) </td> <td style="text-align:left;"> 刺激变量 (Stimulus variable) </td> </tr> <tr> <td style="text-align:left;"> 内生(Endogenous) </td> <td style="text-align:left;"> 外生(Exogenous) </td> </tr> <tr> <td style="text-align:left;"> 结果变量(Outcome) </td> <td style="text-align:left;"> 协变量(Covariate) </td> </tr> <tr> <td style="text-align:left;"> 被控变量(Controlled variable) </td> <td style="text-align:left;"> 控制变量(Control variable) </td> </tr> </tbody> </table> --- ## ?元回归 双变量回归分析(two-variable regression analysis): - 研究一个变量对仅仅一个解释变量的依赖关系 - 如消费支出对实际收入的依赖关系 多元回归分析(multiple regression analysis): - 研究一个变量对多于一个解释变量的依赖关系 - 如农作物收成依赖于气温、降雨量、阳光和施肥量等; --- ## 模型符号 - 因变量: `\(Y\)`,具体记为 `\(Y_i\)`, - 解释变量: `\(X\)`,记为 `\(X_1,X_2,\cdots,X_k\)`. - `\(X_k\)`具体记为: `\(X_{k1},X_{k2},\cdots,X_{kn}\)`. - `\(X_k\)`代表第 `\(k\)`个解释变量,下标 `\(i\)`(或 `\(t\)`)则表示第 `\(i\)`(或 `\(t\)`)个观测值。 --- ## 情景符号 - 总体容量:即总体中的观测值总个数 - `\(N\)`(横截面数据下使用) - `\(T\)`(时间序列数据下使用) - 样本容量:即样本中的观测值总个数 - `\(n\)`(横截面数据下使用) - `\(t\)`(时间序列数据下使用) 横截面数据(cross-sectional data):用观测值下标i来表示,这是指在一个时间点上搜集的数据。 时间序列数据(time series data),用下标t来表示,这是一个时期内收集的数据。 --- ## 两套体系 李子奈的k元回归: `$$\begin{align} Y_i &= \beta_0 +\beta_1X_{i1} +\beta_2X_{i2} + \cdots +\beta_kX_{ik}+ u_i \end{align}$$` 古扎拉蒂的k变量回归: `$$\begin{align} Y_i &= \beta_1 +\beta_2X_{2i} +\beta_3X_{3i} + \cdots +\beta_kX_{ki}+ u_i \end{align}$$` --- layout: false class: center, middle, duke-softblue,hide_logo name: data # 2.3 数据的类型和性质 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter02">第02章 一元回归的基本思想</a>                             <a href="#data"> 2.3 数据的类型和性质 </a></span></div> --- ## Type1:时间序列数据(time series data) 时间序列数据:对一个变量在不同时间取值的一组观测结果。 - 实时牌价:如股票价格 - 每日(daily):如天气预报 - 每周(weekly):如货币供给数字 - 每月(monthly):如失业率和消费者价格指数 - 每季度(quarterly):如GDP - 每年(annually):如政府预算 - 每5 年(quinquennially):如制造业普查资料 - 每10 年( decennially):如人口普查资料 --- ## Type1:时间序列数据(time series data): 平稳性(stationary):如果一个时间序列的均值和方差不随时间而系统地变化,那它就是平稳的(stationary) 。 <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-data-series-M1.png" alt="1951年1月-1999年9月美国的M1货币供给" width="529" /> <p class="caption">1951年1月-1999年9月美国的M1货币供给</p> </div> --- ## Type2:截面数据(cross-section data) 横截面数据:对一个或多个变量在同一时间点上收集的数据 异质性(heterogeneity) :当我们的统计分析包含有异质的单位时,我们必须考虑尺度(size)或规模效应(scale effect) 以避免造成混乱。 --- ### 案例:鸡蛋价格与鸡蛋产量
美国50个州的蛋类生产和价格数据,其中: - `\(Y_1\)`代表1990年鸡蛋产量(百万个); - `\(X_1\)`代表1990年每打鸡蛋的价格(美分/打)。 --- ### 案例:鸡蛋价格与鸡蛋产量 <div class="figure" style="text-align: center"> <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-11-1.png" alt="1990年蛋产量与价格的关系" /> <p class="caption">1990年蛋产量与价格的关系</p> </div> 思考提问:图中特征符合经济学理论么?图中反映了数据可能存在哪些潜在问题? --- ## Type3:面板数据(Panel Data) 面板数据:是兼有时间序列和横截面数据两种成份,指对相同的横截面单元在时间轴上进行跟踪调查的数据。 - 平衡面板(balanced panel):所有截面单元都具有相同的观测次数 - 非平衡面板(unbalanced panel):并非所有截面单元都具有相同的观测次数 数据点(观测数) `\(n\)`: - 数据点(观测数)=截面单元数时期数 `\(n=q*t\)` 可能存在的问题: - “平稳性”问题: - “异方差”问题: --- ### 案例:钢铁公司 两家钢铁公式的数据案例: - 公司:GE=通用公司;US=美国钢铁 - I=真实总投资(百万美元) - F=前一年的企业真实价值 (百万美元) - C=前一年的真实资本存量(百万美元) --- ### 案例:钢铁公司 扁数据形式:
--- ### 案例:钢铁公司 <div class="figure" style="text-align: center"> <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-14-1.png" alt="两家公司的企业投资情况" /> <p class="caption">两家公司的企业投资情况</p> </div> --- ### 案例:钢铁公司 长数据形式:
--- ### 案例:钢铁公司 缺失部分数据:
课堂测试:问1:平衡面板还是非平衡面板?问2:多少数据点? ??? - 问3:两个公司投资函数是否相同? --- ## 数据的性质和层次 数据不是“平等”的,也有“三六九等”: - 名义尺度(nominal scale) - 序数尺度(ordinal scale) - 区间尺度( interval scale) - 比率尺度(ratio scale) --- ### 名义尺度(nominal scale) 名义尺度变量只表示不同的类别,它不能加减乘除,也不能比较大小。 - 如性别(男、女)和婚姻状况(已婚、未婚、离婚、分居)之类的变量。 --- ### 序数尺度(ordinal scale) 名义尺度变量只能比较大小(即自然顺序),不能加减乘除。 - 五分量表 <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-data-scale-order1.png" alt="李克特量表" width="613" /> <p class="caption">李克特量表</p> </div> --- ### 序数尺度(ordinal scale) - 无差异曲线 <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-data-scale-order-curve.png" alt="两种商品消费下的无差异曲线" width="499" /> <p class="caption">两种商品消费下的无差异曲线</p> </div> --- ### 区间尺度( interval scale) 区间尺度变量比率尺度变量可以比较大小,也能加减,但不能乘除。 - 两个时期之内的距离(如2000 – 1995)是有意义的,但两个时期的比率(2000/1995) 就没有什么意义。 - 2013年8 月11 日上午11点天气预报说杨凌的温度是华氏60度,而长沙达到华氏90度。说长沙比杨凌暖和50%没有意义,所以,温度不是比例尺度。这主要是因为华氏温标不是以0度作为起点所致。 --- ### 比率尺度(ratio scale): 比率尺度变量可以比较大小,也能加减乘除。 - 对于一个变量X,取其两个值 `\(X_1\)`和 `\(X_2\)`,比率 `\(X_1/X_2\)`和距离 `\((X_2-X_1)\)`都是有意义的量。 - 此外,这些值在这种尺度下存在着一种自然顺序(上升或下降) (性质3) 。因此如 `\(X_2≤X_1\)`或 `\(X_2≥X_1\)`之类的比较也是有意义的。 - 如:GDP(亿元)、个人收入(元)等 --- layout: false class: center, middle, duke-softblue,hide_logo name: micro-world # 2.4 一个假想的微型世界 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter02">第02章 一元回归的基本思想</a>                             <a href="#micro-world"> 2.4 一个假想的微型世界 </a></span></div> --- ## 60个家庭的微型总体数据 <!---新数据表---> 直观列表: <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-60families-pop.png" alt="60个家庭的收入和支出情况:假设的总体" width="754" /> <p class="caption">60个家庭的收入和支出情况:假设的总体</p> </div> ??? 提问: - 总体是什么? - 有多少总体单位? --- ## 60个家庭的微型总体数据 扁数据形态:“非标准”数据形态(但很直观)
--- ## 60个家庭的微型总体数据 长数据形态:标准数据形态(但不直观)
--- layout: false class: center, middle, duke-softblue,hide_logo name: concepts # 2.5 一些重要概念 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter02">第02章 一元回归的基本思想</a>                             <a href="#concepts"> 2.5 一些重要概念 </a></span></div> --- ## 无条件概率和无条件期望 **无条件概率**: - 定义:不受 `\(X_i\)`变量取值影响下, `\(Y_i\)`出现的可能性。 - 记号:离散变量 `\(P(Y_i)\)`;连续变量 `\(g(Y)\)` **无条件期望**: - 定义:不受 `\(X_i\)`变量取值影响下,变量 `\(Y_i\)`的期望值。 - 记号: `\(g(Y_i)\)`表示连续变量的概率密度函数(cdf) `$$\begin{align} E(Y) &= \sum_1^N{Y_i \cdot P(Y_i)} &&\text{(discrete vars)} \\ E(Y) &= \int{Y_i \cdot g(Y_i)dY} &&\text{(continue vars)} \end{align}$$` --- ### 无条件概率和无条件期望的示例计算 <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-60fams-unconditional-mean.png" alt="无条件概率和无条件期望" width="837" /> <p class="caption">无条件概率和无条件期望</p> </div> --- ### 无条件期望的计算过程 `$$\begin{align} E(Y) &= \sum_1^N{Y_i \cdot P(Y_i)} \\ &= \sum_1^{60}\left( 55*\frac{1}{60} + 60*\frac{1}{60} + \cdots + 191*\frac{1}{60} \right) \\ &=\frac{1}{60}\sum_1^{60}Y_i\\ &=\frac{7272}{60}\\ &=121.2 \end{align}$$` --- ## 条件概率和条件期望 **条件概率**: - 定义:给定变量 `\(X_i\)`的取值条件下, `\(Y_i\)`出现的可能性。 - 记号:离散变量 `\(P(Y_i|X_i)\)`;连续变量 `\(g(Y|X)\)` **条件期望**: - 在给定变量 `\(X_i\)`的取值条件下, `\(Y_i\)`的期望值。 - 记号: `\(g(Y|X)\)`表示连续变量的条件概率密度函数(cdf) `$$\begin{align} E(Y|X_i) &= \sum_1^N{(Y_i|X_i) \cdot P(Y_i|X_i)} &&\text{(discrete vars)} \\ E(Y|X_i) &= \int{(Y|X) \cdot g(Y|X)dY} &&\text{(continue vars)} \end{align}$$` --- ### 条件概率和条件期望的示例计算 <div class="figure" style="text-align: center"> <img src="../pic/chpt2-1-60fams-conditional-mean.png" alt="条件概率和条件期望" width="838" /> <p class="caption">条件概率和条件期望</p> </div> --- ### 条件期望的计算过程 `$$\begin{align} E(Y|80) &= \sum_1^N{Y_i \cdot P(Y_i|X=80)} \\ &= \sum_1^{5}\left( 55*\frac{1}{5} + 60*\frac{1}{5} + \cdots + 75*\frac{1}{5} \right) \\ &=\frac{1}{5}\sum_1^{5}Y_i\\ &=\frac{325}{5}\\ &=65 \end{align}$$` --- ### 假想总体的全部数据展示 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-26-1.png" style="display: block; margin: auto;" /> --- ### 给定不同X水平下Y条件期望值 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-27-1.png" style="display: block; margin: auto;" /> <table class="table" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> G1 </th> <th style="text-align:right;"> G2 </th> <th style="text-align:right;"> G3 </th> <th style="text-align:right;"> G4 </th> <th style="text-align:right;"> G5 </th> <th style="text-align:right;"> G6 </th> <th style="text-align:right;"> G7 </th> <th style="text-align:right;"> G8 </th> <th style="text-align:right;"> G9 </th> <th style="text-align:right;"> G10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> E(Y|X) </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 77 </td> <td style="text-align:right;"> 89 </td> <td style="text-align:right;"> 101 </td> <td style="text-align:right;"> 113 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 137 </td> <td style="text-align:right;"> 149 </td> <td style="text-align:right;"> 161 </td> <td style="text-align:right;"> 173 </td> </tr> </tbody> </table> --- ### 给定不同X水平下Y条件期望值 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-29-1.png" style="display: block; margin: auto;" /> 给定 `\(X=120\)`水平下 `\(Y\)`条件期望值 `\(E(Y|X_i=120)\)`= 89 --- ### X均值和Y的无条件期望值 <div class="figure" style="text-align: center"> <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-30-1.png" alt="X均值和Y的无条件期望值" /> <p class="caption">X均值和Y的无条件期望值</p> </div> X的均值 `\(\bar{X}\)` =173.67和Y的无条件期望值 `\(E(Y)=\)` 121.20 --- layout: false class: center, middle, duke-softblue,hide_logo name: population # 2.6 总体回归 总体回归线 总体回归函数 总体回归模型 随机干扰项 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter02">第02章 一元回归的基本思想</a>                             <a href="#population"> 2.6 总体回归 </a></span></div> --- ## 总体回归线(PRL) - 几何:给定X值时Y的条件期望值的轨迹。 - 统计:实质上就是Y对X的回归。 总体回归曲线(Population Regression Curve,PRC):条件期望值的轨迹表现为一条曲线(Curve)。 总体回归线(Population Regression Line,PRL):条件期望值的轨迹表现为一条直线(Line)。 --- ## 总体回归线(PRL) <div class="figure" style="text-align: center"> <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-31-1.png" alt="总体回归线PRL" /> <p class="caption">总体回归线PRL</p> </div> --- ## 总体回归函数(PRF) 总体回归函数(Population Regression Function,PRF):它是对总体回归曲线(PRC)的数学函数表现形式。 如果不知道总体回归曲线的具体形式,则总体回归函数PRF表达为如下隐函数形式(PRF): `$$\begin{align} E(Y|X_i) & = f(X_i) && \text{(PRF)} \end{align}$$` 如果总体回归曲线是直线形式,则总体回归函数PRF表达为如下显函数形式(PRF_L): `$$\begin{align} E(Y|X_i) &= \beta_1 +\beta_2X_i && \text{(PRF_L)} \end{align}$$` - `\(\beta_1,\beta_2\)`分别称为截距(intercept)和斜率系数(slope coefficient)。 - `\(\beta_1,\beta_2\)`称为总体参数或回归系数(regression coefficients)。 - `\(\beta_1,\beta_2\)`为未知但却是固定的参数。 --- ## 总体回归函数(PRF) <div class="figure" style="text-align: center"> <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-32-1.png" alt="总体回归线PRL与总体回归函数PRF" /> <p class="caption">总体回归线PRL与总体回归函数PRF</p> </div> --- ## 总体回归模型(PRM) **总体回归模型**(Population Regression model, PRM):把总体回归函数表达成**随机设定**形式。 如果总体回归函数为隐函数,则**总体回归模型**记为: `$$\begin{align} Y_i &= E(Y|X_i) + u_i \\ &= f(X_i) +u_i \end{align}$$` 如果总体回归函数为线性函数,则**总体回归模型**记为: `$$\begin{align} Y_i &= E(Y|X_i) + u_i \\ &= \beta_1 +\beta_2X_i + u_i \end{align}$$` - 总体回归模型(PRM)属于**计量经济学模型**,而总体回归函数(PRF)是**数量经济学模型**(或数学模型)。 - 总体回归模型(PRM)能充分表达的是现实世界中 `\(Y_i\)`变量的行为特征。 --- ## 随机干扰项 总体回归模型(PRM)设定下, `\(Y_i\)`将由两个部分组成。 - 特定家庭的支出( `\(Y_i\)`) = 系统性部分( `\(E(Y|X_i)\)` + 随机部分( `\(u_i\)`) - 特定家庭的支出( `\(Y_i\)`) = 系统性部分( `\(\beta_1+\beta_2X_i\)`) + 随机部分( `\(u_i\)`) **随机干扰项**: - 也被称为随机误差项(stochastic error term):总体回归函数中忽略掉的但又影响着Y的全部变量的替代物,它是 `\(Y_i\)`与条件期望( `\(E(Y|X_i)\)`)的离差。 `$$\begin{align} u_i &= Y_i - E(Y|X_i) \end{align}$$` --- ## 随机干扰项 随机干扰项的来源: - 理论的含糊:除了主变量之外,还有其它变量的影响,但不清楚,只能用𝜇_𝑖代替它们。(家庭收入以外?) - 数据的不充分:可能知道被忽略的变量,但不能得到这些变量的数量信息。(如家庭财富数据不可得) - 核心变量与其它变量:其它变量全部或其中一些合起来影响还是很小的。(如子女、教育、性别、宗教等) - 人类行为的内在随机性。(客观存在、固有的) - 变量被“移花接木”而产生测量误差(如弗里德曼的持久收入和消费) - 节省原则:为了保持一个尽可能简单的回归模型 - 错误的函数形式:有时根据数据及经验无法确定一个正确的函数形式 (多元回归尤其如此) --- ## 随机干扰项 .pull-left[ 为何是“随机的”? - 测不准?(误差) - 测错了?(误导) - 免不了!(内在性) ] .pull-right[ 拥抱随机世界 - 风筝: `\(Y_i\)` - 风筝线: `\(E(Y|X_i)\)` - 风: `\(u_i\)` ] --- ## 理解PRM和PRF的关系 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-33-1.png" style="display: block; margin: auto;" /> .pull-left[ 若给定一个特定家庭 `\((X_i=120, Y_i=79)\)`。 ] .pull-right[ 给定条件下,条件期望为 `\(E(Y|120)=89\)` ] --- ## 理解PRM和PRF的关系 若给定 `\(X_i=\)` 120 ,则5个家庭的真实消费支出分别为: `$$\begin{align} (Y_1|X=120) = 79 &= \beta_1 + \beta_2 \cdot 120 +u_1\\ (Y_2|X=120) = 84 &= \beta_1 + \beta_2 \cdot 120 +u_2\\ (Y_3|X=120) = 90 &= \beta_1 + \beta_2 \cdot 120 +u_3\\ (Y_4|X=120) = 94 &= \beta_1 + \beta_2 \cdot 120 +u_4\\ (Y_5|X=120) = 98 &= \beta_1 + \beta_2 \cdot 120 +u_5 \end{align}$$` --- ## 理解PRM和PRF的关系 主要结论: - 总体期望刻画总体的“趋势”,总体回归线让“趋势”直观化。 - 个体随机性是不可避免的,总会“游离”于“趋势”之外。 - 随机干扰项 `\(u_i\)`携带了随机个体的“游离”信息。 - 总体回归模型既“提取”了趋势和规律性,又“维系”着个体随机性,从而更好地表达了“真实世界”。 课后思考: - 如果是无限总体,总体的规律性在理论上也是可以被严格表达出来么? - 如果不告诉你总体,你怎么知道“触碰”到的是“真实的”趋势/规律? - 从假想的60个家庭的微型总体中,“随便”抽取10个家庭的数据,你还能看到“直线”趋势么? --- ## “线性回归模型”中“线性”一词的含义 - **变量“线性”模型**:因变量对于自变量是线性的。 - **参数“线性”模型**:因变量对于参数是线性的。 --- ### 测试题 下列模型分别属于哪一类?请指出来: `$$\begin{align} Y_i &= \beta_1 + \beta_2 X_i +u_i && \text{(mod1)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2 X_i + \beta_3 X_i^2 +u_i && \text{(mod2)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2 X_i + \beta_3 X_i^2 + \beta_4 X_i^3 +u_i && \text{(mod3)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2 \frac{1}{X_i} +u_i && \text{(mod4)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2 ln(X_i) +u_i && \text{(mod5)} \\ \end{align}$$` `$$\begin{align} ln(Y_i) &= \beta_1 + \beta_2 X_i +u_i && \text{(mod6)} \end{align}$$` --- ### 测试题 下列模型分别属于哪一类?请指出来: `$$\begin{align} ln(Y_i) &= \beta_1 - \beta_2 \frac{1}{X_i} +u_i && \text{(mod7)} \end{align}$$` `$$\begin{align} ln(Y_i) &= ln(\beta_1) + \beta_2 ln(X_i) +u_i && \text{(mod8)} \end{align}$$` `$$\begin{align} Y_i &= \frac{1}{1+e^{(\beta_1 + \beta_2 X_{2i} +u_i) }} && \text{(mod9)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 +(0.75-\beta_1)e^{-\beta_2(X_i-2)} +u_i && \text{(mod10)} \end{align}$$` `$$\begin{align} Y_i &= \beta_1 + \beta_2^3 X_i +u_i && \text{(mod11)} \end{align}$$` --- layout: false class: center, middle, duke-softblue,hide_logo name: sample # 2.7 样本回归 样本回归线 样本回归函数 样本回归模型 残差 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter02">第02章 一元回归的基本思想</a>                             <a href="#sample">2.7 样本回归 </a></span></div> --- ## 样本回归线(SRL) **样本(Sample)**: - 从总体中随机抽取得到的数据。 **样本回归线**(Sample Regression Line,SRL): - 是通过拟合**样本数据**得到的一条曲线(或直线)。换言之,这条线由拟合值 `\(\hat{Y}_i\)`连接而成。 - `\(\hat{Y}_i\)`是对条件期望值 `\(Y|X_i\)`的拟合。 - 拟合方法有很多,例如采用OLS方法对样本数据进行拟合。 - 尽可能拟合数据 - 用什么方法拟合? - 曲线是什么形态? --- ## 样本回归函数(SRF) **样本回归函数**(Sample Regression Function,SRF):是样本回归曲线的数学函数形式,可以是线性的或非线性。如果是直线则可以写成: `$$\begin{align} \hat{Y}_i =\hat{\beta}_1 + \hat{\beta}_2X_i \end{align}$$` 对比总体回归函数(PRF): `$$\begin{align} E(Y|X_i) =\beta_1 + \beta_2X_i \end{align}$$` 可以认为: - `\(\hat{Y}_i\)`是对 `\(E(Y|X_i)\)`的估计量。 - `\(\hat{\beta}_1\)`是对 `\(\beta_1\)`的估计量。 - `\(\hat{\beta}_2\)`是对 `\(\beta_2\)`的估计量。 --- ### 第一份随机样本:抽样 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-35-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 88 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 157 </td> <td style="text-align:right;"> 165 </td> <td style="text-align:right;"> 185 </td> </tr> </tbody> </table> --- ### 第一份随机样本:数据 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-37-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 88 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 157 </td> <td style="text-align:right;"> 165 </td> <td style="text-align:right;"> 185 </td> </tr> </tbody> </table> --- ### 第一份随机样本:SRL <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-40-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 88 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 157 </td> <td style="text-align:right;"> 165 </td> <td style="text-align:right;"> 185 </td> </tr> </tbody> </table> --- ### 第一份随机样本:SRF 根据第一份随机样本拟合得到的**样本回归函数**SRF: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Y}=&&+13.38&&+0.64X\\ \end{alignedat} \end{equation}$$` 样本数据如下: <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 65 </td> <td style="text-align:right;"> 88 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 93 </td> <td style="text-align:right;"> 107 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 157 </td> <td style="text-align:right;"> 165 </td> <td style="text-align:right;"> 185 </td> </tr> </tbody> </table> --- ### 第二份随机样本:抽样 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-45-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 70 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 136 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 155 </td> <td style="text-align:right;"> 178 </td> </tr> </tbody> </table> --- ### 第二份随机样本:数据 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-47-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 70 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 136 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 155 </td> <td style="text-align:right;"> 178 </td> </tr> </tbody> </table> --- ### 第二份随机样本:SRL <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-50-1.png" style="display: block; margin: auto;" /> <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 70 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 136 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 155 </td> <td style="text-align:right;"> 178 </td> </tr> </tbody> </table> --- ### 第二份随机样本:SRF 根据第二份随机样本拟合得到的**样本回归函数**SRF: `$$\begin{equation} \begin{alignedat}{999} &\widehat{Y}=&&+14.59&&+0.61X\\ \end{alignedat} \end{equation}$$` 样本数据如下: <table> <thead> <tr> <th style="text-align:left;"> var </th> <th style="text-align:right;"> n1 </th> <th style="text-align:right;"> n2 </th> <th style="text-align:right;"> n3 </th> <th style="text-align:right;"> n4 </th> <th style="text-align:right;"> n5 </th> <th style="text-align:right;"> n6 </th> <th style="text-align:right;"> n7 </th> <th style="text-align:right;"> n8 </th> <th style="text-align:right;"> n9 </th> <th style="text-align:right;"> n10 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> X </td> <td style="text-align:right;"> 80 </td> <td style="text-align:right;"> 100 </td> <td style="text-align:right;"> 120 </td> <td style="text-align:right;"> 140 </td> <td style="text-align:right;"> 160 </td> <td style="text-align:right;"> 180 </td> <td style="text-align:right;"> 200 </td> <td style="text-align:right;"> 220 </td> <td style="text-align:right;"> 240 </td> <td style="text-align:right;"> 260 </td> </tr> <tr> <td style="text-align:left;"> Y </td> <td style="text-align:right;"> 55 </td> <td style="text-align:right;"> 70 </td> <td style="text-align:right;"> 90 </td> <td style="text-align:right;"> 108 </td> <td style="text-align:right;"> 125 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 136 </td> <td style="text-align:right;"> 135 </td> <td style="text-align:right;"> 155 </td> <td style="text-align:right;"> 178 </td> </tr> </tbody> </table> --- ### 两份样本同时出现:比较分析 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-55-1.png" style="display: block; margin: auto;" /> --- ## 样本回归模型(SRM) 样本回归模型(Sample Regression Model,SRM):把样本回归函数表现为**“随机”**形式。 - 如果样本回归函数为隐函数,则样本回归模型可记为: `$$\begin{align} Y_i &= g(X_i) +e_i \end{align}$$` - 如果样本回归函数表现为直线,则样本回归模型可记为: `$$\begin{align} Y_i &= \hat{\beta}_1 +\hat{\beta}_2X_i +e_i && \text{(SRM_L)} \end{align}$$` 其中, `\(e_i\)`表示残差(Residual) --- ## 残差 残差(Residual): - 定义:是样本回归函数与Y的样本观测值之间的离差。 - 记号: `$$\begin{align} e_i &= Y_i - \hat{Y}_i \\ &= Y_i - (\hat{\beta}_1 +\hat{\beta}_2X_i) \end{align}$$` --- ## 理解SRF和SRM的关系 <img src="02-simple-reg-basic-slide_files/figure-html/unnamed-chunk-56-1.png" style="display: block; margin: auto;" /> 给定 `\(x_i=\)` 240,样本2的观测值 `\(Y_i=\)` 240。 给定 `\(x_i=\)` 240,样本2的拟合值 `\(\hat{Y}_i=\)` 161.6。 残差 `\(e_i=Y_i- \hat{Y}_i=\)` -6.6。 --- ## 样本回归与总体回归的比较 <img src="../pic/chpt2-1-PRL-SRL.png" width="710" style="display: block; margin: auto;" /> -- 为何不同?继承性和变异性 --- ## 样本回归与总体回归的比较 .pull-left[ 总体回归函数PRF: `$$\begin{align} E(Y|X_i) &= \beta_1 +\beta_2X_i && \text{(PRF)} \end{align}$$` 总体回归模型PRM: `$$\begin{align} Y_i &= \beta_1 +\beta_2X_i + u_i && \text{(PRM)} \end{align}$$` ] .pull-right[ 样本回归函数SRF: `$$\begin{align} \hat{Y}_i =\hat{\beta}_1 + \hat{\beta}_2X_i && \text{(SRF)} \end{align}$$` 样本回归模型SRM: `$$\begin{align} Y_i &= \hat{\beta}_1 + \hat{\beta}_2X_i +e_i && \text{(SRM)} \end{align}$$` ] -- 思考: - PRF无法直接观测,只能用SRF近似替代 - 估计值与观测值之间存在偏差 - SRF又是怎样决定的呢? --- ## 样本回归与总体回归的比较 知识点总结: - 随机抽样数据继承了总体的特征。 - 利用随机样本进行数据拟合是对总体规律的“反向追踪”。 - 样本回归模型中的残差是拟合不完全的产物。 课后思考: -- - 怎样来判定对随机样本的一次数据拟合是更优的? - 存不存在一种“最优”的拟合方法? -- 课后作业: - 请把162名同学的拟合线进行平均化处理(截距和斜率取均值),绘制得到一条“回归线”。 - 你认为是这根平均化的“回归线”与真相更逼近么? --- layout: false background-image: url("../pic/thank-you-gif-funny-gentle.gif") class: inverse,center # 本章结束