background-image: url("../pic/slide-front-page.jpg") class: center,middle # 计量经济学(Econometrics) ### 胡华平 ### 西北农林科技大学 ### 经济管理学院数量经济教研室 ### huhuaping01@hotmail.com ### 2023-02-15
--- class: center, middle, duke-orange,hide_logo name: chapter10 # 第10章:虚拟变量回归模型 .pull-left[ [10.0 相关知识回顾](#review) [10.1 虚拟变量的设置规则](#rule) [10.2 方差分析(ANOVA) 模型](#dummy-mod) [10.3 只含有一个定性变量的ANOVA模型](#one) [10.4 同时含有一个定性和一个定量变量的ANOVA 模型](#one-one) ] .pull-right[ [10.5 同时含有多个定性和定量变量的ANOVA 模型](#multiple) [10.6 印度工人工资案例](#example) [10.7 时间序列季节虚拟变量模型](#series) [10.8 分段线性回归模型](#piecewise) ] --- layout: false class: center, middle, duke-softblue,hide_logo name: review # 10.0 相关知识回顾 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第10章 虚拟变量回归模型</a>                             <a href="#review">10.0 相关知识回顾</a> </span></div> --- ## 变量类型 **定量变量**(Quantitative variable)一般也称为连续变量,是由测量或计数、统计所得到的量,可以通过数值表达,并具有直接的数值含义。 **定性变量**(qualitative variables):又被称为指标变量(indicator variables)、分类变量(categorical variables),主要用于区分事物性质差异,往往用语义类别表达,没有直接的数值含义。 - 性别(男;女) - 肤色(黄色;白色;黑色;其他) - 种族、宗教、国籍、地区、政治动乱和党派等。 > **提问**:定性变量怎样表达出来?如何数量化? --- ## 变量尺度 **变量尺度**(Variable scale):刻画的是变量的数值含义或数值关系。它将意味着在数值含义和关系上,变量是有层次级别的差异性。根据变量层级不同,具体可以分为由低到高的4个层级: - **名义尺度(nominal scale)变量**:这类变量只用于属性分类,不具备任何数值含义或数值关系,也即不能加、减、乘、除,也不能比较大小。 - **序数尺度(order scale)变量**:这类变量具备很少的数值含义或数值关系,它可以比较大小,但不能进行加、减、乘、除。 - **区间尺度(interval scale)变量**:这类变量具备一定的数值含义或数值关系,它可以比较大小,也可以进行加、减,但不能进行乘、除。 - **比率尺度(ratio scale)变量**:这类变量具备最多的数值含义或数值关系,它可以比较大小,也可以进行加、减、乘、除。 --- ### 区域经理年薪案例(数据)
**区域经理年薪案例**中,公司有五名区域经理,分别负责不同的国际市场。 >变量 `\(salary\)`表示区域经理的年薪(万元);变量 `\(sale\)`表示负责市场的销售额;变量 `\(score\)`表示客户对区域经理的评价(1表示很不满意,2表示不满意,3表示一般,4表示很满意,5表示非常满意);变量 `\(race\)`表示区域市场主要消费群体的肤色(yellow表示黄色消费群体、white表示白色消费群体,black表示黑色消费群体)。 --- ### 区域经理年薪案例(变量)
根据以上定义,**区域经理年薪案例**中,可以认为年薪 `\(salary\)`、销售额 `\(sale\)`,以及客户评价 `\(score\)`为**定量变量**,消费群体主要肤色 `\(race\)`为**定性变量**。 >从变量的度量尺度来看: - 年薪 `\(salary\)`和销售额 `\(sale\)`两个变量为**比率尺度**变量 - 客户评价 `\(score\)`变量为**序数尺度**变量 - 消费群体主要肤色 `\(race\)`为**名义尺度**变量 --- layout: false class: center, middle, duke-softblue,hide_logo name: rule # 10.1 虚拟变量的设置规则 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第10章 虚拟变量回归模型</a>                             <a href="#rule">10.1 虚拟变量的设置规则</a> </span></div> --- ## 定性变量对回归模型的影响 计量经济学建模分析中,我们常常需要把一些**定性变量**(Qualitative variables)(如性别、地区、党派等)作为自变量放入回归模型中。 从**变量层次**(Variable Scale)来看,这些变量没有具体的取值,只有特定属性类别。例如,性别变量的具体取值往往为男或女。显然,诸如此类的变量如果直接放到线性回归模型中,将会产生一系列的参数估计、模型解释等问题。 `$$\begin{align} salary_i = \beta_1 +\beta_2sale_i +\beta_3score_i + \beta_4 race_i + u_i \end{align}$$` - 一个**定性变量**的不同数据取值,称为该定性变量的**属性**。 - 定性变量的任一属性,都可以设置为一个**虚拟变量**。 - 我们可以用一套**虚拟变量体系**来完全表达一个定性变量。 - 按照一定规则构建虚拟变量回归模型,避免参数估计、模型解释等问题的出现。 --- ## 虚拟变量的定义 **虚拟变量**(dummy variable):将取值为0和1的**人造变量**称为虚拟变量。 - 对定性变量的量化可采用虚拟变量的方式实现。 - 一般而言,1表示出现(或具备)某种属性,0表示没有(或不具备)某种属性。 对于某定性变量的任一特定属性,可以构造出一个虚拟变量(记为D),使得该虚拟变量能够表达这一属性。同时,给该虚拟变量D赋值为1,记为具备这一属性;给该虚拟变量赋值为0,记为不具备该属性。 正式地,假设定性变量 `\(X\)`具有 `\(m\)`个属性 `\(a_1,a_2,\cdots,a_m\)`,对于任意属性 `\(k,(k\in{1,2,\cdots,m})\)`,可以定义如下的虚拟变量 `\(D_k\)`: `$$\begin{align} D_k= \begin{cases} 1, & \text{if } a_k \\ 0, & \text{if not } a_k \end{cases} \end{align}$$` --- ### 区域经理年薪案例(虚拟变量) **区域经理年薪**案例中,**定性变量**`race`(人种,其取值为黄种人/白种人/黑种人),可以构造出3个虚拟变量 `$$\begin{align} race\{a_1=\text{yellow},a_2=\text{white},a_3=\text{black}\} \\ dummy \Longrightarrow \begin{cases} D_1 = \begin{cases} 1, & \text{yellow}\\ 0, & \text{not yellow} \end{cases} \\ D_2 = \begin{cases} 1, & \text{white}\\ 0, & \text{not white} \end{cases} \\ D_3 = \begin{cases} 1, & \text{black}\\ 0, & \text{not black} \end{cases} \end{cases} \end{align}$$` --- ## 虚拟变量体系 **虚拟变量体系**:完整表达某个定性变量全部信息的一组虚拟变量。 正式地,假设定性变量 `\(X\)`具有 `\(m\)`个属性 `\(a_1,a_2,\cdots,a_m\)`,可以用如下一组虚拟变量 `\(D_1,\cdots,D_k,\cdots,D_m\)`完全表达该定性变量: `$$\begin{align} X\{a_1,a_2,\cdots,a_m\} \Rightarrow \begin{cases} D_1 = \begin{cases} 1, & \text{if } a_1\\ 0, & \text{if not } a_1 \end{cases} \\ \vdots \\ D_k = \begin{cases} 1, & \text{if } a_k\\ 0, & \text{if not } a_k \end{cases} \\ \vdots\\ D_m = \begin{cases} 1, & \text{if } a_m\\ 0, & \text{if not } a_m \end{cases} \end{cases} \end{align}$$` --- ### 区域经理年薪案例(虚拟变量体系) 实际数据操作中,一般需要对定性变量 `\(race\)`进行重新编码(recode),生成三个对应的虚拟变量。
--- layout: false class: center, middle, duke-softblue,hide_logo name: dummy-mod # 10.2 方差分析模型模型(ANOVA model) --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第10章 虚拟变量回归模型</a>                             <a href="#dummy-mod">10.2 方差分析模型模型(ANOVA model)</a> </span></div> --- ## 定义 **区域经理薪水案例**中,如果不区分变量类型和特征,做如下的回归模型,则回归分析结果将会带来严重的问题。 `$$\begin{align} salary_i = \beta_1 +\beta_2sale_i +\beta_3score_i + \beta_4 race_i + u_i \end{align}$$` 事实上,应该将上述模型转换为**虚拟变量回归模型**(Dummy model)。 `$$\begin{align} salary_i & ={\beta}_1 + &&\beta_2sale_i +\beta_3score_i+{\beta}_4race\_yellow_i+{\beta}_5race\_white_i+u_i \\ salary_i & = &&\beta_2sale_i +\beta_3score_i+{\beta}_4race\_yellow_i+{\beta}_5race\_white_i +{\beta}_6race\_black_i+u_i \\ \end{align}$$` --- ## 定义 一个线性回归模型,只要回归元中包含了虚拟变量,这种模型就被称为**虚拟变量回归模型**,也可以称为**方差分析模型** (Analysis of variance, ANOVA)。 **方差分析模型**(Analysis of variance, ANOVA)常用来分析定量化的因变量 `\(Y\)`与定性回归元或虚拟变量之间的统计显著性关系。 一般是通过比较不同类别或不同组的均值差,例如采用t检验可以判断两组均值是否有显著的差异。 > **提问**:你还能不能设置成其他类型的模型形式?怎样设置才是正确的**方差分析模型**? --- ## 方差分析模型:本质 `$$\begin{align} salary_i & =\beta_1 + \beta_2sale_i +\beta_3score_i+\beta_4race\_yellow_i+\beta_5race\_white_i+u_i \end{align}$$` 很显然,在上述总体回归模型下,可以得到所有3类“分组”情形下的期望年薪水平: `$$\begin{align} E(Y| & race\_yellow=1,race\_white=0,sale,score) \\ &=\beta_1+\beta_2sale+\beta_3score + \beta_4 &&\text{(market yellow)} \\ E(Y| & race\_yellow=0,race\_white=1,sale,score) \\ &=\beta_1+\beta_2sale+\beta_3score + \beta_5 &&\text{(market white)} \\ E(Y| & race\_yellow=0,race\_white=0,sale,score) \\ &=\beta_1 +\beta_2sale+\beta_3score &&\text{(market black)} \end{align}$$` --- ## 方差分析模型:内涵 `$$\begin{align} salary_i & =\beta_1 + \beta_2sale_i +\beta_3score_i+\beta_4race\_yellow_i+\beta_5race\_white_i+u_i \end{align}$$` 上述模型被称其为**有截距**的含有虚拟变量的、加法形式的回归模型。显然,虚拟变量 `\(race\_{black}\)`没有进入模型中;模型设置有截距项 `\(\beta_1\)`。在这种设定下,我们称: - **黑色(black)**为模型的**基础组** - **黄色(yellow)**和**白色(white)**分别为模型的**比较组**。 - 有序变量 `\(score\)`为**协变量(covariates)**或**控制变量(control variable)** - `\(\beta_1\)`为**截距系数**,代表基础组的期望水平 - `\(\beta_2;\beta_3\)`为**平行斜率系数**,代表协变量的影响效应 - `\(\beta_4,\beta_5\)`为**极差系数**,代表的是比较组与基础组期望水平的差距 --- ## 方差分析模型的类型:数量关系 根据回归元包含**定量变量**和**虚拟变量**的数量关系,可以将虚拟变量回归模型分为: - 只含有虚拟变量的回归模型:全部解释变量都是由虚拟变量构成 - 同时含有虚拟变量和定量变量的回归模型:解释变量同时含有虚拟变量和定量变量 --- ## 方差分析模型的类型:引入方式 根据模型中虚拟变量**引入方式**的不同,可以划分为: - 加法模型:虚拟变量以独立项的形式出现在方程中 - 乘法模型:虚拟变量以交叉项的形式出现在方程中 - 混合模型:虚拟变量以独立项和/或交叉项的形式出现在方程中^[有时候模型设置中,某个虚拟变量体系(用来表达某个定性变量)的独立项可以完全不出现在方程中(也即没有它们的加法形式),而却可以出现它们与其他变量的交叉项(也即可以出现它们与其他变量的乘法形式)。] - 完全混合模型 - 部分混合模型 --- ## 方差分析模型的类型:基础组 根据虚拟变量模型是否参照**基础组**,可以划分为: - 有截距模型:此时模型解释中将有明确的**基础组**,其他组可以直接与之参照对比。 - 无截距模型:此时模型解释中将没有明确的**基础组**,各组间将不直接参照对比。 --- ## 方差分析模型的类型:函数形式 根据模型中的因变量 `\(Y\)`是否取对数,可以划分为(半对数或对数模型将蕴含着弹性和斜率的经济学含义,在解释虚拟变量回归模型中往往很有现实意义): - 经典线性模型:因变量为 `\(Y\)` - 半对数模型:因变量为 `\(ln(Y)\)` --- ## 方差分析模型的类型:应用情景 根据虚拟变量模型**应用情景**的不同,可以划分为: - 截面数据虚拟变量回归模型:此时虚拟变量用于表达回归元为定性变量的情形 - 时间序列季节虚拟变量回归模型:此时虚拟变量用于表达季节周期 - 分段线性虚拟变量回归模型:此时虚拟变量用于表达**阀值**分段 --- ## 方差分析模型的类型:综合 对于具体的实证分析案例,我们往往需要根据变量的属性和特征,构建不同类型的虚拟变量回归模型,比较不同模型的回归分析结果,甄选并得到其中相对理想的模型。 例如,仅是考虑**基础组**的有截距模型,可能用到的各类备选组合模型至少包括: - 只含有虚拟变量的、加法形式的**经典回归模型** - 只含有虚拟变量的、加法形式的**半对数回归模型** - 只含有虚拟变量的、乘法形式的**经典回归模型** - 只含有虚拟变量的、乘法形式的**半对数回归模型** - `\(\cdots\)` - 同时含有虚拟变量和定量变量的、加法形式的**经典回归模型** - 同时含有虚拟变量和定量变量的、加法形式的**半对数回归模型** - 同时含有虚拟变量和定量变量的、乘法形式的**经典回归模型** - 同时含有虚拟变量和定量变量的、乘法形式的**半对数回归模型** - `\(\cdots\)` --- layout: false class: center, middle, duke-softblue,hide_logo name: one # 10.3 只含有一个定性变量的ANOVA模型 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第10章 虚拟变量回归模型</a>                     <a href="#one">10.3 只含有一个定性变量的ANOVA模型</a> </span></div> --- ## 公立学校教师薪水案例 下面我们以公立学校教师薪水案例进行说明。 --- ### 变量 一项研究关注于对美国51个州公立学校教师薪水的分析: - 变量 `\(Salary\)`表示公立学校教师平均薪水;变量 `\(Spend\)`表示公立学校教师平均支出 - `\(state\)`表示公立学校所在州名称; `\(Region\)`表示州所属的区位(`West`表示**西部**州;`M.E.N`表示**中东北部**州;`South`表示**南部**州)。 <img src="../pic/chpt-10-region-show.png" width="454" style="display: block; margin: auto;" /> --- ### 数据
--- ### 描述统计
根据以上简单的汇总计算: - 教师的平均薪水:**中东北部**为49 538.71 美元;**南部**为46 293.59 美元; 西部为48 104.62美元。 - 那么,三个地区的平均薪水在**统计上**也彼此不同吗? --- ### 虚拟变量体系 根据前述定义,我们可以将**定性变量** `\(Region\)`设置为如下的**虚拟变量体系**: .pull-left[ `$$\begin{align} Region\{West; \quad M.E.N; \quad South \} \\ \Rightarrow \begin{cases} D_1 = \begin{cases} 1, & \text{if } West\\ 0, & \text{if not } West \end{cases} \\ D_2 = \begin{cases} 1, & \text{if } M.E.N\\ 0, & \text{if not } M.E.N \end{cases} \\ D_3 = \begin{cases} 1, & \text{if } South\\ 0, & \text{if not } South \end{cases} \end{cases} \end{align}$$` ] .pull-right[ <img src="../pic/chpt-10-region-show.png" width="656" style="display: block; margin: auto;" /> ] --- ### 虚拟变量变换 实际建模之前,我们需要把定性变量 `\(Region\)`进行**数据变换**,得到虚拟变量的数据:
--- ### 有截距虚拟变量模型:PRM1 我们可以构建薪水( `\(Salary\)`)对区域虚拟变量( `\(D2;D3\)`)的**有截距**总体回归模型PRM: `$$\begin {align} Salary_{i}=\beta_{1}+\beta_{2} D2_{ i}+\beta_{3} D3_{ i}+u_{i} \end {align}$$` 理论上,我们可以得到三个区域教师薪水的期望值: .pull-left[ `$$\begin{align} E(Salary| D2=1,D3=0) &=\beta_1+\beta_2 &&\text{(M.E.N)} \\ E(Salary| D2=0,D3=1) &=\beta_1+\beta_3 &&\text{(South)} \\ E(Salary| D2=0,D3=0) &=\beta_1 &&\text{(West)} \end{align}$$` ] .pull-right[ <img src="../pic/chpt-10-region-show.png" width="656" style="display: block; margin: auto;" /> ] --- ### 有截距虚拟变量模型:OLS估计 `$$\begin{equation} \begin{alignedat}{999} &\widehat{Salary}=&&+48014.62&&+1524.10D2&&-1721.03D3\\ &\text{(t)}&&(25.8532)&&(0.6449)&&(-0.6976)\\&\text{(se)}&&(1857.2037)&&(2363.1394)&&(2467.1508)\\&\text{(fitness)}&& R^2=0.0440;&& \bar{R^2}=0.0041\\& && F^{\ast}=1.10;&& p=0.3399 \end{alignedat} \end{equation}$$` <img src="../pic/chpt-10-salary-main-ill.png" width="651" style="display: block; margin: auto;" /> > - 基础组是谁?极差系数的含义? > - 三个区域的平均薪水具有统计上的显著差异吗? --- ### 有截距虚拟变量模型:OLS估计 <img src="../pic/chpt-10-salary-coef.png" width="506" style="display: block; margin: auto;" /> .pull-left[ > 提问: - 基础组该怎样确定? - 有什么要求么? ] .pull-right[ <img src="../pic/chpt-10-region-show.png" width="454" style="display: block; margin: auto;" /> ] --- ### 无截距虚拟变量模型:PRM2 我们也可以构建薪水( `\(Salary\)`)对区域虚拟变量( `\(D1;D2;D3\)`)的**无截距**总体回归模型PRM: `$$\begin {align} Salary_{i}=\alpha_{1} D1_{ i}+\alpha_{2} D2_{ i}+\alpha_{3} D3_{ i}+u_{i} \end {align}$$` 理论上,我们可以得到三个区域教师薪水的期望值: .pull-left[ `$$\begin{align} E(Salary| D1=0,D2=1,D3=0) &=\alpha_2 &&\text{(M.E.N)} \\ E(Salary| D1=0,D2=0,D3=1) &=\alpha_3 &&\text{(South)} \\ E(Salary| D1=1,D2=0,D3=0) &=\alpha_1 &&\text{(West)} \end{align}$$` ] .pull-right[ <img src="../pic/chpt-10-region-show.png" width="656" style="display: block; margin: auto;" /> ] --- ### 无截距虚拟变量模型:OLS估计 `$$\begin{equation} \begin{alignedat}{999} &\widehat{Salary}=&&+48014.62D1&&+49538.71D2&&+46293.59D3\\ &\text{(t)}&&(25.8532)&&(33.9018)&&(28.5045)\\&\text{(se)}&&(1857.2037)&&(1461.2400)&&(1624.0775)\\&\text{(fitness)}&& R^2=0.9821;&& \bar{R^2}=0.9810\\& && F^{\ast}=876.74;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ### 无截距虚拟变量模型:OLS估计 <img src="../pic/chpt-10-salary-coef2.png" width="574" style="display: block; margin: auto;" /> .pull-left[ > 提问: - 此时谁是基础组? - 回归模型有没有基础组,很重要么? ] .pull-right[ <img src="../pic/chpt-10-region-show.png" width="454" style="display: block; margin: auto;" /> ] --- ## 虚拟变量模型的构建规则 若定性因素具有m个相互排斥属性(或几个水平): - **规则1**:当回归模型有截距项时,只能设(m-1)个虚拟变量; - **规则2**:当回归模型无截距项时,则可引入m个虚拟变量。否则,就会陷入“虚拟变量陷阱”。(为什么?) - **规则3**:在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型、否定类型取值为0。 > **思考**:规则1和规则2分别建立虚拟变量回归模型,哪种更好呢? --- ## 虚拟变量模型的构建规则:示例 **建模1**: (正确模型)使用m-1个虚拟变量,并设定为**有截距**: `$$\begin {align} Salary_{i}=\beta_{1}+\beta_{2} D2_{ i}+\beta_{3} D3_{ i}+u_{i} \end {align}$$` **建模2**: (正确模型)使用m个虚拟变量,并设定为**无截距**: `$$\begin {align} Salary_{i}=\alpha_{1} D1_{ i}+\alpha_{2} D2_{ i}+\alpha_{3} D3_{ i}+u_{i} \end {align}$$` **建模3**: (错误模型)使用m个虚拟变量,并设定为**有截距**: `$$\begin {align} Salary_{i}=\gamma_{0}+\gamma_{1} D1_{ i}+\gamma_{2} D2_{ i}+\gamma_{3} D3_{ i}+u_{i} \end {align}$$` > **提问**: - 模型1和模型2的回归系数涵义是一样的么? - 执意采用OLS方法估计模型3,会有什么后果? --- ## 虚拟变量模型的构建规则:R软件示例 .scroll-box-10[ ```r mod.main3 <- "Salary ~1+ D1+D2 +D3" lm.main3 <- lm(mod.main3, data_demon) summary(lm.main3) ``` ``` Call: lm(formula = mod.main3, data = data_demon) Residuals: Min 1Q Median 3Q Max -14161 -4566 -1638 4632 15625 Coefficients: (1 not defined because of singularities) Estimate Std. Error t value Pr(>|t|) (Intercept) 46294 1624 28.505 <2e-16 *** D1 1721 2467 0.698 0.489 D2 3245 2185 1.485 0.144 D3 NA NA NA NA --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 6696 on 48 degrees of freedom Multiple R-squared: 0.04397, Adjusted R-squared: 0.004134 F-statistic: 1.104 on 2 and 48 DF, p-value: 0.3399 ``` ] 对于错误的**建模3**,有些统计软件(如以上R软件)会自动去掉一个多于的虚拟变量。 `$$\begin {align} Salary_{i}=\gamma_{0}+\gamma_{1} D1_{ i}+\gamma_{2} D2_{ i}+\gamma_{3} D3_{ i}+u_{i} \end {align}$$` --- layout: false class: center, middle, duke-softblue,hide_logo name: one-one # 10.4 同时含有一个定性变量 # 和定量变量的ANOVA模型 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第10章 虚拟变量回归模型</a>                     <a href="#one-one">10.4同时含有一个定性变量和定量变量的ANOVA模型</a> </span></div> --- ## 公立学校教师薪水案例 我们继续来看公立学校教师薪水案例的建模分析。 --- ### 数据 把定性变量 `\(Region\)`进行**数据变换**,得到数据:
--- ### 有截距虚拟变量模型:PRM1 我们可以构建薪水( `\(Salary\)`)对区域虚拟变量( `\(D2;D3\)`)和定量变量 `\(Spend\)`的**有截距**总体回归模型PRM: `$$\begin {align} Salary_{i}=\beta_{1}+\beta_{2} D2_{ i}+\beta_{3} D3_{ i}+\lambda Spend_i+u_{i} \end {align}$$` 理论上,我们可以得到三个区域教师薪水的期望值: .pull-left[ `$$\begin{align} E(Salary| D2=1,D3=0) &=\beta_1+\beta_2 +\lambda Spend &&\text{(M.E.N)} \\ E(Salary| D2=0,D3=1) &=\beta_1+\beta_3 +\lambda Spend &&\text{(South)} \\ E(Salary| D2=0,D3=0) &=\beta_1 +\lambda Spend &&\text{(West)} \end{align}$$` ] .pull-right[ <img src="../pic/chpt-10-region-show.png" width="656" style="display: block; margin: auto;" /> ] --- ### 有截距虚拟变量模型:OLS估计 `$$\begin{equation} \begin{alignedat}{999} &\widehat{Salary}=&&+28694.92&&-2954.13D2&&-3112.19D3&&+2.34Spend\\ &\text{(t)}&&(8.7953)&&(-1.5860)&&(-1.7101)&&(6.5152)\\&\text{(se)}&&(3262.5213)&&(1862.5756)&&(1819.8725)&&(0.3592)\\&\text{(fitness)}&& R^2=0.4977;&& \bar{R^2}=0.4656\\& && F^{\ast}=15.52;&& p=0.0000 \end{alignedat} \end{equation}$$` .pull-left[ **提问1**:大白话解释上述回归函数! **思考1**:基准组是什么?谁是协变量? **思考2**:三条线为什么是平行的? **思考3**:统计上来看,南部线和西部线是不一样的么? ] .pull-right[ <img src="../pic/chpt-10-region-show.png" width="454" style="display: block; margin: auto;" /> ] --- ### 有截距虚拟变量模型:OLS估计 <img src="10-dummy-model-slide_files/figure-html/unnamed-chunk-28-1.png" style="display: block; margin: auto;" /> --- ### 无截距虚拟变量模型:PRM2 我们可以构建薪水( `\(Salary\)`)对区域虚拟变量( `\(D1; D2;D3\)`)和定量变量 `\(Spend\)`的**无截距**总体回归模型PRM: `$$\begin {align} Salary_{i}=\alpha_{1} D1_{ i}+\alpha_{2} D2_{ i}+\alpha_{3} D3_{ i}+\lambda Spend_i+u_{i} \end {align}$$` 理论上,我们可以得到三个区域教师薪水的期望值: .pull-left[ `$$\begin{align} E(Salary| D1=0,D2=1,D3=0;Spend) &=\alpha_2 +\lambda Spend &&\text{(M.E.N)} \\ E(Salary| D1=0,D2=0,D3=1;Spend) &=\alpha_3 +\lambda Spend &&\text{(South)} \\ E(Salary| D1=1,D2=0,D3=0;Spend) &=\alpha_1 +\lambda Spend &&\text{(West)} \end{align}$$` ] .pull-right[ <img src="../pic/chpt-10-region-show.png" width="656" style="display: block; margin: auto;" /> ] --- ### 无截距虚拟变量模型:OLS估计 `$$\begin{equation} \begin{alignedat}{999} &\widehat{Salary}=&&+28694.92D1&&+25740.79D2&&+25582.72D3&&+2.34Spend\\ &\text{(t)}&&(8.7953)&&(6.7627)&&(7.5372)&&(6.5152)\\&\text{(se)}&&(3262.5213)&&(3806.2835)&&(3394.1819)&&(0.3592)\\&\text{(fitness)}&& R^2=0.9906;&& \bar{R^2}=0.9898\\& && F^{\ast}=1235.97;&& p=0.0000 \end{alignedat} \end{equation}$$` .pull-left[ - **提问1**:大白话解释上述回归函数! - **思考1**:基准组是什么?谁是协变量? - **思考2**:三条线为什么是平行的? - **思考3**:统计上来看,南部线和西部线是不一样的么? - **思考4**:**有截距模型**和**无截距模型**的图形为什么是一样的? ] .pull-right[ <img src="../pic/chpt-10-region-show.png" width="454" style="display: block; margin: auto;" /> ] --- ### 无截距虚拟变量模型:OLS估计 <img src="10-dummy-model-slide_files/figure-html/unnamed-chunk-33-1.png" style="display: block; margin: auto;" /> --- layout: false class: center, middle, duke-softblue,hide_logo name: multiple # 10.5 同时含有多个定性变量 # 和定量变量的ANOVA模型 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第10章 虚拟变量回归模型</a>                     <a href="#multiple">10.5 同时含有多个定性变量和定量变量的ANOVA模型</a> </span></div> --- ## 虚拟变量的引入方式(定义) 如果自变量中存在k个定性变量( `\(X_{1i},X_{2i},\cdots,X_{ki}\)`),而且每个定性变量还有自己的属性个数( `\(X_{ki} \quad (a_1,a_2,\cdots, a_m)\)`)。那么把这些**定性变量**转换成各自的**虚拟变量体系**后,虚拟变量在模型中出现的关系则可以有多种形式: -- 1. 虚拟变量以**加法形式**引入的回归模型:是指各个**定性变量**的虚拟变量体系,**各自**以**独立项**的形式出现在模型中。 -- 2. 虚拟变量以**乘法形式**引入的回归模型:是指各个**定性变量**的虚拟变量体系,存在**相互**以**交叉项**的形式出现在模型中。 --- ## 虚拟变量的引入方式(定义) 如果自变量中存在k个定性变量( `\(X_{1i},X_{2i},\cdots,X_{ki}\)`),而且每个定性变量还有自己的属性个数( `\(X_{ki} \quad (a_1,a_2,\cdots, a_m)\)`)。那么把这些**定性变量**转换成各自的**虚拟变量体系**后,虚拟变量在模型中出现的关系则可以有多种形式: 3. 虚拟变量以**混合形式**(既有加法形式也有乘法形式)引入的回归模型:是指各个**定性变量**的虚拟变量体系,及有**各自**以**独立项**的形式,也有**相互**以**交叉项**的形式出现在模型中。又具体分为两种情形: - 完全混合模型:两个定性变量的虚拟变量体系,既有各自**独立项**,又有它们相互间完全**交叉项**。 - 部分混合模型:两个定性变量的虚拟变量体系,既有各自**独立项**,又有它们相互间不完全的**交叉项**(也即部分交叉)。 --- ## 虚拟变量的引入方式(示例) 为了研究工人工资的影响因素,我们可以考虑如下变量: - 定量变量:工资 `\(wage\)`;年龄 `\(age\)` - 定性变量:教育程度 `\(edu\{a_1=\text{ill},a_2=\text{pri},a_3=\text{mid},a_4=\text{hig}\}\)`;工作部门 `\(dpt\{a_1=\text{tem},a_2=\text{per}\}\)`;性别 `\(sex\{a_1=\text{f},a_2=\text{m}\}\)`。 > 教育程度edu:ill表示文盲;pri表示初等教育;mid表示中等教育;hig表示高等教育。 > 工作类型dpt:tem表示临时工;per表示合同工。 > 性别sex:f表示女性;m表示男性。 --- class: page-font-21 ## 虚拟变量的引入方式(示例) 因为涉及到三个定性变量,我们可以将他们转换为各自的**虚拟变量体系**: -- .pull-left[ **教育程度**定性变量`edu`: `$$\begin{align} &edu\{a_1=\text{ill},a_2=\text{pri},a_3=\text{mid} ,a_4=\text{hig}\} \\ &dummy \Longrightarrow \begin{cases} edu\_ill = \begin{cases} 1, & \text{ill}\\ 0, & \text{not ill} \end{cases} \\ edu\_pri = \begin{cases} 1, & \text{pri}\\ 0, & \text{not pri} \end{cases} \\ edu\_mid = \begin{cases} 1, & \text{mid}\\ 0, & \text{not mid} \end{cases}\\ edu\_hig = \begin{cases} 1, & \text{hig}\\ 0, & \text{not hig} \end{cases} \end{cases} \end{align}$$` ] -- .pull-right[ **工作类型**定性变量`dpt`: `$$\begin{align} &dpt\{a_1=\text{tem},a_2=\text{per}\} \\ &dummy \Longrightarrow \begin{cases} dpt\_tem = \begin{cases} 1, & \text{tem}\\ 0, & \text{not tem} \end{cases} \\ dpt\_per = \begin{cases} 1, & \text{per}\\ 0, & \text{not per} \end{cases} \end{cases} \end{align}$$` **性别**定性变量`sex`: `$$\begin{align} &sex\{a_1=\text{f},a_2=\text{m}\} \\ &dummy \Longrightarrow \begin{cases} sex\_f = \begin{cases} 1, & \text{f}\\ 0, & \text{not f} \end{cases} \\ sex\_m = \begin{cases} 1, & \text{m}\\ 0, & \text{not m} \end{cases} \end{cases} \end{align}$$` ] --- ## 虚拟变量的引入方式(示例:加法模型) `$$\begin{equation} \begin{alignedat}{999} &wage=&& + \beta_{1} && + \beta_{2} edu_{pri}&& + \beta_{3} edu_{mid}&& + \beta_{4} edu_{hig}&& + \beta_{5} dpt_{per}&& + \beta_{6} sex_{m}&& + \beta_{7} age&&+u_i\\ \end{alignedat} \end{equation}$$` 假定我们关注这样两个群体: **A群体**:年龄为30岁的、女性( `\(sex_m=0\)`)、**受过高等教育**( `\(edu_pri=0,edu_mid=0,edu_hig=1\)`)的、拥有一份**合同工**的( `\(dpt_per=1\)`)。 -- `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 1;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(0)+\beta_{4}(1)+\beta_{5}(1)+\beta_{6}(0)+\beta_{7}(30)\\ =&+\beta_{1}+\beta_{4}+\beta_{5}+30\beta_{7}\\ \end{align}$$` --- ## 虚拟变量的引入方式(示例:加法模型) 假定我们关注这样两个群体: **B群体**:年龄为30岁的、女性( `\(sex_m=0\)`)、**受过高等教育**( `\(edu_pri=0,edu_mid=0,edu_hig=1\)`)的、拥有一份**临时工**的( `\(dpt_per=0\)`)。 -- `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 0;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(0)+\beta_{4}(1)+\beta_{5}(0)+\beta_{6}(0)+\beta_{7}(30)\\ =&+\beta_{1}+\beta_{4}+30\beta_{7}\\ \end{align}$$` --- ## 虚拟变量的引入方式(示例:加法模型) `$$\begin{equation} \begin{alignedat}{999} &wage=&& + \beta_{1} && + \beta_{2} edu_{pri}&& + \beta_{3} edu_{mid}&& + \beta_{4} edu_{hig}&& + \beta_{5} dpt_{per}&& + \beta_{6} sex_{m}&& + \beta_{7} age&&+u_i\\ \end{alignedat} \end{equation}$$` 如果 `\(\beta_5>0\)`,这将意味着: -- - 只要拥有一份**合同工**( `\(dpt_{per}=1\)`)。那么,**在其他同等情况下**,这个人的工资都要高于拥有一份**临时工**( `\(dpt_{per}=0\)`)的人。——无论是高学历的同等条件( `\(edu_{pri}=0,edu_{mid}=0,edu_{hig}=1\)`),还是中等学历的同等条件( `\(edu_{pri}=1,edu_{mid}=0,edu_{hig}=0\)`),还是文盲学历的同等条件( `\(edu_{pri}=0,edu_{mid}=0,edu_{hig}=0\)`)。 -- - 换言之,**工作类型**(dpt)与**受教育程度**(edu)是**独立地**作用于**工资**(wage)的! --- ## 虚拟变量的引入方式(示例:乘法模型) `$$\begin{equation} \begin{alignedat}{999} &wage=&& + \beta_{1} && + \beta_{2} sex_{m}&& + \beta_{3} age&& + \beta_{4} edu_{pri} \ast dpt_{per}\\ &\text{(cont.)}&& + \beta_{5} dpt_{per} \ast edu_{mid}&& + \beta_{6} dpt_{per} \ast edu_{hig}&&+u_i\\ \end{alignedat} \end{equation}$$` 假定我们关注这样两个群体: **A群体**:年龄为30岁的、女性( `\(sex_m=0\)`)、**受过高等教育**( `\(edu_pri=0,edu_mid=0,edu_hig=1\)`)的、拥有一份**合同工**的( `\(dpt_per=1\)`)。 -- `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 1;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(30)+\beta_{4}(0)\cdot(1)+\beta_{5}(1)\cdot(0)+\beta_{6}(1)\cdot(1)\\ =&+\beta_{1}+30\beta_{3}+\beta_{6}\\ \end{align}$$` --- ## 虚拟变量的引入方式(示例:乘法模型) 假定我们关注这样两个群体: **B群体**:年龄为30岁的、女性( `\(sex_m=0\)`)、**受过高等教育**( `\(edu_pri=0,edu_mid=0,edu_hig=1\)`)的、拥有一份**临时工**的( `\(dpt_per=0\)`)。 -- `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 0;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(30)+\beta_{4}(0)\cdot(0)+\beta_{5}(0)\cdot(0)+\beta_{6}(0)\cdot(1)\\ =&+\beta_{1}+30\beta_{3}\\ \end{align}$$` --- ## 虚拟变量的引入方式(示例:乘法模型) `$$\begin{equation} \begin{alignedat}{999} &wage=&& + \beta_{1} && + \beta_{2} sex_{m}&& + \beta_{3} age&& + \beta_{4} edu_{pri} \ast dpt_{per}\\ &\text{(cont.)}&& + \beta_{5} dpt_{per} \ast edu_{mid}&& + \beta_{6} dpt_{per} \ast edu_{hig}&&+u_i\\ \end{alignedat} \end{equation}$$` 如果 `\(\beta_6>0\)`且显著,这将意味着: -- - **在其他同等情况下**,一个拥有一份**合同工**( `\(dpt_{per}=1\)`)且拥有**高学历**( `\(edu_{hig}=1\)`)的人。这个人的工资都要**高于**拥有一份**临时工**( `\(dpt_{per}=0\)`)或**没有**受过高学历教育( `\(edu_{hig}=0\)`)的人。——包括:临时工&文盲;临时工&初等学历;临时工&中等学历;临时工&高等学历;合同工&文盲;合同工&初等学历;合同工&中等学历。 -- - 换言之,**工作类型**(dpt)与**受教育程度**(edu)是**交互地**作用于**工资**(wage)的!——此处重点针对拥有高学历还是不拥有有高学历。 --- ## 虚拟变量的引入方式(示例:混合模型) `$$\begin{equation} \begin{alignedat}{999} &wage=&& + \beta_{1} && + \beta_{2} sex_{m}&& + \beta_{3} dpt_{per}&& + \beta_{4} age&& + \beta_{5} edu_{pri} \ast dpt_{per}\\ &\text{(cont.)}&& + \beta_{6} edu_{mid} \ast dpt_{per}&& + \beta_{7} edu_{hig} \ast dpt_{per}&&+u_i\\ \end{alignedat} \end{equation}$$` 假定我们关注这样两个群体: **A群体**:年龄为30岁的、女性( `\(sex_m=0\)`)、**受过高等教育**( `\(edu_pri=0,edu_mid=0,edu_hig=1\)`)的、拥有一份**合同工**的( `\(dpt_per=1\)`)。 -- `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 1;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(1)+\beta_{4}(30)+\beta_{5}(0)\cdot(1)+\beta_{6}(0)\cdot(1)+\beta_{7}(1)\cdot(1)\\ =&+\beta_{1}+\beta_{3}+30\beta_{4}+\beta_{7}\\ \end{align}$$` --- ## 虚拟变量的引入方式(示例:混合模型) 假定我们关注这样两个群体: **B群体**:年龄为30岁的、女性( `\(sex_m=0\)`)、**受过高等教育**( `\(edu_pri=0,edu_mid=0,edu_hig=1\)`)的、拥有一份**临时工**的( `\(dpt_per=0\)`)。 -- `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 0;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(0)+\beta_{4}(30)+\beta_{5}(0)\cdot(0)+\beta_{6}(0)\cdot(0)+\beta_{7}(1)\cdot(0)\\ =&+\beta_{1}+30\beta_{4}\\ \end{align}$$` --- layout: false class: center, middle, duke-softblue,hide_logo name: example # 10.6 印度工人工资案例 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第10章 虚拟变量回归模型</a>                             <a href="#example">10.6 印度工人工资案例</a> </span></div> --- ### 数据:原始 **印度工人工资**:114位印度工人工资方面的数据如下。
--- ### 数据:变量定义 变量说明见下表: <table class="table" style="font-size: 22px; margin-left: auto; margin-right: auto;"> <caption style="font-size: initial !important;">变量定义及说明</caption> <thead> <tr> <th style="text-align:center;"> variable </th> <th style="text-align:center;"> label </th> <th style="text-align:center;"> remark </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> obs </td> <td style="text-align:center;width: 6em; "> 工人编号 </td> <td style="text-align:center;"> 序号(observations) </td> </tr> <tr> <td style="text-align:center;"> wage </td> <td style="text-align:center;width: 6em; "> 工人工资 </td> <td style="text-align:center;"> 美元/周(\$/week) </td> </tr> <tr> <td style="text-align:center;"> age </td> <td style="text-align:center;width: 6em; "> 年龄 </td> <td style="text-align:center;"> 岁(year) </td> </tr> <tr> <td style="text-align:center;"> edu </td> <td style="text-align:center;width: 6em; "> 教育水平 </td> <td style="text-align:center;"> ill=文盲(illiteracy);pri=初等教育(primary);mid=中等教育(middle);hig=高等教育(higher) </td> </tr> <tr> <td style="text-align:center;"> dpt </td> <td style="text-align:center;width: 6em; "> 合同类型 </td> <td style="text-align:center;"> tem=短期合同(temporary);per=长期合同(permanent) </td> </tr> <tr> <td style="text-align:center;"> sex </td> <td style="text-align:center;width: 6em; "> 性别 </td> <td style="text-align:center;"> f=女(female);m=男(male) </td> </tr> </tbody> </table> --- ###数据:定性变量的属性统计
--- class: page-font-20 ### 数据:定性变量的虚拟变量变换 将基础组设定为{文盲,临时工,女性}(也即{illiteracy,temporary,female})。则可以将全部定性变量的基础组属性{illiteracy,temporary,female}分别设置为虚拟变量`edu_ill`、`dpt_tem`和`sex_f`。 .pull-left[ **教育程度**定性变量`edu`: `$$\begin{align} &edu\{a_1=\text{ill},a_2=\text{pri},a_3=\text{mid} ,a_4=\text{hig}\} \\ &dummy \Longrightarrow \begin{cases} edu\_ill = \begin{cases} 1, & \text{ill}\\ 0, & \text{not ill} \end{cases} \\ edu\_pri = \begin{cases} 1, & \text{pri}\\ 0, & \text{not pri} \end{cases} \\ edu\_mid = \begin{cases} 1, & \text{mid}\\ 0, & \text{not mid} \end{cases}\\ edu\_hig = \begin{cases} 1, & \text{hig}\\ 0, & \text{not hig} \end{cases} \end{cases} \end{align}$$` ] .pull-right[ **工作类型**定性变量`dpt`: `$$\begin{align} &dpt\{a_1=\text{tem},a_2=\text{per}\} \\ &dummy \Longrightarrow \begin{cases} dpt\_tem = \begin{cases} 1, & \text{tem}\\ 0, & \text{not tem} \end{cases} \\ dpt\_per = \begin{cases} 1, & \text{per}\\ 0, & \text{not per} \end{cases} \end{cases} \end{align}$$` **性别**定性变量`sex`: `$$\begin{align} &sex\{a_1=\text{f},a_2=\text{m}\} \\ &dummy \Longrightarrow \begin{cases} sex\_f = \begin{cases} 1, & \text{f}\\ 0, & \text{not f} \end{cases} \\ sex\_m = \begin{cases} 1, & \text{m}\\ 0, & \text{not m} \end{cases} \end{cases} \end{align}$$` ] --- ### 数据:教育变量的虚拟变量变换
--- ### 数据:工作部门变量的虚拟变量变换
--- ### 数据:性别变量的虚拟变量变换
--- ### 加法模型:总体回归模型PRM 同时含虚拟变量和定量变量的、加法形式的经典回归模型: `$$\begin{equation} \begin{alignedat}{999} &wage=&& + \beta_{1} && + \beta_{2} edu_{pri}&& + \beta_{3} edu_{mid}&& + \beta_{4} edu_{hig}&& + \beta_{5} dpt_{per}&& + \beta_{6} sex_{m}&& + \beta_{7} age&&+u_i\\ \end{alignedat} \end{equation}$$` OLS估计的简要报告如下: `$$\begin{equation} \begin{alignedat}{999} &\widehat{wage}=&&+6.79&&+23.96edu_{pri}&&+61.59edu_{mid}&&+150.49edu_{hig}\\ &\text{(t)}&&(0.2130)&&(0.7734)&&(1.9867)&&(3.0054)\\&\text{(se)}&&(31.8931)&&(30.9789)&&(31.0035)&&(50.0725)\\&\text{(cont.)}&&+31.16dpt_{per}&&-83.20sex_{m}&&+3.99age\\&\text{(t)}&&(1.3141)&&(-3.0819)&&(4.5129)\\&\text{(se)}&&(23.7120)&&(26.9981)&&(0.8835)\\&\text{(fitness)}&& R^2=0.3450;&& \bar{R^2}=0.3083\\& && F^{\ast}=9.39;&& p=0.0000\\ \end{alignedat} \end{equation}$$` --- ### 加法模型:EViews报告 <img src="../pic/chpt-10-both-plus.png" width="577" style="display: block; margin: auto;" /> --- ### 加法模型:基础组 * 基础组(**文盲 & 短期合同 & 女性**),也即(**illiteracy & temporary & female**)的期望工资收入为(给定**年龄**为30岁): `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 0;dpt_{per}= 0;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(0)+\beta_{4}(0)+\beta_{5}(0)+\beta_{6}(0)+\beta_{7}(30)\\ =&+\beta_{1}+30\beta_{7}\\ \end{align}$$` `$$\begin{align} (\widehat{wage}&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 0;dpt_{per}= 0;sex_{m}= 0)\\ =&+\hat{\beta}_{1}+\hat{\beta}_{2}(0)+\hat{\beta}_{3}(0)+\hat{\beta}_{4}(0)\\ &+\hat{\beta}_{5}(0)+\hat{\beta}_{6}(0)+\hat{\beta}_{7}(30)\\ =&+[6.79]+[23.96]\cdot(0)+[61.59]\cdot(0)+[150.49]\cdot(0)\\ &+[31.16]\cdot(0)+[-83.20]\cdot(0)+[3.99]\cdot(30)\\ =&126.4104\\ \end{align}$$` --- ### 加法模型:比较组1 比较组1(**高等学历 & 短期合同 & 女性**),也即(**high & temporary & female**)的期望工资收入为(给定**年龄**为30岁): `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 0;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(0)+\beta_{4}(1)+\beta_{5}(0)+\beta_{6}(0)+\beta_{7}(30)\\ =&+\beta_{1}+\beta_{4}+30\beta_{7}\\ \end{align}$$` `$$\begin{align} (\widehat{wage}&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 0;sex_{m}= 0)\\ =&+\hat{\beta}_{1}+\hat{\beta}_{2}(0)+\hat{\beta}_{3}(0)+\hat{\beta}_{4}(1)\\ &+\hat{\beta}_{5}(0)+\hat{\beta}_{6}(0)+\hat{\beta}_{7}(30)\\ =&+[6.79]+[23.96]\cdot(0)+[61.59]\cdot(0)+[150.49]\cdot(1)\\ &+[31.16]\cdot(0)+[-83.20]\cdot(0)+[3.99]\cdot(30)\\ =&276.8995\\ \end{align}$$` --- ### 加法模型:比较组2 比较组2(**高等教育 & 长期合同 & 女性**),也即(**higher & permanent & female**)的期望工资收入为(给定**年龄**为30岁): `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 1;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(0)+\beta_{4}(1)+\beta_{5}(1)+\beta_{6}(0)+\beta_{7}(30)\\ =&+\beta_{1}+\beta_{4}+\beta_{5}+30\beta_{7}\\ \end{align}$$` `$$\begin{align} (\widehat{wage}&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 1;sex_{m}= 0)\\ =&+\hat{\beta}_{1}+\hat{\beta}_{2}(0)+\hat{\beta}_{3}(0)+\hat{\beta}_{4}(1)\\ &+\hat{\beta}_{5}(1)+\hat{\beta}_{6}(0)+\hat{\beta}_{7}(30)\\ =&+[6.79]+[23.96]\cdot(0)+[61.59]\cdot(0)+[150.49]\cdot(1)\\ &+[31.16]\cdot(1)+[-83.20]\cdot(0)+[3.99]\cdot(30)\\ =&308.0604\\ \end{align}$$` --- ### 乘法模型:总体回归模型PRM 同时含虚拟变量和定量变量的、加法形式的经典回归模型: `$$\begin{equation} \begin{alignedat}{999} &wage=&& + \beta_{1} && + \beta_{2} sex_{m}&& + \beta_{3} age&& + \beta_{4} edu_{pri} \ast dpt_{per}&& + \beta_{5} dpt_{per} \ast edu_{mid}&& + \beta_{6} dpt_{per} \ast edu_{hig}&&+u_i\\ \end{alignedat} \end{equation}$$` OLS估计的简要报告如下: `$$\begin{equation} \begin{alignedat}{999} &\widehat{wage}=&&+22.92&&-71.41sex_{m}&&+4.11age&&+28.21edu_{pri} \ast dpt_{per}\\ &\text{(t)}&&(0.7366)&&(-2.5720)&&(4.6325)&&(0.5166)\\&\text{(se)}&&(31.1120)&&(27.7639)&&(0.8870)&&(54.5979)\\&\text{(cont.)}&&+112.68dpt_{per} \ast edu_{mid}&&+33.12dpt_{per} \ast edu_{hig}\\&\text{(t)}&&(2.4012)&&(0.5965)\\&\text{(se)}&&(46.9258)&&(55.5274)\\&\text{(fitness)}&& R^2=0.2872;&& \bar{R^2}=0.2542\\& && F^{\ast}=8.70;&& p=0.0000\\ \end{alignedat} \end{equation}$$` --- ### 乘法模型:EViews报告 <img src="../pic/chpt-10-both-prod-pure.png" width="577" style="display: block; margin: auto;" /> --- ### 乘法模型:基础组 * 基础组(**文盲 & 短期合同 & 女性**),也即(**illiteracy & temporary & female**)的期望工资收入为(给定**年龄**为30岁): `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 0;dpt_{per}= 0;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(30)+\beta_{4}(0)\cdot(0)+\beta_{5}(0)\cdot(0)+\beta_{6}(0)\cdot(0)\\ =&+\beta_{1}+30\beta_{3}\\ \end{align}$$` `$$\begin{align} (\widehat{wage}&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 0;dpt_{per}= 0;sex_{m}= 0)\\ =&+\hat{\beta}_{1}+\hat{\beta}_{2}(0)+\hat{\beta}_{3}(30)+\hat{\beta}_{4}(0)\\ &+\hat{\beta}_{5}(0)+\hat{\beta}_{6}(0)\\ =&+[22.92]+[-71.41]\cdot(0)+[4.11]\cdot(30)+[28.21]\cdot(0)\\ &+[112.68]\cdot(0)+[33.12]\cdot(0)\\ =&146.1879\\ \end{align}$$` --- ### 乘法模型:比较组1 比较组1(**高等学历 & 短期合同 & 女性**),也即(**high & temporary & female**)的期望工资收入为(给定**年龄**为30岁): `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 0;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(30)+\beta_{4}(0)\cdot(0)+\beta_{5}(0)\cdot(0)+\beta_{6}(0)\cdot(1)\\ =&+\beta_{1}+30\beta_{3}\\ \end{align}$$` `$$\begin{align} (\widehat{wage}&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 0;sex_{m}= 0)\\ =&+\hat{\beta}_{1}+\hat{\beta}_{2}(0)+\hat{\beta}_{3}(30)+\hat{\beta}_{4}(0)\\ &+\hat{\beta}_{5}(0)+\hat{\beta}_{6}(0)\\ =&+[22.92]+[-71.41]\cdot(0)+[4.11]\cdot(30)+[28.21]\cdot(0)\\ &+[112.68]\cdot(0)+[33.12]\cdot(0)\\ =&146.1879\\ \end{align}$$` --- ### 乘法模型:比较组2 比较组2(**高等教育 & 长期合同 & 女性**),也即(**higher & permanent & female**)的期望工资收入为(给定**年龄**为30岁): `$$\begin{align} E(wage&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 1;sex_{m}= 0)\\ =&+\beta_{1}+\beta_{2}(0)+\beta_{3}(30)+\beta_{4}(0)\cdot(1)+\beta_{5}(1)\cdot(0)+\beta_{6}(1)\cdot(1)\\ =&+\beta_{1}+30\beta_{3}+\beta_{6}\\ \end{align}$$` `$$\begin{align} (\widehat{wage}&|age=30;edu_{pri}= 0;edu_{mid}= 0;edu_{hig}= 1;dpt_{per}= 1;sex_{m}= 0)\\ =&+\hat{\beta}_{1}+\hat{\beta}_{2}(0)+\hat{\beta}_{3}(30)+\hat{\beta}_{4}(0)\\ &+\hat{\beta}_{5}(0)+\hat{\beta}_{6}(1)\\ =&+[22.92]+[-71.41]\cdot(0)+[4.11]\cdot(30)+[28.21]\cdot(0)\\ &+[112.68]\cdot(0)+[33.12]\cdot(1)\\ =&179.3103\\ \end{align}$$` --- layout: false class: center, middle, duke-softblue,hide_logo name: series # 10.7 时间序列季节虚拟变量模型 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第10章 虚拟变量回归模型</a>                      <a href="#series">10.7 时间序列季节虚拟变量模型</a></span></div> --- ## 时间序列季节虚拟变量模型 **时间序列季节虚拟变量模型**:是指时间变量以虚拟变量形式进入回归方程的模型,它是虚拟变量回归模型的一种特定形式及应用。 - 季节模式(seasonal pattern):大多数时间序列经济变量,通常表现出来的季节性往复行为或现象。 - 季节调整(seasonal adjusted):将时间序列经济变量的季节性变化成分去除,从而得到一个新的变量序列的处理过程。 事实上,一个时间序列经济变量往往同时存在四个成分,分别是: - **季节成分**(seasonal component) - **周期成分**(cyclical component) - **趋势成分**(trend component) - **严格随机成分**(strictly random component) --- ## 时间序列季节虚拟变量模型 如果把定性变量季节(season:Q1;Q2;Q3;Q4)变换为**虚拟变量体系**,则分别可以构建以第一季度为**基础组**的时间序列季节虚拟变量模型和**无基础组**的时间序列季节虚拟变量模型( `\(X_t\)`为定量变量)。 `$$\begin{align} Y_t=\beta_1+\beta_2X_t+\lambda_2D2_t+\lambda_3D3_t+\lambda_4D4_t+u_t \\ Y_t=\beta_2X_t+\lambda_1D1_t+\lambda_2D2_t+\lambda_3D3_t+\lambda_4D4_t+u_t \end{align}$$` --- ## 交通事故案例 下面我们对交通事故案例进行分析讨论。 --- ### 数据
--- ### 散点图 <img src="10-dummy-model-slide_files/figure-html/unnamed-chunk-71-1.png" style="display: block; margin: auto;" /> --- ### 虚拟变量
--- ### 模型设定PRM 我们以1月份为基础组,构建如下的有截距虚拟变量回归模型: `$$\begin{equation} \begin{alignedat}{999} &log(totacc)=&& + \beta_{1} && + \beta_{2} feb&& + \beta_{3} mar&& + \beta_{4} apr\\ &\text{(cont.)}&& + \beta_{5} may&& + \beta_{6} jun&& + \beta_{7} aug&& + \beta_{8} sep\\ &\text{(cont.)}&& + \beta_{9} oct&& + \beta_{10} nov&& + \beta_{11} dec&&+u_i\\ \end{alignedat} \end{equation}$$` --- ### OLS估计 以上模型的OLS估计结果如下: `$$\begin{equation} \begin{alignedat}{999} &\widehat{log(totacc)}=&&+10.63&&-0.07feb&&+0.06mar&&-0.00apr\\ &\text{(t)}&&(433.2562)&&(-1.5759)&&(1.3715)&&(-0.0072)\\&\text{(se)}&&(0.0245)&&(0.0425)&&(0.0425)&&(0.0425)\\&\text{(cont.)}&&+0.02may&&+0.01jun&&+0.05aug&&+0.04sep\\&\text{(t)}&&(0.3778)&&(0.1622)&&(1.0867)&&(0.8778)\\&\text{(se)}&&(0.0425)&&(0.0425)&&(0.0425)&&(0.0425)\\&\text{(cont.)}&&+0.08oct&&+0.07nov&&+0.10dec\\&\text{(t)}&&(1.8779)&&(1.6876)&&(2.3376)\\&\text{(se)}&&(0.0425)&&(0.0425)&&(0.0425)\\&\text{(fitness)}&& R^2=0.1644;&& \bar{R^2}=0.0783\\& && F^{\ast}=1.91;&& p=0.0529\\ \end{alignedat} \end{equation}$$` --- layout: false class: center, middle, duke-softblue,hide_logo name: piecewise # 10.8 分段线性回归模型 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@ <a href="#chapter10">第10章 虚拟变量回归模型</a>                         <a href="#piecewise">10.8 分段线性回归模型</a> </span></div> --- ## 分段线性回归模型 **分段现象**:在经济关系中,当解释变量 `\(X\)`的值达到某一水平/阀值 `\(X^\ast\)`之前,与被解释变量之间存在某种线性关系;当解释变量X的值达到或者超过水平/阀值 `\(X^\ast\)`以后,与被解释变量的关系就会发生变化。因而总体看来,似乎被明显“分段”了。 **分段线性回归模型**(piecewise linear regression):是指用虚拟变量估计不同水平/阀值的解释变量 `\(X\)`对被解释变量 `\(Y\)`的影响的一类线性回归模型。它是虚拟变量回归模型的一种特定形式及应用。 - 一个阀值的分段线性回归模型: `$$\begin{align} Y_i & =\beta_1+\beta_2X_i+\lambda(X_i-X^{\ast})D_i+u_i \end{align}$$` - 两个阀值的分段线性回归模型: `$$\begin{align} Y_i & =\beta_1+\beta_2X_i+\lambda_1(X_i-X^{\ast}_1)D1_i+\lambda_2(X_i-X^{\ast}_2)D2_i+u_i \end{align}$$` --- ## 供给和需求分析案例 下面我们对供给和需求分析案例进行分析讨论。 --- ### 数据
??? 案例参考(https://stackoverflow.com/questions/8758646/piecewise-regression-with-r-plotting-the-segments) --- ### 散点图 <img src="10-dummy-model-slide_files/figure-html/unnamed-chunk-77-1.png" style="display: block; margin: auto;" /> --- ### 虚拟变量体系 使用某些特定的方法,我们可以把数据的阀值设置为22.4,并对数据进行虚拟变量变换: `$$\begin{align} &level \quad \{a_1: \quad <22.4,a_2: \quad >22.4\} \\ &dummy \Longrightarrow \begin{cases} D1 = \begin{cases} 1, & \text{offer < 22.4}\\ 0, & \text{other} \end{cases} \\ D2 = \begin{cases} 1, & \text{offer > 22.4}\\ 0, & \text{other} \end{cases} \end{cases} \end{align}$$` --- ### 虚拟变量变换
--- ### 模型估计 我们以offer=22.4为门阀值,构建如下的分段线性回归模型: `$$\begin{equation} \begin{alignedat}{999} &demand=&& + \beta_{1} && + \beta_{2} offer&& + \beta_{3} I(offer - 22.4) \ast D1&&+u_i\\ \end{alignedat} \end{equation}$$` 以上模型的OLS估计结果如下: `$$\begin{equation} \begin{alignedat}{999} &\widehat{demand}=&&-434.61&&+33.19offer&&-19.88I(offer - 22.4) \ast D1\\ &\text{(t)}&&(-4.8602)&&(11.1818)&&(-4.0721)\\&\text{(se)}&&(89.4227)&&(2.9685)&&(4.8828)\\&\text{(fitness)}&& R^2=0.8630;&& \bar{R^2}=0.8576\\& && F^{\ast}=160.60;&& p=0.0000 \end{alignedat} \end{equation}$$` --- ### 回归线 <img src="10-dummy-model-slide_files/figure-html/unnamed-chunk-81-1.png" style="display: block; margin: auto;" /> --- layout: false background-image: url("../pic/thank-you-gif-funny-little-yellow.gif") class: inverse,center # 本章结束