定量变量(Quantitative variable)一般也称为连续变量,是由测量或计数、统计所得到的量,可以通过数值表达,并具有直接的数值含义。
定性变量(qualitative variables):又被称为指标变量(indicator variables)、分类变量(categorical variables),主要用于区分事物性质差异,往往用语义类别表达,没有直接的数值含义。
性别(男;女)
肤色(黄色;白色;黑色;其他)
种族、宗教、国籍、地区、政治动乱和党派等。
提问:定性变量怎样表达出来?如何数量化?
变量尺度(Variable scale):刻画的是变量的数值含义或数值关系。它将意味着在数值含义和关系上,变量是有层次级别的差异性。根据变量层级不同,具体可以分为由低到高的4个层级:
名义尺度(nominal scale)变量:这类变量只用于属性分类,不具备任何数值含义或数值关系,也即不能加、减、乘、除,也不能比较大小。
序数尺度(order scale)变量:这类变量具备很少的数值含义或数值关系,它可以比较大小,但不能进行加、减、乘、除。
区间尺度(interval scale)变量:这类变量具备一定的数值含义或数值关系,它可以比较大小,也可以进行加、减,但不能进行乘、除。
比率尺度(ratio scale)变量:这类变量具备最多的数值含义或数值关系,它可以比较大小,也可以进行加、减、乘、除。
salary | sale | score | race |
---|---|---|---|
25 | 140 | 2 | yellow |
35 | 195 | 3 | white |
27 | 184 | 1 | yellow |
42 | 256 | 5 | white |
38 | 207 | 4 | black |
区域经理年薪案例中,公司有五名区域经理,分别负责不同的国际市场。
变量 salary表示区域经理的年薪(万元);变量 sale表示负责市场的销售额;变量 score表示客户对区域经理的评价(1表示很不满意,2表示不满意,3表示一般,4表示很满意,5表示非常满意);变量 race表示区域市场主要消费群体的肤色(yellow表示黄色消费群体、white表示白色消费群体,black表示黑色消费群体)。
salary | sale | score | race |
---|---|---|---|
25 | 140 | 2 | yellow |
35 | 195 | 3 | white |
27 | 184 | 1 | yellow |
42 | 256 | 5 | white |
38 | 207 | 4 | black |
根据以上定义,区域经理年薪案例中,可以认为年薪 salary、销售额 sale,以及客户评价 score为定量变量,消费群体主要肤色 race为定性变量。
从变量的度量尺度来看:
- 年薪 salary和销售额 sale两个变量为比率尺度变量
- 客户评价 score变量为序数尺度变量
- 消费群体主要肤色 race为名义尺度变量
计量经济学建模分析中,我们常常需要把一些定性变量(Qualitative variables)(如性别、地区、党派等)作为自变量放入回归模型中。
从变量层次(Variable Scale)来看,这些变量没有具体的取值,只有特定属性类别。例如,性别变量的具体取值往往为男或女。显然,诸如此类的变量如果直接放到线性回归模型中,将会产生一系列的参数估计、模型解释等问题。
salaryi=β1+β2salei+β3scorei+β4racei+ui
一个定性变量的不同数据取值,称为该定性变量的属性。
定性变量的任一属性,都可以设置为一个虚拟变量。
我们可以用一套虚拟变量体系来完全表达一个定性变量。
按照一定规则构建虚拟变量回归模型,避免参数估计、模型解释等问题的出现。
虚拟变量(dummy variable):将取值为0和1的人造变量称为虚拟变量。
对定性变量的量化可采用虚拟变量的方式实现。
一般而言,1表示出现(或具备)某种属性,0表示没有(或不具备)某种属性。
对于某定性变量的任一特定属性,可以构造出一个虚拟变量(记为D),使得该虚拟变量能够表达这一属性。同时,给该虚拟变量D赋值为1,记为具备这一属性;给该虚拟变量赋值为0,记为不具备该属性。
正式地,假设定性变量 X具有 m个属性 a1,a2,⋯,am,对于任意属性 k,(k∈1,2,⋯,m),可以定义如下的虚拟变量 Dk:
Dk={1,if ak0,if not ak
区域经理年薪案例中,定性变量race
(人种,其取值为黄种人/白种人/黑种人),可以构造出3个虚拟变量
race{a1=yellow,a2=white,a3=black}dummy⟹{D1={1,yellow0,not yellowD2={1,white0,not whiteD3={1,black0,not black
虚拟变量体系:完整表达某个定性变量全部信息的一组虚拟变量。
正式地,假设定性变量 X具有 m个属性 a1,a2,⋯,am,可以用如下一组虚拟变量 D1,⋯,Dk,⋯,Dm完全表达该定性变量:
X{a1,a2,⋯,am}⇒{D1={1,if a10,if not a1⋮Dk={1,if ak0,if not ak⋮Dm={1,if am0,if not am
实际数据操作中,一般需要对定性变量 race进行重新编码(recode),生成三个对应的虚拟变量。
salary | sale | score | race | race_black | race_white | race_yellow |
---|---|---|---|---|---|---|
25 | 140 | 2 | yellow | 0 | 0 | 1 |
35 | 195 | 3 | white | 0 | 1 | 0 |
27 | 184 | 1 | yellow | 0 | 0 | 1 |
42 | 256 | 5 | white | 0 | 1 | 0 |
38 | 207 | 4 | black | 1 | 0 | 0 |
区域经理薪水案例中,如果不区分变量类型和特征,做如下的回归模型,则回归分析结果将会带来严重的问题。
salaryi=β1+β2salei+β3scorei+β4racei+ui
事实上,应该将上述模型转换为虚拟变量回归模型(Dummy model)。
salaryi=β1+β2salei+β3scorei+β4race_yellowi+β5race_whitei+uisalaryi=β2salei+β3scorei+β4race_yellowi+β5race_whitei+β6race_blacki+ui
一个线性回归模型,只要回归元中包含了虚拟变量,这种模型就被称为虚拟变量回归模型,也可以称为方差分析模型 (Analysis of variance, ANOVA)。
方差分析模型(Analysis of variance, ANOVA)常用来分析定量化的因变量 Y与定性回归元或虚拟变量之间的统计显著性关系。
一般是通过比较不同类别或不同组的均值差,例如采用t检验可以判断两组均值是否有显著的差异。
提问:你还能不能设置成其他类型的模型形式?怎样设置才是正确的方差分析模型?
salaryi=β1+β2salei+β3scorei+β4race_yellowi+β5race_whitei+ui
很显然,在上述总体回归模型下,可以得到所有3类“分组”情形下的期望年薪水平:
E(Y|race_yellow=1,race_white=0,sale,score)=β1+β2sale+β3score+β4(market yellow)E(Y|race_yellow=0,race_white=1,sale,score)=β1+β2sale+β3score+β5(market white)E(Y|race_yellow=0,race_white=0,sale,score)=β1+β2sale+β3score(market black)
salaryi=β1+β2salei+β3scorei+β4race_yellowi+β5race_whitei+ui
上述模型被称其为有截距的含有虚拟变量的、加法形式的回归模型。显然,虚拟变量 race_black没有进入模型中;模型设置有截距项 β1。在这种设定下,我们称:
黑色(black)为模型的基础组
黄色(yellow)和白色(white)分别为模型的比较组。
有序变量 score为协变量(covariates)或控制变量(control variable)
β1为截距系数,代表基础组的期望水平
β2;β3为平行斜率系数,代表协变量的影响效应
β4,β5为极差系数,代表的是比较组与基础组期望水平的差距
根据回归元包含定量变量和虚拟变量的数量关系,可以将虚拟变量回归模型分为:
只含有虚拟变量的回归模型:全部解释变量都是由虚拟变量构成
同时含有虚拟变量和定量变量的回归模型:解释变量同时含有虚拟变量和定量变量
根据模型中虚拟变量引入方式的不同,可以划分为:
加法模型:虚拟变量以独立项的形式出现在方程中
乘法模型:虚拟变量以交叉项的形式出现在方程中
混合模型:虚拟变量以独立项和/或交叉项的形式出现在方程中^[有时候模型设置中,某个虚拟变量体系(用来表达某个定性变量)的独立项可以完全不出现在方程中(也即没有它们的加法形式),而却可以出现它们与其他变量的交叉项(也即可以出现它们与其他变量的乘法形式)。]
根据虚拟变量模型是否参照基础组,可以划分为:
有截距模型:此时模型解释中将有明确的基础组,其他组可以直接与之参照对比。
无截距模型:此时模型解释中将没有明确的基础组,各组间将不直接参照对比。
根据模型中的因变量 Y是否取对数,可以划分为(半对数或对数模型将蕴含着弹性和斜率的经济学含义,在解释虚拟变量回归模型中往往很有现实意义):
经典线性模型:因变量为 Y
半对数模型:因变量为 ln(Y)
根据虚拟变量模型应用情景的不同,可以划分为:
截面数据虚拟变量回归模型:此时虚拟变量用于表达回归元为定性变量的情形
时间序列季节虚拟变量回归模型:此时虚拟变量用于表达季节周期
分段线性虚拟变量回归模型:此时虚拟变量用于表达阀值分段
对于具体的实证分析案例,我们往往需要根据变量的属性和特征,构建不同类型的虚拟变量回归模型,比较不同模型的回归分析结果,甄选并得到其中相对理想的模型。
例如,仅是考虑基础组的有截距模型,可能用到的各类备选组合模型至少包括:
一项研究关注于对美国51个州公立学校教师薪水的分析:
变量 Salary表示公立学校教师平均薪水;变量 Spend表示公立学校教师平均支出
state表示公立学校所在州名称;
Region表示州所属的区位(West
表示西部州;M.E.N
表示中东北部州;South
表示南部州)。
N.state | Mean.Salary | Max.Salary | Min.Salary | SD.Salary |
---|---|---|---|---|
21 | 49,538.71 | 60,822.00 | 35,378.00 | 7,645.47 |
17 | 46,293.59 | 59,000.00 | 40,182.00 | 5,543.65 |
13 | 48,014.62 | 63,640.00 | 40,566.00 | 6,400.05 |
根据以上简单的汇总计算:
教师的平均薪水:中东北部为49 538.71 美元;南部为46 293.59 美元; 西部为48 104.62美元。
那么,三个地区的平均薪水在统计上也彼此不同吗?
根据前述定义,我们可以将定性变量 Region设置为如下的虚拟变量体系:
Region{West;M.E.N;South}⇒{D1={1,if West0,if not WestD2={1,if M.E.N0,if not M.E.ND3={1,if South0,if not South
实际建模之前,我们需要把定性变量 Region进行数据变换,得到虚拟变量的数据:
我们可以构建薪水( Salary)对区域虚拟变量( D2;D3)的有截距总体回归模型PRM:
Salaryi=β1+β2D2i+β3D3i+ui
理论上,我们可以得到三个区域教师薪水的期望值:
E(Salary|D2=1,D3=0)=β1+β2(M.E.N)E(Salary|D2=0,D3=1)=β1+β3(South)E(Salary|D2=0,D3=0)=β1(West)
^Salary=+48014.62+1524.10D2−1721.03D3(t)(25.8532)(0.6449)(−0.6976)(se)(1857.2037)(2363.1394)(2467.1508)(fitness)R2=0.0440;¯R2=0.0041F∗=1.10;p=0.3399
- 基础组是谁?极差系数的含义?
- 三个区域的平均薪水具有统计上的显著差异吗?
我们也可以构建薪水( Salary)对区域虚拟变量( D1;D2;D3)的无截距总体回归模型PRM:
Salaryi=α1D1i+α2D2i+α3D3i+ui
理论上,我们可以得到三个区域教师薪水的期望值:
E(Salary|D1=0,D2=1,D3=0)=α2(M.E.N)E(Salary|D1=0,D2=0,D3=1)=α3(South)E(Salary|D1=1,D2=0,D3=0)=α1(West)
^Salary=+48014.62D1+49538.71D2+46293.59D3(t)(25.8532)(33.9018)(28.5045)(se)(1857.2037)(1461.2400)(1624.0775)(fitness)R2=0.9821;¯R2=0.9810F∗=876.74;p=0.0000
提问:
- 此时谁是基础组?
- 回归模型有没有基础组,很重要么?
若定性因素具有m个相互排斥属性(或几个水平):
规则1:当回归模型有截距项时,只能设(m-1)个虚拟变量;
规则2:当回归模型无截距项时,则可引入m个虚拟变量。否则,就会陷入“虚拟变量陷阱”。(为什么?)
规则3:在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型、否定类型取值为0。
思考:规则1和规则2分别建立虚拟变量回归模型,哪种更好呢?
建模1: (正确模型)使用m-1个虚拟变量,并设定为有截距:
Salaryi=β1+β2D2i+β3D3i+ui
建模2: (正确模型)使用m个虚拟变量,并设定为无截距:
Salaryi=α1D1i+α2D2i+α3D3i+ui
建模3: (错误模型)使用m个虚拟变量,并设定为有截距:
Salaryi=γ0+γ1D1i+γ2D2i+γ3D3i+ui
提问:
- 模型1和模型2的回归系数涵义是一样的么?
- 执意采用OLS方法估计模型3,会有什么后果?
mod.main3 <- "Salary ~1+ D1+D2 +D3"lm.main3 <- lm(mod.main3, data_demon)summary(lm.main3)
Call:lm(formula = mod.main3, data = data_demon)Residuals: Min 1Q Median 3Q Max -14161 -4566 -1638 4632 15625 Coefficients: (1 not defined because of singularities) Estimate Std. Error t value Pr(>|t|) (Intercept) 46294 1624 28.505 <2e-16 ***D1 1721 2467 0.698 0.489 D2 3245 2185 1.485 0.144 D3 NA NA NA NA ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Residual standard error: 6696 on 48 degrees of freedomMultiple R-squared: 0.04397, Adjusted R-squared: 0.004134 F-statistic: 1.104 on 2 and 48 DF, p-value: 0.3399
对于错误的建模3,有些统计软件(如以上R软件)会自动去掉一个多于的虚拟变量。
Salaryi=γ0+γ1D1i+γ2D2i+γ3D3i+ui
我们可以构建薪水( Salary)对区域虚拟变量( D2;D3)和定量变量 Spend的有截距总体回归模型PRM:
Salaryi=β1+β2D2i+β3D3i+λSpendi+ui
理论上,我们可以得到三个区域教师薪水的期望值:
E(Salary|D2=1,D3=0)=β1+β2+λSpend(M.E.N)E(Salary|D2=0,D3=1)=β1+β3+λSpend(South)E(Salary|D2=0,D3=0)=β1+λSpend(West)
^Salary=+28694.92−2954.13D2−3112.19D3+2.34Spend(t)(8.7953)(−1.5860)(−1.7101)(6.5152)(se)(3262.5213)(1862.5756)(1819.8725)(0.3592)(fitness)R2=0.4977;¯R2=0.4656F∗=15.52;p=0.0000
提问1:大白话解释上述回归函数!
思考1:基准组是什么?谁是协变量?
思考2:三条线为什么是平行的?
思考3:统计上来看,南部线和西部线是不一样的么?
我们可以构建薪水( Salary)对区域虚拟变量( D1;D2;D3)和定量变量 Spend的无截距总体回归模型PRM:
Salaryi=α1D1i+α2D2i+α3D3i+λSpendi+ui
理论上,我们可以得到三个区域教师薪水的期望值:
E(Salary|D1=0,D2=1,D3=0;Spend)=α2+λSpend(M.E.N)E(Salary|D1=0,D2=0,D3=1;Spend)=α3+λSpend(South)E(Salary|D1=1,D2=0,D3=0;Spend)=α1+λSpend(West)
^Salary=+28694.92D1+25740.79D2+25582.72D3+2.34Spend(t)(8.7953)(6.7627)(7.5372)(6.5152)(se)(3262.5213)(3806.2835)(3394.1819)(0.3592)(fitness)R2=0.9906;¯R2=0.9898F∗=1235.97;p=0.0000
提问1:大白话解释上述回归函数!
思考1:基准组是什么?谁是协变量?
思考2:三条线为什么是平行的?
思考3:统计上来看,南部线和西部线是不一样的么?
思考4:有截距模型和无截距模型的图形为什么是一样的?
如果自变量中存在k个定性变量( X1i,X2i,⋯,Xki),而且每个定性变量还有自己的属性个数( Xki(a1,a2,⋯,am))。那么把这些定性变量转换成各自的虚拟变量体系后,虚拟变量在模型中出现的关系则可以有多种形式:
如果自变量中存在k个定性变量( X1i,X2i,⋯,Xki),而且每个定性变量还有自己的属性个数( Xki(a1,a2,⋯,am))。那么把这些定性变量转换成各自的虚拟变量体系后,虚拟变量在模型中出现的关系则可以有多种形式:
如果自变量中存在k个定性变量( X1i,X2i,⋯,Xki),而且每个定性变量还有自己的属性个数( Xki(a1,a2,⋯,am))。那么把这些定性变量转换成各自的虚拟变量体系后,虚拟变量在模型中出现的关系则可以有多种形式:
虚拟变量以加法形式引入的回归模型:是指各个定性变量的虚拟变量体系,各自以独立项的形式出现在模型中。
虚拟变量以乘法形式引入的回归模型:是指各个定性变量的虚拟变量体系,存在相互以交叉项的形式出现在模型中。
如果自变量中存在k个定性变量( X1i,X2i,⋯,Xki),而且每个定性变量还有自己的属性个数( Xki(a1,a2,⋯,am))。那么把这些定性变量转换成各自的虚拟变量体系后,虚拟变量在模型中出现的关系则可以有多种形式:
虚拟变量以混合形式(既有加法形式也有乘法形式)引入的回归模型:是指各个定性变量的虚拟变量体系,及有各自以独立项的形式,也有相互以交叉项的形式出现在模型中。又具体分为两种情形:
完全混合模型:两个定性变量的虚拟变量体系,既有各自独立项,又有它们相互间完全交叉项。
部分混合模型:两个定性变量的虚拟变量体系,既有各自独立项,又有它们相互间不完全的交叉项(也即部分交叉)。
为了研究工人工资的影响因素,我们可以考虑如下变量:
定量变量:工资 wage;年龄 age
定性变量:教育程度 edu{a1=ill,a2=pri,a3=mid,a4=hig};工作部门 dpt{a1=tem,a2=per};性别 sex{a1=f,a2=m}。
教育程度edu:ill表示文盲;pri表示初等教育;mid表示中等教育;hig表示高等教育。
工作类型dpt:tem表示临时工;per表示合同工。
性别sex:f表示女性;m表示男性。
因为涉及到三个定性变量,我们可以将他们转换为各自的虚拟变量体系:
因为涉及到三个定性变量,我们可以将他们转换为各自的虚拟变量体系:
教育程度定性变量edu
:
edu{a1=ill,a2=pri,a3=mid,a4=hig}dummy⟹{edu_ill={1,ill0,not illedu_pri={1,pri0,not priedu_mid={1,mid0,not midedu_hig={1,hig0,not hig
因为涉及到三个定性变量,我们可以将他们转换为各自的虚拟变量体系:
教育程度定性变量edu
:
edu{a1=ill,a2=pri,a3=mid,a4=hig}dummy⟹{edu_ill={1,ill0,not illedu_pri={1,pri0,not priedu_mid={1,mid0,not midedu_hig={1,hig0,not hig
工作类型定性变量dpt
:
dpt{a1=tem,a2=per}dummy⟹{dpt_tem={1,tem0,not temdpt_per={1,per0,not per
性别定性变量sex
:
sex{a1=f,a2=m}dummy⟹{sex_f={1,f0,not fsex_m={1,m0,not m
wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui
假定我们关注这样两个群体:
A群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。
wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui
假定我们关注这样两个群体:
A群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(0)+β4(1)+β5(1)+β6(0)+β7(30)=+β1+β4+β5+30β7
假定我们关注这样两个群体:
B群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。
假定我们关注这样两个群体:
B群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(0)+β4(1)+β5(0)+β6(0)+β7(30)=+β1+β4+30β7
wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui
如果 β5>0,这将意味着:
wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui
如果 β5>0,这将意味着:
wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui
如果 β5>0,这将意味着:
只要拥有一份合同工( dptper=1)。那么,在其他同等情况下,这个人的工资都要高于拥有一份临时工( dptper=0)的人。——无论是高学历的同等条件( edupri=0,edumid=0,eduhig=1),还是中等学历的同等条件( edupri=1,edumid=0,eduhig=0),还是文盲学历的同等条件( edupri=0,edumid=0,eduhig=0)。
换言之,工作类型(dpt)与受教育程度(edu)是独立地作用于工资(wage)的!
wage=+β1+β2sexm+β3age+β4edupri∗dptper(cont.)+β5dptper∗edumid+β6dptper∗eduhig+ui
假定我们关注这样两个群体:
A群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。
wage=+β1+β2sexm+β3age+β4edupri∗dptper(cont.)+β5dptper∗edumid+β6dptper∗eduhig+ui
假定我们关注这样两个群体:
A群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(30)+β4(0)⋅(1)+β5(1)⋅(0)+β6(1)⋅(1)=+β1+30β3+β6
假定我们关注这样两个群体:
B群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。
假定我们关注这样两个群体:
B群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(30)+β4(0)⋅(0)+β5(0)⋅(0)+β6(0)⋅(1)=+β1+30β3
wage=+β1+β2sexm+β3age+β4edupri∗dptper(cont.)+β5dptper∗edumid+β6dptper∗eduhig+ui
如果 β6>0且显著,这将意味着:
wage=+β1+β2sexm+β3age+β4edupri∗dptper(cont.)+β5dptper∗edumid+β6dptper∗eduhig+ui
如果 β6>0且显著,这将意味着:
wage=+β1+β2sexm+β3age+β4edupri∗dptper(cont.)+β5dptper∗edumid+β6dptper∗eduhig+ui
如果 β6>0且显著,这将意味着:
在其他同等情况下,一个拥有一份合同工( dptper=1)且拥有高学历( eduhig=1)的人。这个人的工资都要高于拥有一份临时工( dptper=0)或没有受过高学历教育( eduhig=0)的人。——包括:临时工&文盲;临时工&初等学历;临时工&中等学历;临时工&高等学历;合同工&文盲;合同工&初等学历;合同工&中等学历。
换言之,工作类型(dpt)与受教育程度(edu)是交互地作用于工资(wage)的!——此处重点针对拥有高学历还是不拥有有高学历。
wage=+β1+β2sexm+β3dptper+β4age+β5edupri∗dptper(cont.)+β6edumid∗dptper+β7eduhig∗dptper+ui
假定我们关注这样两个群体:
A群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。
wage=+β1+β2sexm+β3dptper+β4age+β5edupri∗dptper(cont.)+β6edumid∗dptper+β7eduhig∗dptper+ui
假定我们关注这样两个群体:
A群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(1)+β4(30)+β5(0)⋅(1)+β6(0)⋅(1)+β7(1)⋅(1)=+β1+β3+30β4+β7
假定我们关注这样两个群体:
B群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。
假定我们关注这样两个群体:
B群体:年龄为30岁的、女性( sexm=0)、受过高等教育( edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(0)+β4(30)+β5(0)⋅(0)+β6(0)⋅(0)+β7(1)⋅(0)=+β1+30β4
变量说明见下表:
variable | label | remark |
---|---|---|
obs | 工人编号 | 序号(observations) |
wage | 工人工资 | 美元/周(\$/week) |
age | 年龄 | 岁(year) |
edu | 教育水平 | ill=文盲(illiteracy);pri=初等教育(primary);mid=中等教育(middle);hig=高等教育(higher) |
dpt | 合同类型 | tem=短期合同(temporary);per=长期合同(permanent) |
sex | 性别 | f=女(female);m=男(male) |
属性 | 频次 |
---|---|
ill | 74 |
pri | 17 |
mid | 17 |
hig | 6 |
tem | 72 |
per | 42 |
f | 89 |
m | 25 |
将基础组设定为{文盲,临时工,女性}(也即{illiteracy,temporary,female})。则可以将全部定性变量的基础组属性{illiteracy,temporary,female}分别设置为虚拟变量edu_ill
、dpt_tem
和sex_f
。
教育程度定性变量edu
:
edu{a1=ill,a2=pri,a3=mid,a4=hig}dummy⟹{edu_ill={1,ill0,not illedu_pri={1,pri0,not priedu_mid={1,mid0,not midedu_hig={1,hig0,not hig
工作类型定性变量dpt
:
dpt{a1=tem,a2=per}dummy⟹{dpt_tem={1,tem0,not temdpt_per={1,per0,not per
性别定性变量sex
:
sex{a1=f,a2=m}dummy⟹{sex_f={1,f0,not fsex_m={1,m0,not m
edu | edu_ill | edu_pri | edu_mid | edu_hig |
---|---|---|---|---|
hig | 0 | 0 | 0 | 1 |
ill | 1 | 0 | 0 | 0 |
mid | 0 | 0 | 1 | 0 |
pri | 0 | 1 | 0 | 0 |
dpt | dpt_tem | dpt_per |
---|---|---|
per | 0 | 1 |
tem | 1 | 0 |
sex | sex_f | sex_m |
---|---|---|
f | 1 | 0 |
m | 0 | 1 |
同时含虚拟变量和定量变量的、加法形式的经典回归模型:
wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui
OLS估计的简要报告如下:
^wage=+6.79+23.96edupri+61.59edumid+150.49eduhig(t)(0.2130)(0.7734)(1.9867)(3.0054)(se)(31.8931)(30.9789)(31.0035)(50.0725)(cont.)+31.16dptper−83.20sexm+3.99age(t)(1.3141)(−3.0819)(4.5129)(se)(23.7120)(26.9981)(0.8835)(fitness)R2=0.3450;¯R2=0.3083F∗=9.39;p=0.0000
E(wage|age=30;edupri=0;edumid=0;eduhig=0;dptper=0;sexm=0)=+β1+β2(0)+β3(0)+β4(0)+β5(0)+β6(0)+β7(30)=+β1+30β7
(^wage|age=30;edupri=0;edumid=0;eduhig=0;dptper=0;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(0)+ˆβ4(0)+ˆβ5(0)+ˆβ6(0)+ˆβ7(30)=+[6.79]+[23.96]⋅(0)+[61.59]⋅(0)+[150.49]⋅(0)+[31.16]⋅(0)+[−83.20]⋅(0)+[3.99]⋅(30)=126.4104
比较组1(高等学历 & 短期合同 & 女性),也即(high & temporary & female)的期望工资收入为(给定年龄为30岁):
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(0)+β4(1)+β5(0)+β6(0)+β7(30)=+β1+β4+30β7
(^wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(0)+ˆβ4(1)+ˆβ5(0)+ˆβ6(0)+ˆβ7(30)=+[6.79]+[23.96]⋅(0)+[61.59]⋅(0)+[150.49]⋅(1)+[31.16]⋅(0)+[−83.20]⋅(0)+[3.99]⋅(30)=276.8995
比较组2(高等教育 & 长期合同 & 女性),也即(higher & permanent & female)的期望工资收入为(给定年龄为30岁):
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(0)+β4(1)+β5(1)+β6(0)+β7(30)=+β1+β4+β5+30β7
(^wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(0)+ˆβ4(1)+ˆβ5(1)+ˆβ6(0)+ˆβ7(30)=+[6.79]+[23.96]⋅(0)+[61.59]⋅(0)+[150.49]⋅(1)+[31.16]⋅(1)+[−83.20]⋅(0)+[3.99]⋅(30)=308.0604
同时含虚拟变量和定量变量的、加法形式的经典回归模型:
wage=+β1+β2sexm+β3age+β4edupri∗dptper+β5dptper∗edumid+β6dptper∗eduhig+ui
OLS估计的简要报告如下:
^wage=+22.92−71.41sexm+4.11age+28.21edupri∗dptper(t)(0.7366)(−2.5720)(4.6325)(0.5166)(se)(31.1120)(27.7639)(0.8870)(54.5979)(cont.)+112.68dptper∗edumid+33.12dptper∗eduhig(t)(2.4012)(0.5965)(se)(46.9258)(55.5274)(fitness)R2=0.2872;¯R2=0.2542F∗=8.70;p=0.0000
E(wage|age=30;edupri=0;edumid=0;eduhig=0;dptper=0;sexm=0)=+β1+β2(0)+β3(30)+β4(0)⋅(0)+β5(0)⋅(0)+β6(0)⋅(0)=+β1+30β3
(^wage|age=30;edupri=0;edumid=0;eduhig=0;dptper=0;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(30)+ˆβ4(0)+ˆβ5(0)+ˆβ6(0)=+[22.92]+[−71.41]⋅(0)+[4.11]⋅(30)+[28.21]⋅(0)+[112.68]⋅(0)+[33.12]⋅(0)=146.1879
比较组1(高等学历 & 短期合同 & 女性),也即(high & temporary & female)的期望工资收入为(给定年龄为30岁):
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(30)+β4(0)⋅(0)+β5(0)⋅(0)+β6(0)⋅(1)=+β1+30β3
(^wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(30)+ˆβ4(0)+ˆβ5(0)+ˆβ6(0)=+[22.92]+[−71.41]⋅(0)+[4.11]⋅(30)+[28.21]⋅(0)+[112.68]⋅(0)+[33.12]⋅(0)=146.1879
比较组2(高等教育 & 长期合同 & 女性),也即(higher & permanent & female)的期望工资收入为(给定年龄为30岁):
E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(30)+β4(0)⋅(1)+β5(1)⋅(0)+β6(1)⋅(1)=+β1+30β3+β6
(^wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(30)+ˆβ4(0)+ˆβ5(0)+ˆβ6(1)=+[22.92]+[−71.41]⋅(0)+[4.11]⋅(30)+[28.21]⋅(0)+[112.68]⋅(0)+[33.12]⋅(1)=179.3103
时间序列季节虚拟变量模型:是指时间变量以虚拟变量形式进入回归方程的模型,它是虚拟变量回归模型的一种特定形式及应用。
季节模式(seasonal pattern):大多数时间序列经济变量,通常表现出来的季节性往复行为或现象。
季节调整(seasonal adjusted):将时间序列经济变量的季节性变化成分去除,从而得到一个新的变量序列的处理过程。
事实上,一个时间序列经济变量往往同时存在四个成分,分别是:
季节成分(seasonal component)
周期成分(cyclical component)
趋势成分(trend component)
严格随机成分(strictly random component)
如果把定性变量季节(season:Q1;Q2;Q3;Q4)变换为虚拟变量体系,则分别可以构建以第一季度为基础组的时间序列季节虚拟变量模型和无基础组的时间序列季节虚拟变量模型( Xt为定量变量)。
Yt=β1+β2Xt+λ2D2t+λ3D3t+λ4D4t+utYt=β2Xt+λ1D1t+λ2D2t+λ3D3t+λ4D4t+ut
year | month | totacc | jan | feb | mar | apr | may | jun | jul | aug | sep | oct | nov | dec |
---|
year | month | totacc | jan | feb | mar | apr | may | jun | jul | aug | sep | oct | nov | dec |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1981 | 1 | 40511 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
1981 | 2 | 36034 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
1981 | 3 | 40328 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
1981 | 4 | 37699 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
1981 | 5 | 38816 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
1981 | 6 | 38900 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
1981 | 7 | 38625 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
1981 | 8 | 39539 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
1981 | 9 | 38070 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
我们以1月份为基础组,构建如下的有截距虚拟变量回归模型:
log(totacc)=+β1+β2feb+β3mar+β4apr(cont.)+β5may+β6jun+β7aug+β8sep(cont.)+β9oct+β10nov+β11dec+ui
以上模型的OLS估计结果如下:
^log(totacc)=+10.63−0.07feb+0.06mar−0.00apr(t)(433.2562)(−1.5759)(1.3715)(−0.0072)(se)(0.0245)(0.0425)(0.0425)(0.0425)(cont.)+0.02may+0.01jun+0.05aug+0.04sep(t)(0.3778)(0.1622)(1.0867)(0.8778)(se)(0.0425)(0.0425)(0.0425)(0.0425)(cont.)+0.08oct+0.07nov+0.10dec(t)(1.8779)(1.6876)(2.3376)(se)(0.0425)(0.0425)(0.0425)(fitness)R2=0.1644;¯R2=0.0783F∗=1.91;p=0.0529
分段现象:在经济关系中,当解释变量 X的值达到某一水平/阀值 X∗之前,与被解释变量之间存在某种线性关系;当解释变量X的值达到或者超过水平/阀值 X∗以后,与被解释变量的关系就会发生变化。因而总体看来,似乎被明显“分段”了。
分段线性回归模型(piecewise linear regression):是指用虚拟变量估计不同水平/阀值的解释变量 X对被解释变量 Y的影响的一类线性回归模型。它是虚拟变量回归模型的一种特定形式及应用。
Yi=β1+β2Xi+λ(Xi−X∗)Di+ui
Yi=β1+β2Xi+λ1(Xi−X∗1)D1i+λ2(Xi−X∗2)D2i+ui
使用某些特定的方法,我们可以把数据的阀值设置为22.4,并对数据进行虚拟变量变换:
level{a1:<22.4,a2:>22.4}dummy⟹{D1={1,offer < 22.40,otherD2={1,offer > 22.40,other
我们以offer=22.4为门阀值,构建如下的分段线性回归模型:
demand=+β1+β2offer+β3I(offer−22.4)∗D1+ui
以上模型的OLS估计结果如下:
^demand=−434.61+33.19offer−19.88I(offer−22.4)∗D1(t)(−4.8602)(11.1818)(−4.0721)(se)(89.4227)(2.9685)(4.8828)(fitness)R2=0.8630;¯R2=0.8576F∗=160.60;p=0.0000
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |