Processing math: 100%
+ - 0:00:00
Notes for current slide
Notes for next slide

计量经济学(Econometrics)

胡华平

西北农林科技大学

经济管理学院数量经济教研室

huhuaping01@hotmail.com

2023-02-15

1 / 99

变量类型

定量变量(Quantitative variable)一般也称为连续变量,是由测量或计数、统计所得到的量,可以通过数值表达,并具有直接的数值含义。

定性变量(qualitative variables):又被称为指标变量(indicator variables)、分类变量(categorical variables),主要用于区分事物性质差异,往往用语义类别表达,没有直接的数值含义。

  • 性别(男;女)

  • 肤色(黄色;白色;黑色;其他)

  • 种族、宗教、国籍、地区、政治动乱和党派等。

提问:定性变量怎样表达出来?如何数量化?

4 / 99

变量尺度

变量尺度(Variable scale):刻画的是变量的数值含义或数值关系。它将意味着在数值含义和关系上,变量是有层次级别的差异性。根据变量层级不同,具体可以分为由低到高的4个层级:

  • 名义尺度(nominal scale)变量:这类变量只用于属性分类,不具备任何数值含义或数值关系,也即不能加、减、乘、除,也不能比较大小。

  • 序数尺度(order scale)变量:这类变量具备很少的数值含义或数值关系,它可以比较大小,但不能进行加、减、乘、除。

  • 区间尺度(interval scale)变量:这类变量具备一定的数值含义或数值关系,它可以比较大小,也可以进行加、减,但不能进行乘、除。

  • 比率尺度(ratio scale)变量:这类变量具备最多的数值含义或数值关系,它可以比较大小,也可以进行加、减、乘、除。

5 / 99

区域经理年薪案例(数据)

区域经理年薪案例中,公司有五名区域经理,分别负责不同的国际市场。

变量 salary表示区域经理的年薪(万元);变量 sale表示负责市场的销售额;变量 score表示客户对区域经理的评价(1表示很不满意,2表示不满意,3表示一般,4表示很满意,5表示非常满意);变量 race表示区域市场主要消费群体的肤色(yellow表示黄色消费群体、white表示白色消费群体,black表示黑色消费群体)。

6 / 99

区域经理年薪案例(变量)

根据以上定义,区域经理年薪案例中,可以认为年薪 salary、销售额 sale,以及客户评价 score定量变量,消费群体主要肤色 race定性变量

从变量的度量尺度来看:

  • 年薪 salary和销售额 sale两个变量为比率尺度变量
  • 客户评价 score变量为序数尺度变量
  • 消费群体主要肤色 race名义尺度变量
7 / 99

定性变量对回归模型的影响

计量经济学建模分析中,我们常常需要把一些定性变量(Qualitative variables)(如性别、地区、党派等)作为自变量放入回归模型中。

变量层次(Variable Scale)来看,这些变量没有具体的取值,只有特定属性类别。例如,性别变量的具体取值往往为男或女。显然,诸如此类的变量如果直接放到线性回归模型中,将会产生一系列的参数估计、模型解释等问题。

salaryi=β1+β2salei+β3scorei+β4racei+ui

  • 一个定性变量的不同数据取值,称为该定性变量的属性

  • 定性变量的任一属性,都可以设置为一个虚拟变量

  • 我们可以用一套虚拟变量体系来完全表达一个定性变量。

  • 按照一定规则构建虚拟变量回归模型,避免参数估计、模型解释等问题的出现。

9 / 99

虚拟变量的定义

虚拟变量(dummy variable):将取值为0和1的人造变量称为虚拟变量。

  • 对定性变量的量化可采用虚拟变量的方式实现。

  • 一般而言,1表示出现(或具备)某种属性,0表示没有(或不具备)某种属性。

对于某定性变量的任一特定属性,可以构造出一个虚拟变量(记为D),使得该虚拟变量能够表达这一属性。同时,给该虚拟变量D赋值为1,记为具备这一属性;给该虚拟变量赋值为0,记为不具备该属性。

正式地,假设定性变量 X具有 m个属性 a1,a2,,am,对于任意属性 k,(k1,2,,m),可以定义如下的虚拟变量 Dk

Dk={1,if ak0,if not ak

10 / 99

区域经理年薪案例(虚拟变量)

区域经理年薪案例中,定性变量race(人种,其取值为黄种人/白种人/黑种人),可以构造出3个虚拟变量

race{a1=yellow,a2=white,a3=black}dummy{D1={1,yellow0,not yellowD2={1,white0,not whiteD3={1,black0,not black

11 / 99

虚拟变量体系

虚拟变量体系:完整表达某个定性变量全部信息的一组虚拟变量。

正式地,假设定性变量 X具有 m个属性 a1,a2,,am,可以用如下一组虚拟变量 D1,,Dk,,Dm完全表达该定性变量:

X{a1,a2,,am}{D1={1,if a10,if not a1Dk={1,if ak0,if not akDm={1,if am0,if not am

12 / 99

区域经理年薪案例(虚拟变量体系)

实际数据操作中,一般需要对定性变量 race进行重新编码(recode),生成三个对应的虚拟变量。

13 / 99

定义

区域经理薪水案例中,如果不区分变量类型和特征,做如下的回归模型,则回归分析结果将会带来严重的问题。

salaryi=β1+β2salei+β3scorei+β4racei+ui

事实上,应该将上述模型转换为虚拟变量回归模型(Dummy model)。

salaryi=β1+β2salei+β3scorei+β4race_yellowi+β5race_whitei+uisalaryi=β2salei+β3scorei+β4race_yellowi+β5race_whitei+β6race_blacki+ui

15 / 99

定义

一个线性回归模型,只要回归元中包含了虚拟变量,这种模型就被称为虚拟变量回归模型,也可以称为方差分析模型 (Analysis of variance, ANOVA)。

方差分析模型(Analysis of variance, ANOVA)常用来分析定量化的因变量 Y与定性回归元或虚拟变量之间的统计显著性关系。

一般是通过比较不同类别或不同组的均值差,例如采用t检验可以判断两组均值是否有显著的差异。

提问:你还能不能设置成其他类型的模型形式?怎样设置才是正确的方差分析模型

16 / 99

方差分析模型:本质

salaryi=β1+β2salei+β3scorei+β4race_yellowi+β5race_whitei+ui

很显然,在上述总体回归模型下,可以得到所有3类“分组”情形下的期望年薪水平:

E(Y|race_yellow=1,race_white=0,sale,score)=β1+β2sale+β3score+β4(market yellow)E(Y|race_yellow=0,race_white=1,sale,score)=β1+β2sale+β3score+β5(market white)E(Y|race_yellow=0,race_white=0,sale,score)=β1+β2sale+β3score(market black)

17 / 99

方差分析模型:内涵

salaryi=β1+β2salei+β3scorei+β4race_yellowi+β5race_whitei+ui

上述模型被称其为有截距的含有虚拟变量的、加法形式的回归模型。显然,虚拟变量 race_black没有进入模型中;模型设置有截距项 β1。在这种设定下,我们称:

  • 黑色(black)为模型的基础组

  • 黄色(yellow)白色(white)分别为模型的比较组

  • 有序变量 score协变量(covariates)控制变量(control variable)

  • β1截距系数,代表基础组的期望水平

  • β2;β3平行斜率系数,代表协变量的影响效应

  • β4,β5极差系数,代表的是比较组与基础组期望水平的差距

18 / 99

方差分析模型的类型:数量关系

根据回归元包含定量变量虚拟变量的数量关系,可以将虚拟变量回归模型分为:

  • 只含有虚拟变量的回归模型:全部解释变量都是由虚拟变量构成

  • 同时含有虚拟变量和定量变量的回归模型:解释变量同时含有虚拟变量和定量变量

19 / 99

方差分析模型的类型:引入方式

根据模型中虚拟变量引入方式的不同,可以划分为:

  • 加法模型:虚拟变量以独立项的形式出现在方程中

  • 乘法模型:虚拟变量以交叉项的形式出现在方程中

  • 混合模型:虚拟变量以独立项和/或交叉项的形式出现在方程中^[有时候模型设置中,某个虚拟变量体系(用来表达某个定性变量)的独立项可以完全不出现在方程中(也即没有它们的加法形式),而却可以出现它们与其他变量的交叉项(也即可以出现它们与其他变量的乘法形式)。]

    • 完全混合模型
    • 部分混合模型
20 / 99

方差分析模型的类型:基础组

根据虚拟变量模型是否参照基础组,可以划分为:

  • 有截距模型:此时模型解释中将有明确的基础组,其他组可以直接与之参照对比。

  • 无截距模型:此时模型解释中将没有明确的基础组,各组间将不直接参照对比。

21 / 99

方差分析模型的类型:函数形式

根据模型中的因变量 Y是否取对数,可以划分为(半对数或对数模型将蕴含着弹性和斜率的经济学含义,在解释虚拟变量回归模型中往往很有现实意义):

  • 经典线性模型:因变量为 Y

  • 半对数模型:因变量为 ln(Y)

22 / 99

方差分析模型的类型:应用情景

根据虚拟变量模型应用情景的不同,可以划分为:

  • 截面数据虚拟变量回归模型:此时虚拟变量用于表达回归元为定性变量的情形

  • 时间序列季节虚拟变量回归模型:此时虚拟变量用于表达季节周期

  • 分段线性虚拟变量回归模型:此时虚拟变量用于表达阀值分段

23 / 99

方差分析模型的类型:综合

对于具体的实证分析案例,我们往往需要根据变量的属性和特征,构建不同类型的虚拟变量回归模型,比较不同模型的回归分析结果,甄选并得到其中相对理想的模型。

例如,仅是考虑基础组的有截距模型,可能用到的各类备选组合模型至少包括:

  • 只含有虚拟变量的、加法形式的经典回归模型
  • 只含有虚拟变量的、加法形式的半对数回归模型
  • 只含有虚拟变量的、乘法形式的经典回归模型
  • 只含有虚拟变量的、乘法形式的半对数回归模型
  • 同时含有虚拟变量和定量变量的、加法形式的经典回归模型
  • 同时含有虚拟变量和定量变量的、加法形式的半对数回归模型
  • 同时含有虚拟变量和定量变量的、乘法形式的经典回归模型
  • 同时含有虚拟变量和定量变量的、乘法形式的半对数回归模型
24 / 99

公立学校教师薪水案例

下面我们以公立学校教师薪水案例进行说明。

26 / 99

变量

一项研究关注于对美国51个州公立学校教师薪水的分析:

  • 变量 Salary表示公立学校教师平均薪水;变量 Spend表示公立学校教师平均支出

  • state表示公立学校所在州名称; Region表示州所属的区位(West表示西部州;M.E.N表示中东北部州;South表示南部州)。

27 / 99

数据

28 / 99

描述统计

根据以上简单的汇总计算:

  • 教师的平均薪水:中东北部为49 538.71 美元;南部为46 293.59 美元; 西部为48 104.62美元。

  • 那么,三个地区的平均薪水在统计上也彼此不同吗?

29 / 99

虚拟变量体系

根据前述定义,我们可以将定性变量 Region设置为如下的虚拟变量体系

Region{West;M.E.N;South}{D1={1,if West0,if not WestD2={1,if M.E.N0,if not M.E.ND3={1,if South0,if not South

30 / 99

虚拟变量变换

实际建模之前,我们需要把定性变量 Region进行数据变换,得到虚拟变量的数据:

31 / 99

有截距虚拟变量模型:PRM1

我们可以构建薪水( Salary)对区域虚拟变量( D2;D3)的有截距总体回归模型PRM:

Salaryi=β1+β2D2i+β3D3i+ui

理论上,我们可以得到三个区域教师薪水的期望值:

E(Salary|D2=1,D3=0)=β1+β2(M.E.N)E(Salary|D2=0,D3=1)=β1+β3(South)E(Salary|D2=0,D3=0)=β1(West)

32 / 99

有截距虚拟变量模型:OLS估计

^Salary=+48014.62+1524.10D21721.03D3(t)(25.8532)(0.6449)(0.6976)(se)(1857.2037)(2363.1394)(2467.1508)(fitness)R2=0.0440;¯R2=0.0041F=1.10;p=0.3399

  • 基础组是谁?极差系数的含义?
  • 三个区域的平均薪水具有统计上的显著差异吗?
33 / 99

有截距虚拟变量模型:OLS估计

提问:

  • 基础组该怎样确定?
  • 有什么要求么?

34 / 99

无截距虚拟变量模型:PRM2

我们也可以构建薪水( Salary)对区域虚拟变量( D1;D2;D3)的无截距总体回归模型PRM:

Salaryi=α1D1i+α2D2i+α3D3i+ui

理论上,我们可以得到三个区域教师薪水的期望值:

E(Salary|D1=0,D2=1,D3=0)=α2(M.E.N)E(Salary|D1=0,D2=0,D3=1)=α3(South)E(Salary|D1=1,D2=0,D3=0)=α1(West)

35 / 99

无截距虚拟变量模型:OLS估计

^Salary=+48014.62D1+49538.71D2+46293.59D3(t)(25.8532)(33.9018)(28.5045)(se)(1857.2037)(1461.2400)(1624.0775)(fitness)R2=0.9821;¯R2=0.9810F=876.74;p=0.0000

36 / 99

无截距虚拟变量模型:OLS估计

提问:

  • 此时谁是基础组?
  • 回归模型有没有基础组,很重要么?

37 / 99

虚拟变量模型的构建规则

若定性因素具有m个相互排斥属性(或几个水平):

  • 规则1:当回归模型有截距项时,只能设(m-1)个虚拟变量;

  • 规则2:当回归模型无截距项时,则可引入m个虚拟变量。否则,就会陷入“虚拟变量陷阱”。(为什么?)

  • 规则3:在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型、否定类型取值为0。

思考:规则1和规则2分别建立虚拟变量回归模型,哪种更好呢?

38 / 99

虚拟变量模型的构建规则:示例

建模1: (正确模型)使用m-1个虚拟变量,并设定为有截距

Salaryi=β1+β2D2i+β3D3i+ui

建模2: (正确模型)使用m个虚拟变量,并设定为无截距

Salaryi=α1D1i+α2D2i+α3D3i+ui

建模3: (错误模型)使用m个虚拟变量,并设定为有截距

Salaryi=γ0+γ1D1i+γ2D2i+γ3D3i+ui

提问

  • 模型1和模型2的回归系数涵义是一样的么?
  • 执意采用OLS方法估计模型3,会有什么后果?
39 / 99

虚拟变量模型的构建规则:R软件示例

mod.main3 <- "Salary ~1+ D1+D2 +D3"
lm.main3 <- lm(mod.main3, data_demon)
summary(lm.main3)
Call:
lm(formula = mod.main3, data = data_demon)
Residuals:
Min 1Q Median 3Q Max
-14161 -4566 -1638 4632 15625
Coefficients: (1 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 46294 1624 28.505 <2e-16 ***
D1 1721 2467 0.698 0.489
D2 3245 2185 1.485 0.144
D3 NA NA NA NA
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6696 on 48 degrees of freedom
Multiple R-squared: 0.04397, Adjusted R-squared: 0.004134
F-statistic: 1.104 on 2 and 48 DF, p-value: 0.3399

对于错误的建模3,有些统计软件(如以上R软件)会自动去掉一个多于的虚拟变量。

Salaryi=γ0+γ1D1i+γ2D2i+γ3D3i+ui

40 / 99

公立学校教师薪水案例

我们继续来看公立学校教师薪水案例的建模分析。

42 / 99

数据

把定性变量 Region进行数据变换,得到数据:

43 / 99

有截距虚拟变量模型:PRM1

我们可以构建薪水( Salary)对区域虚拟变量( D2;D3)和定量变量 Spend有截距总体回归模型PRM:

Salaryi=β1+β2D2i+β3D3i+λSpendi+ui

理论上,我们可以得到三个区域教师薪水的期望值:

E(Salary|D2=1,D3=0)=β1+β2+λSpend(M.E.N)E(Salary|D2=0,D3=1)=β1+β3+λSpend(South)E(Salary|D2=0,D3=0)=β1+λSpend(West)

44 / 99

有截距虚拟变量模型:OLS估计

^Salary=+28694.922954.13D23112.19D3+2.34Spend(t)(8.7953)(1.5860)(1.7101)(6.5152)(se)(3262.5213)(1862.5756)(1819.8725)(0.3592)(fitness)R2=0.4977;¯R2=0.4656F=15.52;p=0.0000

提问1:大白话解释上述回归函数!

思考1:基准组是什么?谁是协变量?

思考2:三条线为什么是平行的?

思考3:统计上来看,南部线和西部线是不一样的么?

45 / 99

有截距虚拟变量模型:OLS估计

46 / 99

无截距虚拟变量模型:PRM2

我们可以构建薪水( Salary)对区域虚拟变量( D1;D2;D3)和定量变量 Spend无截距总体回归模型PRM:

Salaryi=α1D1i+α2D2i+α3D3i+λSpendi+ui

理论上,我们可以得到三个区域教师薪水的期望值:

E(Salary|D1=0,D2=1,D3=0;Spend)=α2+λSpend(M.E.N)E(Salary|D1=0,D2=0,D3=1;Spend)=α3+λSpend(South)E(Salary|D1=1,D2=0,D3=0;Spend)=α1+λSpend(West)

47 / 99

无截距虚拟变量模型:OLS估计

^Salary=+28694.92D1+25740.79D2+25582.72D3+2.34Spend(t)(8.7953)(6.7627)(7.5372)(6.5152)(se)(3262.5213)(3806.2835)(3394.1819)(0.3592)(fitness)R2=0.9906;¯R2=0.9898F=1235.97;p=0.0000

  • 提问1:大白话解释上述回归函数!

  • 思考1:基准组是什么?谁是协变量?

  • 思考2:三条线为什么是平行的?

  • 思考3:统计上来看,南部线和西部线是不一样的么?

  • 思考4有截距模型无截距模型的图形为什么是一样的?

48 / 99

无截距虚拟变量模型:OLS估计

49 / 99

虚拟变量的引入方式(定义)

如果自变量中存在k个定性变量( X1i,X2i,,Xki),而且每个定性变量还有自己的属性个数( Xki(a1,a2,,am))。那么把这些定性变量转换成各自的虚拟变量体系后,虚拟变量在模型中出现的关系则可以有多种形式:

51 / 99

虚拟变量的引入方式(定义)

如果自变量中存在k个定性变量( X1i,X2i,,Xki),而且每个定性变量还有自己的属性个数( Xki(a1,a2,,am))。那么把这些定性变量转换成各自的虚拟变量体系后,虚拟变量在模型中出现的关系则可以有多种形式:

  1. 虚拟变量以加法形式引入的回归模型:是指各个定性变量的虚拟变量体系,各自独立项的形式出现在模型中。
51 / 99

虚拟变量的引入方式(定义)

如果自变量中存在k个定性变量( X1i,X2i,,Xki),而且每个定性变量还有自己的属性个数( Xki(a1,a2,,am))。那么把这些定性变量转换成各自的虚拟变量体系后,虚拟变量在模型中出现的关系则可以有多种形式:

  1. 虚拟变量以加法形式引入的回归模型:是指各个定性变量的虚拟变量体系,各自独立项的形式出现在模型中。

  2. 虚拟变量以乘法形式引入的回归模型:是指各个定性变量的虚拟变量体系,存在相互交叉项的形式出现在模型中。

51 / 99

虚拟变量的引入方式(定义)

如果自变量中存在k个定性变量( X1i,X2i,,Xki),而且每个定性变量还有自己的属性个数( Xki(a1,a2,,am))。那么把这些定性变量转换成各自的虚拟变量体系后,虚拟变量在模型中出现的关系则可以有多种形式:

  1. 虚拟变量以混合形式(既有加法形式也有乘法形式)引入的回归模型:是指各个定性变量的虚拟变量体系,及有各自独立项的形式,也有相互交叉项的形式出现在模型中。又具体分为两种情形:

    • 完全混合模型:两个定性变量的虚拟变量体系,既有各自独立项,又有它们相互间完全交叉项

    • 部分混合模型:两个定性变量的虚拟变量体系,既有各自独立项,又有它们相互间不完全的交叉项(也即部分交叉)。

52 / 99

虚拟变量的引入方式(示例)

为了研究工人工资的影响因素,我们可以考虑如下变量:

  • 定量变量:工资 wage;年龄 age

  • 定性变量:教育程度 edu{a1=ill,a2=pri,a3=mid,a4=hig};工作部门 dpt{a1=tem,a2=per};性别 sex{a1=f,a2=m}

教育程度edu:ill表示文盲;pri表示初等教育;mid表示中等教育;hig表示高等教育。

工作类型dpt:tem表示临时工;per表示合同工。

性别sex:f表示女性;m表示男性。

53 / 99

虚拟变量的引入方式(示例)

因为涉及到三个定性变量,我们可以将他们转换为各自的虚拟变量体系

54 / 99

虚拟变量的引入方式(示例)

因为涉及到三个定性变量,我们可以将他们转换为各自的虚拟变量体系

教育程度定性变量edu

edu{a1=ill,a2=pri,a3=mid,a4=hig}dummy{edu_ill={1,ill0,not illedu_pri={1,pri0,not priedu_mid={1,mid0,not midedu_hig={1,hig0,not hig

54 / 99

虚拟变量的引入方式(示例)

因为涉及到三个定性变量,我们可以将他们转换为各自的虚拟变量体系

教育程度定性变量edu

edu{a1=ill,a2=pri,a3=mid,a4=hig}dummy{edu_ill={1,ill0,not illedu_pri={1,pri0,not priedu_mid={1,mid0,not midedu_hig={1,hig0,not hig

工作类型定性变量dpt

dpt{a1=tem,a2=per}dummy{dpt_tem={1,tem0,not temdpt_per={1,per0,not per

性别定性变量sex

sex{a1=f,a2=m}dummy{sex_f={1,f0,not fsex_m={1,m0,not m

54 / 99

虚拟变量的引入方式(示例:加法模型)

wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui

假定我们关注这样两个群体:

A群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。

55 / 99

虚拟变量的引入方式(示例:加法模型)

wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui

假定我们关注这样两个群体:

A群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(0)+β4(1)+β5(1)+β6(0)+β7(30)=+β1+β4+β5+30β7

55 / 99

虚拟变量的引入方式(示例:加法模型)

假定我们关注这样两个群体:

B群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。

56 / 99

虚拟变量的引入方式(示例:加法模型)

假定我们关注这样两个群体:

B群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(0)+β4(1)+β5(0)+β6(0)+β7(30)=+β1+β4+30β7

56 / 99

虚拟变量的引入方式(示例:加法模型)

wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui

如果 β5>0,这将意味着:

57 / 99

虚拟变量的引入方式(示例:加法模型)

wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui

如果 β5>0,这将意味着:

  • 只要拥有一份合同工dptper=1)。那么,在其他同等情况下,这个人的工资都要高于拥有一份临时工dptper=0)的人。——无论是高学历的同等条件( edupri=0,edumid=0,eduhig=1),还是中等学历的同等条件( edupri=1,edumid=0,eduhig=0),还是文盲学历的同等条件( edupri=0,edumid=0,eduhig=0)。
57 / 99

虚拟变量的引入方式(示例:加法模型)

wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui

如果 β5>0,这将意味着:

  • 只要拥有一份合同工dptper=1)。那么,在其他同等情况下,这个人的工资都要高于拥有一份临时工dptper=0)的人。——无论是高学历的同等条件( edupri=0,edumid=0,eduhig=1),还是中等学历的同等条件( edupri=1,edumid=0,eduhig=0),还是文盲学历的同等条件( edupri=0,edumid=0,eduhig=0)。

  • 换言之,工作类型(dpt)与受教育程度(edu)是独立地作用于工资(wage)的!

57 / 99

虚拟变量的引入方式(示例:乘法模型)

wage=+β1+β2sexm+β3age+β4edupridptper(cont.)+β5dptperedumid+β6dptpereduhig+ui

假定我们关注这样两个群体:

A群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。

58 / 99

虚拟变量的引入方式(示例:乘法模型)

wage=+β1+β2sexm+β3age+β4edupridptper(cont.)+β5dptperedumid+β6dptpereduhig+ui

假定我们关注这样两个群体:

A群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(30)+β4(0)(1)+β5(1)(0)+β6(1)(1)=+β1+30β3+β6

58 / 99

虚拟变量的引入方式(示例:乘法模型)

假定我们关注这样两个群体:

B群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。

59 / 99

虚拟变量的引入方式(示例:乘法模型)

假定我们关注这样两个群体:

B群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(30)+β4(0)(0)+β5(0)(0)+β6(0)(1)=+β1+30β3

59 / 99

虚拟变量的引入方式(示例:乘法模型)

wage=+β1+β2sexm+β3age+β4edupridptper(cont.)+β5dptperedumid+β6dptpereduhig+ui

如果 β6>0且显著,这将意味着:

60 / 99

虚拟变量的引入方式(示例:乘法模型)

wage=+β1+β2sexm+β3age+β4edupridptper(cont.)+β5dptperedumid+β6dptpereduhig+ui

如果 β6>0且显著,这将意味着:

  • 在其他同等情况下,一个拥有一份合同工dptper=1)且拥有高学历eduhig=1)的人。这个人的工资都要高于拥有一份临时工dptper=0)或没有受过高学历教育( eduhig=0)的人。——包括:临时工&文盲;临时工&初等学历;临时工&中等学历;临时工&高等学历;合同工&文盲;合同工&初等学历;合同工&中等学历。
60 / 99

虚拟变量的引入方式(示例:乘法模型)

wage=+β1+β2sexm+β3age+β4edupridptper(cont.)+β5dptperedumid+β6dptpereduhig+ui

如果 β6>0且显著,这将意味着:

  • 在其他同等情况下,一个拥有一份合同工dptper=1)且拥有高学历eduhig=1)的人。这个人的工资都要高于拥有一份临时工dptper=0)或没有受过高学历教育( eduhig=0)的人。——包括:临时工&文盲;临时工&初等学历;临时工&中等学历;临时工&高等学历;合同工&文盲;合同工&初等学历;合同工&中等学历。

  • 换言之,工作类型(dpt)与受教育程度(edu)是交互地作用于工资(wage)的!——此处重点针对拥有高学历还是不拥有有高学历。

60 / 99

虚拟变量的引入方式(示例:混合模型)

wage=+β1+β2sexm+β3dptper+β4age+β5edupridptper(cont.)+β6edumiddptper+β7eduhigdptper+ui

假定我们关注这样两个群体:

A群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。

61 / 99

虚拟变量的引入方式(示例:混合模型)

wage=+β1+β2sexm+β3dptper+β4age+β5edupridptper(cont.)+β6edumiddptper+β7eduhigdptper+ui

假定我们关注这样两个群体:

A群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份合同工的( dptper=1)。

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(1)+β4(30)+β5(0)(1)+β6(0)(1)+β7(1)(1)=+β1+β3+30β4+β7

61 / 99

虚拟变量的引入方式(示例:混合模型)

假定我们关注这样两个群体:

B群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。

62 / 99

虚拟变量的引入方式(示例:混合模型)

假定我们关注这样两个群体:

B群体:年龄为30岁的、女性( sexm=0)、受过高等教育edupri=0,edumid=0,eduhig=1)的、拥有一份临时工的( dptper=0)。

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(0)+β4(30)+β5(0)(0)+β6(0)(0)+β7(1)(0)=+β1+30β4

62 / 99

数据:原始

印度工人工资:114位印度工人工资方面的数据如下。

64 / 99

数据:变量定义

变量说明见下表:

变量定义及说明
variable label remark
obs 工人编号 序号(observations)
wage 工人工资 美元/周(\$/week)
age 年龄 岁(year)
edu 教育水平 ill=文盲(illiteracy);pri=初等教育(primary);mid=中等教育(middle);hig=高等教育(higher)
dpt 合同类型 tem=短期合同(temporary);per=长期合同(permanent)
sex 性别 f=女(female);m=男(male)
65 / 99

数据:定性变量的属性统计

66 / 99

数据:定性变量的虚拟变量变换

将基础组设定为{文盲,临时工,女性}(也即{illiteracy,temporary,female})。则可以将全部定性变量的基础组属性{illiteracy,temporary,female}分别设置为虚拟变量edu_illdpt_temsex_f

教育程度定性变量edu

edu{a1=ill,a2=pri,a3=mid,a4=hig}dummy{edu_ill={1,ill0,not illedu_pri={1,pri0,not priedu_mid={1,mid0,not midedu_hig={1,hig0,not hig

工作类型定性变量dpt

dpt{a1=tem,a2=per}dummy{dpt_tem={1,tem0,not temdpt_per={1,per0,not per

性别定性变量sex

sex{a1=f,a2=m}dummy{sex_f={1,f0,not fsex_m={1,m0,not m

67 / 99

数据:教育变量的虚拟变量变换

68 / 99

数据:工作部门变量的虚拟变量变换

69 / 99

数据:性别变量的虚拟变量变换

70 / 99

加法模型:总体回归模型PRM

同时含虚拟变量和定量变量的、加法形式的经典回归模型:

wage=+β1+β2edupri+β3edumid+β4eduhig+β5dptper+β6sexm+β7age+ui

OLS估计的简要报告如下:

^wage=+6.79+23.96edupri+61.59edumid+150.49eduhig(t)(0.2130)(0.7734)(1.9867)(3.0054)(se)(31.8931)(30.9789)(31.0035)(50.0725)(cont.)+31.16dptper83.20sexm+3.99age(t)(1.3141)(3.0819)(4.5129)(se)(23.7120)(26.9981)(0.8835)(fitness)R2=0.3450;¯R2=0.3083F=9.39;p=0.0000

71 / 99

加法模型:EViews报告

72 / 99

加法模型:基础组

  • 基础组(文盲 & 短期合同 & 女性),也即(illiteracy & temporary & female)的期望工资收入为(给定年龄为30岁):

E(wage|age=30;edupri=0;edumid=0;eduhig=0;dptper=0;sexm=0)=+β1+β2(0)+β3(0)+β4(0)+β5(0)+β6(0)+β7(30)=+β1+30β7

(^wage|age=30;edupri=0;edumid=0;eduhig=0;dptper=0;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(0)+ˆβ4(0)+ˆβ5(0)+ˆβ6(0)+ˆβ7(30)=+[6.79]+[23.96](0)+[61.59](0)+[150.49](0)+[31.16](0)+[83.20](0)+[3.99](30)=126.4104

73 / 99

加法模型:比较组1

比较组1(高等学历 & 短期合同 & 女性),也即(high & temporary & female)的期望工资收入为(给定年龄为30岁):

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(0)+β4(1)+β5(0)+β6(0)+β7(30)=+β1+β4+30β7

(^wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(0)+ˆβ4(1)+ˆβ5(0)+ˆβ6(0)+ˆβ7(30)=+[6.79]+[23.96](0)+[61.59](0)+[150.49](1)+[31.16](0)+[83.20](0)+[3.99](30)=276.8995

74 / 99

加法模型:比较组2

比较组2(高等教育 & 长期合同 & 女性),也即(higher & permanent & female)的期望工资收入为(给定年龄为30岁):

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(0)+β4(1)+β5(1)+β6(0)+β7(30)=+β1+β4+β5+30β7

(^wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(0)+ˆβ4(1)+ˆβ5(1)+ˆβ6(0)+ˆβ7(30)=+[6.79]+[23.96](0)+[61.59](0)+[150.49](1)+[31.16](1)+[83.20](0)+[3.99](30)=308.0604

75 / 99

乘法模型:总体回归模型PRM

同时含虚拟变量和定量变量的、加法形式的经典回归模型:

wage=+β1+β2sexm+β3age+β4edupridptper+β5dptperedumid+β6dptpereduhig+ui

OLS估计的简要报告如下:

^wage=+22.9271.41sexm+4.11age+28.21edupridptper(t)(0.7366)(2.5720)(4.6325)(0.5166)(se)(31.1120)(27.7639)(0.8870)(54.5979)(cont.)+112.68dptperedumid+33.12dptpereduhig(t)(2.4012)(0.5965)(se)(46.9258)(55.5274)(fitness)R2=0.2872;¯R2=0.2542F=8.70;p=0.0000

76 / 99

乘法模型:EViews报告

77 / 99

乘法模型:基础组

  • 基础组(文盲 & 短期合同 & 女性),也即(illiteracy & temporary & female)的期望工资收入为(给定年龄为30岁):

E(wage|age=30;edupri=0;edumid=0;eduhig=0;dptper=0;sexm=0)=+β1+β2(0)+β3(30)+β4(0)(0)+β5(0)(0)+β6(0)(0)=+β1+30β3

(^wage|age=30;edupri=0;edumid=0;eduhig=0;dptper=0;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(30)+ˆβ4(0)+ˆβ5(0)+ˆβ6(0)=+[22.92]+[71.41](0)+[4.11](30)+[28.21](0)+[112.68](0)+[33.12](0)=146.1879

78 / 99

乘法模型:比较组1

比较组1(高等学历 & 短期合同 & 女性),也即(high & temporary & female)的期望工资收入为(给定年龄为30岁):

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+β1+β2(0)+β3(30)+β4(0)(0)+β5(0)(0)+β6(0)(1)=+β1+30β3

(^wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=0;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(30)+ˆβ4(0)+ˆβ5(0)+ˆβ6(0)=+[22.92]+[71.41](0)+[4.11](30)+[28.21](0)+[112.68](0)+[33.12](0)=146.1879

79 / 99

乘法模型:比较组2

比较组2(高等教育 & 长期合同 & 女性),也即(higher & permanent & female)的期望工资收入为(给定年龄为30岁):

E(wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+β1+β2(0)+β3(30)+β4(0)(1)+β5(1)(0)+β6(1)(1)=+β1+30β3+β6

(^wage|age=30;edupri=0;edumid=0;eduhig=1;dptper=1;sexm=0)=+ˆβ1+ˆβ2(0)+ˆβ3(30)+ˆβ4(0)+ˆβ5(0)+ˆβ6(1)=+[22.92]+[71.41](0)+[4.11](30)+[28.21](0)+[112.68](0)+[33.12](1)=179.3103

80 / 99

时间序列季节虚拟变量模型

时间序列季节虚拟变量模型:是指时间变量以虚拟变量形式进入回归方程的模型,它是虚拟变量回归模型的一种特定形式及应用。

  • 季节模式(seasonal pattern):大多数时间序列经济变量,通常表现出来的季节性往复行为或现象。

  • 季节调整(seasonal adjusted):将时间序列经济变量的季节性变化成分去除,从而得到一个新的变量序列的处理过程。

事实上,一个时间序列经济变量往往同时存在四个成分,分别是:

  • 季节成分(seasonal component)

  • 周期成分(cyclical component)

  • 趋势成分(trend component)

  • 严格随机成分(strictly random component)

82 / 99

时间序列季节虚拟变量模型

如果把定性变量季节(season:Q1;Q2;Q3;Q4)变换为虚拟变量体系,则分别可以构建以第一季度为基础组的时间序列季节虚拟变量模型和无基础组的时间序列季节虚拟变量模型( Xt为定量变量)。

Yt=β1+β2Xt+λ2D2t+λ3D3t+λ4D4t+utYt=β2Xt+λ1D1t+λ2D2t+λ3D3t+λ4D4t+ut

83 / 99

交通事故案例

下面我们对交通事故案例进行分析讨论。

84 / 99

数据

85 / 99

散点图

86 / 99

虚拟变量

87 / 99

模型设定PRM

我们以1月份为基础组,构建如下的有截距虚拟变量回归模型:

log(totacc)=+β1+β2feb+β3mar+β4apr(cont.)+β5may+β6jun+β7aug+β8sep(cont.)+β9oct+β10nov+β11dec+ui

88 / 99

OLS估计

以上模型的OLS估计结果如下:

^log(totacc)=+10.630.07feb+0.06mar0.00apr(t)(433.2562)(1.5759)(1.3715)(0.0072)(se)(0.0245)(0.0425)(0.0425)(0.0425)(cont.)+0.02may+0.01jun+0.05aug+0.04sep(t)(0.3778)(0.1622)(1.0867)(0.8778)(se)(0.0425)(0.0425)(0.0425)(0.0425)(cont.)+0.08oct+0.07nov+0.10dec(t)(1.8779)(1.6876)(2.3376)(se)(0.0425)(0.0425)(0.0425)(fitness)R2=0.1644;¯R2=0.0783F=1.91;p=0.0529

89 / 99

分段线性回归模型

分段现象:在经济关系中,当解释变量 X的值达到某一水平/阀值 X之前,与被解释变量之间存在某种线性关系;当解释变量X的值达到或者超过水平/阀值 X以后,与被解释变量的关系就会发生变化。因而总体看来,似乎被明显“分段”了。

分段线性回归模型(piecewise linear regression):是指用虚拟变量估计不同水平/阀值的解释变量 X对被解释变量 Y的影响的一类线性回归模型。它是虚拟变量回归模型的一种特定形式及应用。

  • 一个阀值的分段线性回归模型:

Yi=β1+β2Xi+λ(XiX)Di+ui

  • 两个阀值的分段线性回归模型:

Yi=β1+β2Xi+λ1(XiX1)D1i+λ2(XiX2)D2i+ui

91 / 99

供给和需求分析案例

下面我们对供给和需求分析案例进行分析讨论。

92 / 99

数据

93 / 99

散点图

94 / 99

虚拟变量体系

使用某些特定的方法,我们可以把数据的阀值设置为22.4,并对数据进行虚拟变量变换:

level{a1:<22.4,a2:>22.4}dummy{D1={1,offer < 22.40,otherD2={1,offer > 22.40,other

95 / 99

虚拟变量变换

96 / 99

模型估计

我们以offer=22.4为门阀值,构建如下的分段线性回归模型:

demand=+β1+β2offer+β3I(offer22.4)D1+ui

以上模型的OLS估计结果如下:

^demand=434.61+33.19offer19.88I(offer22.4)D1(t)(4.8602)(11.1818)(4.0721)(se)(89.4227)(2.9685)(4.8828)(fitness)R2=0.8630;¯R2=0.8576F=160.60;p=0.0000

97 / 99

回归线

98 / 99

本章结束

99 / 99
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow