从一组样本数据出发,确定变量之间的数学关系式。
对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。
利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。
提问:
总体是什么?
有多少总体单位?
Mark | G1 | G2 | G3 | G4 | G5 | G6 | G7 | G8 | G9 | G10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
Y1 | 55 | 65 | 79 | 80 | 102 | 110 | 120 | 135 | 137 | 150 |
Y2 | 60 | 70 | 84 | 93 | 107 | 115 | 136 | 137 | 145 | 152 |
Y3 | 65 | 74 | 90 | 95 | 110 | 120 | 140 | 140 | 155 | 175 |
Y4 | 70 | 80 | 94 | 103 | 116 | 130 | 144 | 152 | 165 | 178 |
Y5 | 75 | 85 | 98 | 108 | 118 | 135 | 145 | 157 | 175 | 180 |
Y6 | 88 | 113 | 125 | 140 | 160 | 189 | 185 | |||
Y7 | 115 | 162 | 191 |
扁数据形态:“非标准”数据形态(但很直观)
长数据形态:标准数据形态(但不直观)。
无条件概率:
定义:不受 Xi变量取值影响下, Yi出现的可能性。
记号:离散变量 P(Yi);连续变量 g(Y)
无条件期望:
定义:不受 Xi变量取值影响下,变量 Yi的期望值。
记号: g(Yi)表示连续变量的概率密度函数(cdf)
E(Y)=N∑1Yi⋅P(Yi)(discrete vars)E(Y)=∫Yi⋅g(Yi)dY(continue vars)
E(Y)=N∑1Yi⋅P(Yi)=60∑1(55∗160+60∗160+⋯+191∗160)=16060∑1Yi=727260=121.2
条件概率:
定义:给定变量 Xi的取值条件下, Yi出现的可能性。
记号:离散变量 P(Yi|Xi);连续变量 g(Y|X)
条件期望:
在给定变量 Xi的取值条件下, Yi的期望值。
记号: g(Y|X)表示连续变量的条件概率密度函数(cdf)
E(Y|Xi)=N∑1(Yi|Xi)⋅P(Yi|Xi)(discrete vars)E(Y|Xi)=∫(Y|X)⋅g(Y|X)dY(continue vars)
E(Y|80)=N∑1Yi⋅P(Yi|X=80)=5∑1(55∗15+60∗15+⋯+75∗15)=155∑1Yi=3255=65
var | G1 | G2 | G3 | G4 | G5 | G6 | G7 | G8 | G9 | G10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
E(Y|X) | 65 | 77 | 89 | 101 | 113 | 125 | 137 | 149 | 161 | 173 |
几何:给定X值时Y的条件期望值的轨迹。
统计:实质上就是Y对X的回归。
总体回归曲线(Population Regression Curve,PRC):条件期望值的轨迹表现为一条曲线(Curve)。
总体回归线(Population Regression Line,PRL):条件期望值的轨迹表现为一条直线(Line)。
总体回归函数(Population Regression Function,PRF):它是对总体回归曲线(PRC)的数学函数表现形式。
如果不知道总体回归曲线的具体形式,则总体回归函数PRF表达为如下隐函数形式(PRF):
E(Y|Xi)=f(Xi)(PRF)
如果总体回归曲线是直线形式,则总体回归函数PRF表达为如下显函数形式(PRF_L):
E(Y|Xi)=β1+β2Xi(PRF_L)
β1,β2分别称为截距(intercept)和斜率系数(slope coefficient)。
β1,β2称为总体参数或回归系数(regression coefficients)。
β1,β2为未知但却是固定的参数。
总体回归模型(Population Regression model, PRM):把总体回归函数表达成随机设定形式。
如果总体回归函数为隐函数,则总体回归模型记为:
Yi=E(Y|Xi)+ui=f(Xi)+ui
如果总体回归函数为线性函数,则总体回归模型记为:
Yi=E(Y|Xi)+ui=β1+β2Xi+ui
总体回归模型(PRM)属于计量经济学模型,而总体回归函数(PRF)是数量经济学模型(或数学模型)。
总体回归模型(PRM)能充分表达的是现实世界中 Yi变量的行为特征。
总体回归模型(PRM)设定下, Yi将由两个部分组成。
特定家庭的支出( Yi) = 系统性部分( E(Y|Xi) + 随机部分( ui)
特定家庭的支出( Yi) = 系统性部分( β1+β2Xi) + 随机部分( ui)
随机干扰项:
ui=Yi−E(Y|Xi)
随机干扰项的来源:
理论的含糊:除了主变量之外,还有其它变量的影响,但不清楚,只能用𝜇_𝑖代替它们。(家庭收入以外?)
数据的不充分:可能知道被忽略的变量,但不能得到这些变量的数量信息。(如家庭财富数据不可得)
核心变量与其它变量:其它变量全部或其中一些合起来影响还是很小的。(如子女、教育、性别、宗教等)
人类行为的内在随机性。(客观存在、固有的)
变量被“移花接木”而产生测量误差(如弗里德曼的持久收入和消费)
节省原则:为了保持一个尽可能简单的回归模型
错误的函数形式:有时根据数据及经验无法确定一个正确的函数形式 (多元回归尤其如此)
为何是“随机的”?
测不准?(误差)
测错了?(误导)
免不了!(内在性)
拥抱随机世界
风筝: Yi
风筝线: E(Y|Xi)
风: ui
若给定一个特定家庭 (Xi=120,Yi=79),则条件期望为 E(Y|120)=89
若给定 Xi=120,则5个家庭的真实消费支出分别为:
(Y1|X=120)=79=β1+β2⋅120+u1(Y2|X=120)=84=β1+β2⋅120+u2(Y3|X=120)=90=β1+β2⋅120+u3(Y4|X=120)=94=β1+β2⋅120+u4(Y5|X=120)=98=β1+β2⋅120+u5
主要结论:
总体期望刻画总体的“趋势”,总体回归线让“趋势”直观化。
个体随机性是不可避免的,总会“游离”于“趋势”之外。
随机干扰项 ui𝑖携带了随机个体的“游离”信息。
总体回归模型既“提取”了趋势和规律性,又“维系”着个体随机性,从而更好地表达了“真实世界”。
课后思考:
如果是无限总体,总体的规律性在理论上也是可以被严格表达出来么?
如果不告诉你总体,你怎么知道“触碰”到的是“真实的”趋势/规律?
从假想的60个家庭的微型总体中,“随便”抽取10个家庭的数据,你还能看到“直线”趋势么?
“线性回归模型”中“线性”一词的含义
变量“线性”模型:因变量对于自变量是线性的。
参数“线性”模型:因变量对于参数是线性的。
下列模型分别属于哪一类?请指出来:
Yi=β1+β2Xi+ui(mod1)
Yi=β1+β2Xi+β3X2i+ui(mod2)
Yi=β1+β2Xi+β3X2i+β4X3i+ui(mod3)
Yi=β1+β21Xi+ui(mod4)
Yi=β1+β2ln(Xi)+ui(mod5)
ln(Yi)=β1+β2Xi+ui(mod6)
下列模型分别属于哪一类?请指出来:
ln(Yi)=β1−β21Xi+ui(mod7)
ln(Yi)=ln(β1)+β2ln(Xi)+ui(mod8)
Yi=11+e(β1+β2X2i+ui)(mod9)
Yi=β1+(0.75−β1)e−β2(Xi−2)+ui(mod10)
Yi=β1+β32Xi+ui(mod11)
样本(Sample):
样本回归线(Sample Regression Line,SRL):
是通过拟合样本数据得到的一条曲线(或直线)。换言之,这条线由拟合值 ˆYi连接而成。
ˆYi是对条件期望值 Y|Xi的拟合。
拟合方法有很多,例如采用OLS方法对样本数据进行拟合。
样本回归函数(Sample Regression Function,SRF):是样本回归曲线的数学函数形式,可是是线性的或非线性。如果是直线则可以写成:
ˆYi=ˆβ1+ˆβ2Xi
对比总体回归函数(PRF):
E(Y|Xi)=β1+β2Xi
可以认为:
ˆYi是对 E(Y|Xi)的估计量。
ˆβ1是对 β1的估计量。
ˆβ2是对 β2的估计量。
var | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | n9 | n10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
Y | 65 | 88 | 90 | 93 | 107 | 140 | 140 | 157 | 165 | 185 |
var | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | n9 | n10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
Y | 65 | 88 | 90 | 93 | 107 | 140 | 140 | 157 | 165 | 185 |
var | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | n9 | n10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
Y | 65 | 88 | 90 | 93 | 107 | 140 | 140 | 157 | 165 | 185 |
根据第一份随机样本拟合得到的样本回归函数SRF:
ˆY=+13.38+0.64X
样本数据如下:
var | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | n9 | n10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
Y | 65 | 88 | 90 | 93 | 107 | 140 | 140 | 157 | 165 | 185 |
var | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | n9 | n10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
Y | 55 | 70 | 90 | 108 | 125 | 135 | 136 | 135 | 155 | 178 |
var | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | n9 | n10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
Y | 55 | 70 | 90 | 108 | 125 | 135 | 136 | 135 | 155 | 178 |
var | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | n9 | n10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
Y | 55 | 70 | 90 | 108 | 125 | 135 | 136 | 135 | 155 | 178 |
根据第二份随机样本拟合得到的样本回归函数SRF:
ˆY=+14.59+0.61X
样本数据如下:
var | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | n9 | n10 |
---|---|---|---|---|---|---|---|---|---|---|
X | 80 | 100 | 120 | 140 | 160 | 180 | 200 | 220 | 240 | 260 |
Y | 55 | 70 | 90 | 108 | 125 | 135 | 136 | 135 | 155 | 178 |
样本回归模型(Sample Regression Model,SRM):把样本回归函数表现为“随机”形式。
Yi=g(Xi)+ei
Yi=ˆβ1+ˆβ2Xi+ei(SRM_L)
其中, ei表示残差(Residual)
残差(Residual):
定义:是样本回归函数与Y的样本观测值之间的离差。
记号:
ei=Yi−ˆYi=Yi−(ˆβ1+ˆβ2Xi)
给定 xi=240,样本2的观测值 Yi=240 ;拟合值 ˆYi= 161.6;残差 ei=Yi−ˆYi= -6.6。
总体回归函数PRF:
E(Y|Xi)=β1+β2Xi(PRF)
总体回归模型PRM:
Yi=β1+β2Xi+ui(PRM)
样本回归函数SRF:
ˆYi=ˆβ1+ˆβ2Xi(SRF)
样本回归模型SRM:
Yi=ˆβ1+ˆβ2Xi+ei(SRM)
总体回归函数PRF:
E(Y|Xi)=β1+β2Xi(PRF)
总体回归模型PRM:
Yi=β1+β2Xi+ui(PRM)
样本回归函数SRF:
ˆYi=ˆβ1+ˆβ2Xi(SRF)
样本回归模型SRM:
Yi=ˆβ1+ˆβ2Xi+ei(SRM)
思考:
PRF无法直接观测,只能用SRF近似替代
估计值与观测值之间存在偏差
SRF又是怎样决定的呢?
总结:
随机抽样数据继承了总体的特征。
利用随机样本进行数据拟合是对总体规律的“反向追踪”。
样本回归模型中的残差是拟合不完全的产物。
总结:
随机抽样数据继承了总体的特征。
利用随机样本进行数据拟合是对总体规律的“反向追踪”。
样本回归模型中的残差是拟合不完全的产物。
思考:
怎样来判定对随机样本的一次数据拟合是更优的?
存不存在一种“最优”的拟合方法?
总结:
随机抽样数据继承了总体的特征。
利用随机样本进行数据拟合是对总体规律的“反向追踪”。
样本回归模型中的残差是拟合不完全的产物。
思考:
怎样来判定对随机样本的一次数据拟合是更优的?
存不存在一种“最优”的拟合方法?
课后作业:
请把162名同学的拟合线进行平均化处理(截距和斜率取均值),绘制得到一条“回归线”。
你认为是这根平均化的“回归线”与真相更逼近么?
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |