Loading [MathJax]/jax/output/CommonHTML/jax.js
+ - 0:00:00
Notes for current slide
Notes for next slide

统计学原理(Statistic)

胡华平

西北农林科技大学

经济管理学院数量经济教研室

huhuaping01@hotmail.com

2021-05-18

1 / 54

线性回归分析

从一组样本数据出发,确定变量之间的数学关系式。

对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。

利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。

4 / 54

相关关系:边际相关与条件相关1

边际相关但是条件独立

边际相关但是条件独立

5 / 54

相关关系:边际相关与条件相关2

边际独立但是条件相关

边际独立但是条件相关

6 / 54

相关关系VS因果关系

巧克力消费量与诺贝尔奖数量

巧克力消费量与诺贝尔奖数量

7 / 54

相关关系VS因果关系:性别的作用

治疗康复表

治疗康复表

因果关系图

因果关系图

8 / 54

相关关系VS因果关系:血压的作用

治疗康复表

治疗康复表

因果关系图

因果关系图

9 / 54

(案例)假想总体:60个家庭的收支数据(直观列表)

60个家庭的收入和支出情况:假设的总体

60个家庭的收入和支出情况:假设的总体

10 / 54

提问:

  • 总体是什么?

  • 有多少总体单位?

(案例)假想总体:60个家庭的收支数据(扁数据形态)

11 / 54

扁数据形态:“非标准”数据形态(但很直观)

(案例)假想总体:60个家庭的收支数据(长数据形态)

12 / 54

长数据形态:标准数据形态(但不直观)。

重要概念:无条件概率和无条件期望

无条件概率

  • 定义:不受 Xi变量取值影响下, Yi出现的可能性。

  • 记号:离散变量 P(Yi);连续变量 g(Y)

无条件期望

  • 定义:不受 Xi变量取值影响下,变量 Yi的期望值。

  • 记号: g(Yi)表示连续变量的概率密度函数(cdf)

E(Y)=N1YiP(Yi)(discrete vars)E(Y)=Yig(Yi)dY(continue vars)

13 / 54

(示例)无条件概率和无条件期望的示例计算

无条件概率和无条件期望

无条件概率和无条件期望

14 / 54

(示例)无条件期望的计算过程

E(Y)=N1YiP(Yi)=601(55160+60160++191160)=160601Yi=727260=121.2

15 / 54

重要概念:条件概率和条件期望

条件概率

  • 定义:给定变量 Xi的取值条件下, Yi出现的可能性。

  • 记号:离散变量 P(Yi|Xi);连续变量 g(Y|X)

条件期望

  • 在给定变量 Xi的取值条件下, Yi的期望值。

  • 记号: g(Y|X)表示连续变量的条件概率密度函数(cdf)

E(Y|Xi)=N1(Yi|Xi)P(Yi|Xi)(discrete vars)E(Y|Xi)=(Y|X)g(Y|X)dY(continue vars)

16 / 54

(示例)条件概率和条件期望的计算

条件概率和条件期望

条件概率和条件期望

17 / 54

(示例)条件期望的计算过程

E(Y|80)=N1YiP(Yi|X=80)=51(5515+6015++7515)=1551Yi=3255=65

18 / 54

(示例)假想总体的全部数据展示

19 / 54

(示例)给定不同X水平下Y条件期望值

var G1 G2 G3 G4 G5 G6 G7 G8 G9 G10
X 80 100 120 140 160 180 200 220 240 260
E(Y|X) 65 77 89 101 113 125 137 149 161 173
20 / 54

(示例)给定不同X水平下Y条件期望值

给定 X=120水平下 Y条件期望值 E(Y|Xi=120)= 89

21 / 54

(示例)X均值和Y的无条件期望值

X的均值 ˉX =173.67和Y的无条件期望值 E(Y)= 121.20

22 / 54

重要概念:总体回归线(PRL)

  • 几何:给定X值时Y的条件期望值的轨迹。

  • 统计:实质上就是Y对X的回归。

总体回归曲线(Population Regression Curve,PRC):条件期望值的轨迹表现为一条曲线(Curve)。

总体回归线(Population Regression Line,PRL):条件期望值的轨迹表现为一条直线(Line)。

23 / 54

重要概念:总体回归线(PRL)

总体回归线PRL

总体回归线PRL

24 / 54

重要概念:总体回归函数(PRF)

总体回归函数(Population Regression Function,PRF):它是对总体回归曲线(PRC)的数学函数表现形式。

如果不知道总体回归曲线的具体形式,则总体回归函数PRF表达为如下隐函数形式(PRF):

E(Y|Xi)=f(Xi)(PRF)

如果总体回归曲线是直线形式,则总体回归函数PRF表达为如下显函数形式(PRF_L):

E(Y|Xi)=β1+β2Xi(PRF_L)

  • β1,β2分别称为截距(intercept)和斜率系数(slope coefficient)。

  • β1,β2称为总体参数或回归系数(regression coefficients)。

  • β1,β2为未知但却是固定的参数。

25 / 54

重要概念:总体回归函数(PRF)

总体回归线PRL与总体回归函数PRF

总体回归线PRL与总体回归函数PRF

26 / 54

重要概念:总体回归模型(PRM)

总体回归模型(Population Regression model, PRM):把总体回归函数表达成随机设定形式。

如果总体回归函数为隐函数,则总体回归模型记为:

Yi=E(Y|Xi)+ui=f(Xi)+ui

如果总体回归函数为线性函数,则总体回归模型记为:

Yi=E(Y|Xi)+ui=β1+β2Xi+ui

  • 总体回归模型(PRM)属于计量经济学模型,而总体回归函数(PRF)是数量经济学模型(或数学模型)。

  • 总体回归模型(PRM)能充分表达的是现实世界中 Yi变量的行为特征。

27 / 54

重要概念:随机干扰项

总体回归模型(PRM)设定下, Yi将由两个部分组成。

  • 特定家庭的支出( Yi) = 系统性部分( E(Y|Xi) + 随机部分( ui

  • 特定家庭的支出( Yi) = 系统性部分( β1+β2Xi) + 随机部分( ui

随机干扰项

  • 也被称为随机误差项(stochastic error term):总体回归函数中忽略掉的但又影响着Y的全部变量的替代物,它是 Yi与条件期望( E(Y|Xi))的离差。

ui=YiE(Y|Xi)

28 / 54

重要概念:随机干扰项

随机干扰项的来源:

  • 理论的含糊:除了主变量之外,还有其它变量的影响,但不清楚,只能用𝜇_𝑖代替它们。(家庭收入以外?)

  • 数据的不充分:可能知道被忽略的变量,但不能得到这些变量的数量信息。(如家庭财富数据不可得)

  • 核心变量与其它变量:其它变量全部或其中一些合起来影响还是很小的。(如子女、教育、性别、宗教等)

  • 人类行为的内在随机性。(客观存在、固有的)

  • 变量被“移花接木”而产生测量误差(如弗里德曼的持久收入和消费)

  • 节省原则:为了保持一个尽可能简单的回归模型

  • 错误的函数形式:有时根据数据及经验无法确定一个正确的函数形式 (多元回归尤其如此)

29 / 54

重要概念:随机干扰项

为何是“随机的”?

  • 测不准?(误差)

  • 测错了?(误导)

  • 免不了!(内在性)

拥抱随机世界

  • 风筝: Yi

  • 风筝线: E(Y|Xi)

  • 风: ui

30 / 54

重要概念:理解PRM和PRF的关系

若给定一个特定家庭 (Xi=120,Yi=79),则条件期望为 E(Y|120)=89

31 / 54

重要概念:理解PRM和PRF的关系

若给定 Xi=120,则5个家庭的真实消费支出分别为:

(Y1|X=120)=79=β1+β2120+u1(Y2|X=120)=84=β1+β2120+u2(Y3|X=120)=90=β1+β2120+u3(Y4|X=120)=94=β1+β2120+u4(Y5|X=120)=98=β1+β2120+u5

32 / 54

重要概念:理解PRM和PRF的关系

主要结论:

  • 总体期望刻画总体的“趋势”,总体回归线让“趋势”直观化。

  • 个体随机性是不可避免的,总会“游离”于“趋势”之外。

  • 随机干扰项 ui𝑖携带了随机个体的“游离”信息。

  • 总体回归模型既“提取”了趋势和规律性,又“维系”着个体随机性,从而更好地表达了“真实世界”。

课后思考:

  • 如果是无限总体,总体的规律性在理论上也是可以被严格表达出来么?

  • 如果不告诉你总体,你怎么知道“触碰”到的是“真实的”趋势/规律?

  • 从假想的60个家庭的微型总体中,“随便”抽取10个家庭的数据,你还能看到“直线”趋势么?

33 / 54

重要概念:“线性”的含义

“线性回归模型”中“线性”一词的含义

  • 变量“线性”模型:因变量对于自变量是线性的。

  • 参数“线性”模型:因变量对于参数是线性的。

34 / 54

(测试题)“线性”的含义

下列模型分别属于哪一类?请指出来:

Yi=β1+β2Xi+ui(mod1)

Yi=β1+β2Xi+β3X2i+ui(mod2)

Yi=β1+β2Xi+β3X2i+β4X3i+ui(mod3)

Yi=β1+β21Xi+ui(mod4)

Yi=β1+β2ln(Xi)+ui(mod5)

ln(Yi)=β1+β2Xi+ui(mod6)

35 / 54

(测试题)“线性”的含义

下列模型分别属于哪一类?请指出来:

ln(Yi)=β1β21Xi+ui(mod7)

ln(Yi)=ln(β1)+β2ln(Xi)+ui(mod8)

Yi=11+e(β1+β2X2i+ui)(mod9)

Yi=β1+(0.75β1)eβ2(Xi2)+ui(mod10)

Yi=β1+β32Xi+ui(mod11)

36 / 54

重要概念:样本回归线(SRL)

样本(Sample)

  • 从总体中随机抽取得到的数据。

样本回归线(Sample Regression Line,SRL):

  • 是通过拟合样本数据得到的一条曲线(或直线)。换言之,这条线由拟合值 ˆYi连接而成。

  • ˆYi是对条件期望值 Y|Xi的拟合。

  • 拟合方法有很多,例如采用OLS方法对样本数据进行拟合。

    • 尽可能拟合数据
    • 用什么方法拟合?
    • 曲线是什么形态?
37 / 54

重要概念:样本回归函数(SRF)

样本回归函数(Sample Regression Function,SRF):是样本回归曲线的数学函数形式,可是是线性的或非线性。如果是直线则可以写成:

ˆYi=ˆβ1+ˆβ2Xi

对比总体回归函数(PRF):

E(Y|Xi)=β1+β2Xi

可以认为:

  • ˆYi是对 E(Y|Xi)的估计量。

  • ˆβ1是对 β1的估计量。

  • ˆβ2是对 β2的估计量。

38 / 54

(示例)第一份随机样本:抽样

var n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
X 80 100 120 140 160 180 200 220 240 260
Y 65 88 90 93 107 140 140 157 165 185
39 / 54

(示例)第一份随机样本:数据

var n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
X 80 100 120 140 160 180 200 220 240 260
Y 65 88 90 93 107 140 140 157 165 185
40 / 54

(示例)第一份随机样本:SRL

var n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
X 80 100 120 140 160 180 200 220 240 260
Y 65 88 90 93 107 140 140 157 165 185
41 / 54

(示例)第一份随机样本:SRF

根据第一份随机样本拟合得到的样本回归函数SRF:

ˆY=+13.38+0.64X

样本数据如下:

var n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
X 80 100 120 140 160 180 200 220 240 260
Y 65 88 90 93 107 140 140 157 165 185
42 / 54

(示例)第二份随机样本:抽样

var n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
X 80 100 120 140 160 180 200 220 240 260
Y 55 70 90 108 125 135 136 135 155 178
43 / 54

(示例)第二份随机样本:数据

var n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
X 80 100 120 140 160 180 200 220 240 260
Y 55 70 90 108 125 135 136 135 155 178
44 / 54

(示例)第二份随机样本:SRL

var n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
X 80 100 120 140 160 180 200 220 240 260
Y 55 70 90 108 125 135 136 135 155 178
45 / 54

(示例)第二份随机样本:SRF

根据第二份随机样本拟合得到的样本回归函数SRF:

ˆY=+14.59+0.61X

样本数据如下:

var n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
X 80 100 120 140 160 180 200 220 240 260
Y 55 70 90 108 125 135 136 135 155 178
46 / 54

(示例)两份样本同时出现

47 / 54

重要概念:样本回归模型(SRM)

样本回归模型(Sample Regression Model,SRM):把样本回归函数表现为“随机”形式。

  • 如果样本回归函数为隐函数,则样本回归模型可记为:

Yi=g(Xi)+ei

  • 如果样本回归函数表现为直线,则样本回归模型可记为:

Yi=ˆβ1+ˆβ2Xi+ei(SRM_L)

其中, ei表示残差(Residual)

48 / 54

重要概念:残差

残差(Residual):

  • 定义:是样本回归函数与Y的样本观测值之间的离差。

  • 记号:

ei=YiˆYi=Yi(ˆβ1+ˆβ2Xi)

49 / 54

重要概念:理解SRF和SRM的关系

给定 xi=240,样本2的观测值 Yi=240 ;拟合值 ˆYi= 161.6;残差 ei=YiˆYi= -6.6。

50 / 54

重要概念:样本回归与总体回归的比较

51 / 54

重要概念:样本回归与总体回归的比较

为何不同?继承性和变异性

51 / 54

重要概念:样本回归与总体回归的比较

总体回归函数PRF:

E(Y|Xi)=β1+β2Xi(PRF)

总体回归模型PRM:

Yi=β1+β2Xi+ui(PRM)

样本回归函数SRF:

ˆYi=ˆβ1+ˆβ2Xi(SRF)

样本回归模型SRM:

Yi=ˆβ1+ˆβ2Xi+ei(SRM)

52 / 54

重要概念:样本回归与总体回归的比较

总体回归函数PRF:

E(Y|Xi)=β1+β2Xi(PRF)

总体回归模型PRM:

Yi=β1+β2Xi+ui(PRM)

样本回归函数SRF:

ˆYi=ˆβ1+ˆβ2Xi(SRF)

样本回归模型SRM:

Yi=ˆβ1+ˆβ2Xi+ei(SRM)

思考:

  • PRF无法直接观测,只能用SRF近似替代

  • 估计值与观测值之间存在偏差

  • SRF又是怎样决定的呢?

52 / 54

重要概念:样本回归与总体回归的比较

总结:

  • 随机抽样数据继承了总体的特征。

  • 利用随机样本进行数据拟合是对总体规律的“反向追踪”。

  • 样本回归模型中的残差是拟合不完全的产物。

53 / 54

重要概念:样本回归与总体回归的比较

总结:

  • 随机抽样数据继承了总体的特征。

  • 利用随机样本进行数据拟合是对总体规律的“反向追踪”。

  • 样本回归模型中的残差是拟合不完全的产物。

思考:

  • 怎样来判定对随机样本的一次数据拟合是更优的?

  • 存不存在一种“最优”的拟合方法?

53 / 54

重要概念:样本回归与总体回归的比较

总结:

  • 随机抽样数据继承了总体的特征。

  • 利用随机样本进行数据拟合是对总体规律的“反向追踪”。

  • 样本回归模型中的残差是拟合不完全的产物。

思考:

  • 怎样来判定对随机样本的一次数据拟合是更优的?

  • 存不存在一种“最优”的拟合方法?

课后作业:

  • 请把162名同学的拟合线进行平均化处理(截距和斜率取均值),绘制得到一条“回归线”。

  • 你认为是这根平均化的“回归线”与真相更逼近么?

53 / 54

本节结束

54 / 54
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow