Loading [MathJax]/jax/output/CommonHTML/jax.js
+ - 0:00:00
Notes for current slide
Notes for next slide

统计学原理(Statistic)

胡华平

西北农林科技大学

经济管理学院数量经济教研室

huhuaping01@hotmail.com

2023-05-08

1 / 53

(示例)变量间的关系:经济学专业解读

“我们数据不少,做了很严格的回归,但异常值略多略多,符合理论的数值反而难找……”

4 / 53

(示例)变量间的关系:金融学专业解读

“我们的数据多如牛毛,无孔不入。即使做完回归,也会发现异常值和符合理论的数值多得不忍直视。”

5 / 53

(示例)变量间的关系:土木工程专业解读

“我们得要设计余量,所以理论设计得远高于实际承受……”

6 / 53

(示例)变量间的关系:物理学专业解读

“我们的理论和数据严丝合缝,bingo!”

7 / 53

(示例)变量间的关系:环境科学专业解读

“我们的理论和数据大致吻合,就是……应用范围有点蛋疼。”

8 / 53

(示例)变量间的关系:历史学专业解读

“数据虽然很多,可我们能用理论把他们统统连起来!”

9 / 53

(示例)变量间的关系:政治学专业解读

“世界大势一日三变,尽管我们数据不少,可……我们的理论跟数据趋势是反着来的……”

10 / 53

(示例)变量间的关系:社会学专业解读

“学海无涯苦作舟。那么多数据,那么多理论,慢慢学,恩……”

11 / 53

(示例)变量间的关系:数学专业解读

“数据很少,但能建立理论~”

12 / 53

(示例)变量间的关系:新闻学专业解读

(示例)“只有一个数据,也能建立理论……”

13 / 53

(示例)变量间的关系:哲学专业解读

“没有数据,依然建立理论……”

14 / 53

(示例)变量间的关系:文学批评专业解读

“如图所示,你懂的……”

15 / 53

变量间的关系:函数关系

两个变量若存在是一一对应的确定关系,则称之为二者具有函数关系

设有两个变量 XY,变量 Y随变量 X一起变化,并完全依赖于 X,当变量 X取某个数值时, Y依确定的关系取相应的值,则称 YX的函数,记为 Y=f(X),其中 X称为自变量, Y称为因变量。

几何学角度来看,数据集各观测点会落在一条曲线上。

16 / 53

(示例)函数关系

某种商品的销售额 Y与销售量 X之间的关系可表示为( P为单价):

Yi=PiXi

圆的面积 S与半径 R之间的关系可表示为:

S=πR2

企业的原材料消耗额 Y与产量 X1 、单位产量消耗 X2 、原材料价格 X3之间的关系可表示为:

Y=X1X2X3

17 / 53

变量间的关系:相关关系(correlation)

相关关系的类型

相关关系的类型

18 / 53

(示例)相关关系

  • 父亲身高 Y与子女身高 X之间的关系

  • 收入水平 Y与受教育程度 X之间的关系

  • 粮食单位面积产量 Y与施肥量 X1 、降雨量 X2、温度 X3之间的关系

  • 商品的消费量 Y与居民收入 X之间的关系

  • 商品销售额 Y与广告费支出 X之间的关系

19 / 53

相关关系的描述与测度:问题与假定

相关分析要解决的问题:

  • 变量之间是否存在关系?

  • 如果存在关系,它们之间是什么样的关系?

  • 变量之间的关系强度如何?

  • 样本所反映的变量之间的关系能否代表总体变量之间的关系?

相关分析中的总体假定:

  • 两个变量之间是线性关系

  • 两个变量都是随机变量

20 / 53

相关关系的描述与测度:散点图

21 / 53

相关关系的描述与测度:散点图

21 / 53

相关关系的描述与测度:散点图

22 / 53

相关关系的描述与测度:散点图

22 / 53

相关关系的描述与测度:散点图

23 / 53

相关关系的描述与测度:散点图

23 / 53

相关关系的描述与测度:散点图

24 / 53

(示例)两类油价的散点图

25 / 53

(示例)传染病与认知水平的散点图

26 / 53

相关关系的描述与测度:相关系数

相关系数(correlation coefficient):是度量变量之间关系强度的一个统计量。

  • 它是对两个变量之间线性相关强度的一种度量。

  • 一般称为简单相关系数,也称为线性相关系数(linear correlation coefficient) 。

  • 或称为Pearson相关系数(Pearson’s correlation coefficient) 。

相关系数记号表达:

  • 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ρ

  • 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r

27 / 53

相关关系的描述与测度:计算公式

简单相关系数的大FF计算公式:

r=nXiYiXiYinX2i(Xi)2nY2i(Yi)2

简单相关系数的小ff计算公式:

r=((Xi¯X)(Yi¯Y))(Xi¯X)2(Yi¯Y)2=SSXYSSXXSSYY=xiyix2iy2i

SSXX=ni=1(Xi¯X)2;SSYY=ni=1(Yi¯Y)2;SSXY=ni=1(Xi¯X)(Yi¯Y)

28 / 53

相关关系的描述与测度:特征

简单相关系数的特征:

性质1r的取值范围是 [1,1]|r|越趋于1表示相关关系越强; |r|越趋于0表示相关关系越弱。

  • 如果 |r|=1,为完全相关。其中 r=1,为完全正相关; r=1,为完全负正相关

  • 如果 r=0,不存在线性相关关系

  • 如果 1<r<0,为负相关;如果 0<r<1,为正相关。

性质2:r具有对称性。即 XY之间的相关系数和 YX之间的相关系数相等,即 rXY=rYX

29 / 53

相关关系的描述与测度:特征

简单相关系数的特征:

性质3r数值大小与 XY原点及尺度无关,即改变 XY的数据原点及计量尺度,并不改变 r数值大小。

性质4:仅仅是 XY之间线性关系的一个度量,它不能用于描述非线性关系。这意为着, r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系

性质5r虽然是两个变量之间线性关系的一个度量,却不一定意味着 XY一定有因果关系。

30 / 53

相关关系的描述与测度:解释

下面给出实证研究时,对相关系数的经验解释:

  • |r|<0.8时,可视为两个变量之间高度相关。

  • 0.5<|r|<0.8时,可视为中度相关。

  • 0.3<|r|<0.5时,视为低度相关。

  • |r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。

而且上述解释必须建立在对相关系数的显著性进行检验的基础之上。

31 / 53

相关关系的描述与测度:简单相关系数

简单相关系数(simple correlation coefficient):

  • YiX2i之间的相关系数:

r12=yix2iy2ix22i

  • YiX3i之间的相关系数:

r13=yix3iy2ix23i

  • X2iX3i之间的相关系数:

r23=x2ix3ix22ix23i

32 / 53

相关关系的描述与测度:偏相关系数

偏相关系数(partial correlation coefficient): 一个不依赖于 X2i的,对 X3iYi的影响的一种相关系数。

  • 保持 X3i不变, YiX2i之间的相关系数:

r123=r12r13r23(1r213)(1r223)

  • 保持 X2i不变, YiX3i之间的相关系数:

r13.2=r13r12r23(1r212)(1r223)

  • 保持 Yi不变, X2iX3i之间的相关系数:

r23.1=r23r12r13(1r212)(1r213)

33 / 53

相关系数的显著性检验

相关系数的显著性检验,是指检验两个变量之间是否存在线性相关关系。

相关系数的显著性检验方法包括:

  • 等价于对回归斜率系数 β1的检验(仅针对一元回归)

  • 采用R. A. Fisher提出的t检验

34 / 53

相关系数的显著性检验

相关系数的显著性检验步骤:

1)提出假设: H0:ρ=0;H1:ρ0

2)计算样本统计量

T=|r|n21r2t(n2)

3)给定显著性水平 α,确定t理论分布值 t1α/2(n2)

4)得到假设检验结论:

  • T>t1α/2(n2),则拒绝 H0,认为显著存在相关关系;

  • T<t1α/2(n2),则无法拒绝 H0,认为相关关系不显著。

35 / 53

附录:假设检验的分布及统计量证明1/3

yyh(yx)=yyf(x,y)fX(x)=β1+β2x(1)

yyf(x,y)=(β1+β2x)fX(x)(2)xyyf(x,y)=x(β1+β2x)fX(x)(3)xyxyf(x,y)=x(β1x+β2x2)fX(x)(4)E(XY)=β1E(X)+β2E(X2)(5)

μY=β1+β2μX(6 <--2)μXμY+ρσXσY=β1μX+β2(μ2X+σ2X)(7 <--5)

当然,故事其实比上面还要更复杂。大家可以深入思考和讨论。参看:[1] Hogg R V, Tanis E A, Zimmerman D L. Probability and statistical inference[M]. 第10版. NJ,Hoboken:Pearson, 2020. pg 148 (section 4.3)

36 / 53

附录:假设检验的分布及统计量证明2/3

利用上述二元一次方程组,可以解出参数:

β1=μYρσYσXμX(8)β2=ρσYσX(9)

E(YXi)=β1+β2Xi=β1+ρσYσXXi(10)

相关系数 ρ的显著性检验等价于一元线性回归分析中斜率参数 β2的t检验过程,也即: H0:ρ=0;H1:ρ0;等价于 H0:β2=0;H1:β20

37 / 53

附录:假设检验的分布及统计量证明3/3

一元线性回归 Yi=β1+β2Xi+ui;斜率系数t检验 H0:β2=0;H1:β20

t=^β2β2ˆσˆβ2=^β2ˆσ2(XiˉX)2=^β20MSE(XiˉX)2=r(SY/SX)(n1)S2Y(1r2)(n2)1(n1)S2X=rn21r2

r=SXYSXSYˆβ2=1n1ni=1(XiˉX)(YiˉY)1n1ni=1(XiˉX)2=SXYS2X=rSYSXˆβ1=¯Yˆβ2¯XMSEσ2=ni=1(YiˆYi)2n2=ni=1[Yi(ˉY+SXYS2X(XiˉX))]2n2=(n1)S2Y(1r2)n2

38 / 53

(案例)银行贷款:案例数据

案例说明:某银行共有25家分行,分行及所在地区的相关变量数据如下表所示。

说明:上述变量的含义分别是ID.bank(分行编号)、loan.bad(不良贷款)、loan.surplus(各项贷款余额 )、loan.receivable(本年累计应收贷款)、loan.numbers(贷款项目个数)、investment.fixed(本年固定资产投资额)。

39 / 53

(案例)银行贷款:不良贷款VS贷款余额的散点图

不良贷款VS贷款余额散点图

不良贷款VS贷款余额散点图

40 / 53

(案例)银行贷款:不良贷款VS贷款余额的相关系数(大FF)

41 / 53

(案例)银行贷款:不良贷款VS贷款余额的相关系数(大FF)

相关系数 r的大FF计算公式(eq01):

r=nXiYiXiYinX2i(Xi)2nY2i(Yi)2=25×17080.143006.7×93.225×516543.37(3006.7)225×660.1(93.2)2=0.8436

42 / 53

(案例)银行贷款:不良贷款VS贷款余额的相关系数(小ff)

43 / 53

(案例)银行贷款:不良贷款VS贷款余额的相关系数

相关系数 r的小FF计算公式(eq02):

r=((Xi¯X)(Yi¯Y))(Xi¯X)2(Yi¯Y)2=xiyix2iy2i=5871.16154933.57×312.65=0.8436

44 / 53

(案例)银行贷款:相关系数矩阵表(Pearson)

corl_pearson<- round(cor(df_loan[,-1], method = "pearson"),4)
corl_pearson[upper.tri(corl_pearson)]<- NA

Pearson相关系数矩阵

45 / 53

(案例)银行贷款:相关系数矩阵(Spearman)

corl_spearman<- round(cor(df_loan[,-1], method = "spearman"),4)
corl_spearman[upper.tri(corl_spearman)] <- NA

Spearman相关系数矩阵

46 / 53

(案例)银行贷款:相关系数矩阵图

#remotes::install_github("r-link/corrmorant")
require("corrmorant")
corrmorant::corrmorant(df_loan[,-1], style = "binned")+
theme_dark() +
theme(text = element_text(size = 14))
47 / 53

(案例)银行贷款:相关系数矩阵图

ggcorrm(data = df_loan[,-1]) +
lotri(geom_point(alpha = 0.5)) +
lotri(geom_smooth()) +
utri_heatmap() +
utri_corrtext() +
dia_names(y_pos = 0.15, size = 3) +
dia_histogram(lower = 0.3, fill = "grey80", color = 1) +
scale_fill_corr() +
theme(text = element_text(size = 14))
48 / 53

(案例)银行贷款:偏相关系数

假定我们认为不良贷款(loan.bad)与贷款余额(loan.surplus)及贷款项目数(loan.number)存在相互关系。

前面我们已经计算出如下的简单相关系数: r12=rbad,sur=0.8436;r13=rbad,num=0.7003;r23=rnum,sur=0.8484

因此我们可以分别计算出偏相关系数

49 / 53

(案例)银行贷款:偏相关系数

  • 保持 X3i不变, YiX2i之间的相关系数:

r123=r12r13r23(1r213)(1r223)=0.840.7×0.85(10.72)(10.852)=0.6601

  • 保持 X2i不变, YiX3i之间的相关系数:

r13.2=r13r12r23(1r212)(1r223)=0.70.84×0.85(10.842)(10.852)=0.0542

  • 保持 Yi不变, X2iX3i之间的相关系数:

r23.1=r23r12r13(1r212)(1r213)=0.850.84×0.7(10.842)(10.72)=0.6722

50 / 53

(案例)银行贷款:相关系数显著性检验(手算)

对于前述loan.surplusloan.bad进行相关系数显著性检验(Pearson):

  • 1)提出假设: H0:ρ=0;H1:ρ0

  • 2)计算样本统计量:

T=|r|n21r2=0.84×25210.842=7.53

  • 3)给定显著性水平 α=0.05,确定t理论分布值 t1α/2(n2)=t10.05/2(252)=t0.975(23)=2.07

  • 4)得到假设检验结论:因为t样本统计量大于t理论查表值,也即

[T=7.53]>[t0.975(23)=2.07]

因此拒绝原假设 H0,认为变量loan.surplus(贷款余额)与loan.bad(不良贷款)显著存在相关关系。

51 / 53

(案例)银行贷款:相关系数显著性检验(R软件)

我们可以使用R软件函数cor.test()对上述两个变量进行相关系数显著性检验:

cor.test(df_rel1$loan.surplus, df_rel1$loan.bad,
method = "pearson")
Pearson's product-moment correlation
data: df_rel1$loan.surplus and df_rel1$loan.bad
t = 8, df = 23, p-value = 0.0000001
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.67 0.93
sample estimates:
cor
0.84
52 / 53

本节结束

53 / 53
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow