“我们数据不少,做了很严格的回归,但异常值略多略多,符合理论的数值反而难找……”
“我们的数据多如牛毛,无孔不入。即使做完回归,也会发现异常值和符合理论的数值多得不忍直视。”
“世界大势一日三变,尽管我们数据不少,可……我们的理论跟数据趋势是反着来的……”
两个变量若存在是一一对应的确定关系,则称之为二者具有函数关系。
设有两个变量 X和 Y,变量 Y随变量 X一起变化,并完全依赖于 X,当变量 X取某个数值时, Y依确定的关系取相应的值,则称 Y是 X的函数,记为 Y=f(X),其中 X称为自变量, Y称为因变量。
从几何学角度来看,数据集各观测点会落在一条曲线上。
某种商品的销售额 Y与销售量 X之间的关系可表示为( P为单价):
Yi=Pi⋅Xi
圆的面积 S与半径 R之间的关系可表示为:
S=πR2
企业的原材料消耗额 Y与产量 X1 、单位产量消耗 X2 、原材料价格 X3之间的关系可表示为:
Y=X1⋅X2⋅X3
父亲身高 Y与子女身高 X之间的关系
收入水平 Y与受教育程度 X之间的关系
粮食单位面积产量 Y与施肥量 X1 、降雨量 X2、温度 X3之间的关系
商品的消费量 Y与居民收入 X之间的关系
商品销售额 Y与广告费支出 X之间的关系
相关分析要解决的问题:
变量之间是否存在关系?
如果存在关系,它们之间是什么样的关系?
变量之间的关系强度如何?
样本所反映的变量之间的关系能否代表总体变量之间的关系?
相关分析中的总体假定:
两个变量之间是线性关系
两个变量都是随机变量
相关系数(correlation coefficient):是度量变量之间关系强度的一个统计量。
它是对两个变量之间线性相关强度的一种度量。
一般称为简单相关系数,也称为线性相关系数(linear correlation coefficient) 。
或称为Pearson相关系数(Pearson’s correlation coefficient) 。
相关系数记号表达:
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ρ。
若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r。
简单相关系数的大FF计算公式:
r=n∑XiYi−∑Xi∑Yi√n∑X2i−(∑Xi)2⋅√n∑Y2i−(∑Yi)2
简单相关系数的小ff计算公式:
r=∑((Xi−¯X)(Yi−¯Y))√∑(Xi−¯X)2∑(Yi−¯Y)2=SSXY√SSXX√SSYY=∑xiyi√∑x2i∑y2i
SSXX=n∑i=1(Xi−¯X)2;SSYY=n∑i=1(Yi−¯Y)2;SSXY=n∑i=1(Xi−¯X)(Yi−¯Y)
简单相关系数的特征:
性质1: r的取值范围是 [−1,1], |r|越趋于1表示相关关系越强; |r|越趋于0表示相关关系越弱。
如果 |r|=1,为完全相关。其中 r=1,为完全正相关; r=−1,为完全负正相关
如果 r=0,不存在线性相关关系
如果 −1<r<0,为负相关;如果 0<r<1,为正相关。
性质2:r具有对称性。即 X与 Y之间的相关系数和 Y与 X之间的相关系数相等,即 rXY=rYX。
简单相关系数的特征:
性质3: r数值大小与 X和 Y原点及尺度无关,即改变 X和 Y的数据原点及计量尺度,并不改变 r数值大小。
性质4:仅仅是 X与 Y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着, r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系
性质5: r虽然是两个变量之间线性关系的一个度量,却不一定意味着 X与 Y一定有因果关系。
下面给出实证研究时,对相关系数的经验解释:
当 |r|<0.8时,可视为两个变量之间高度相关。
当 0.5<|r|<0.8时,可视为中度相关。
当 0.3<|r|<0.5时,视为低度相关。
当 |r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。
而且上述解释必须建立在对相关系数的显著性进行检验的基础之上。
简单相关系数(simple correlation coefficient):
r12=∑yix2i√∑y2i√∑x22i
r13=∑yix3i√∑y2i√∑x23i
r23=∑x2ix3i√∑x22i√∑x23i
偏相关系数(partial correlation coefficient): 一个不依赖于 X2i的,对 X3i和 Yi的影响的一种相关系数。
r12⋅3=r12−r13r23√(1−r213)(1−r223)
r13.2=r13−r12r23√(1−r212)(1−r223)
r23.1=r23−r12r13√(1−r212)(1−r213)
相关系数的显著性检验,是指检验两个变量之间是否存在线性相关关系。
相关系数的显著性检验方法包括:
等价于对回归斜率系数 β1的检验(仅针对一元回归)
采用R. A. Fisher提出的t检验
相关系数的显著性检验步骤:
1)提出假设: H0:ρ=0;H1:ρ≠0
2)计算样本统计量
T∗=|r|√n−21−r2∼t(n−2)
3)给定显著性水平 α,确定t理论分布值 t1−α/2(n−2)。
4)得到假设检验结论:
若 T∗>t1−α/2(n−2),则拒绝 H0,认为显著存在相关关系;
若 T∗<t1−α/2(n−2),则无法拒绝 H0,认为相关关系不显著。
∑yyh(y∣x)=∑yyf(x,y)fX(x)=β1+β2x(1)
∑yyf(x,y)=(β1+β2x)fX(x)(2)∑x∑yyf(x,y)=∑x(β1+β2x)fX(x)(3)∑x∑yxyf(x,y)=∑x(β1x+β2x2)fX(x)(4)E(XY)=β1E(X)+β2E(X2)(5)
μY=β1+β2μX(6 <--2)μXμY+ρσXσY=β1μX+β2(μ2X+σ2X)(7 <--5)
当然,故事其实比上面还要更复杂。大家可以深入思考和讨论。参看:[1] Hogg R V, Tanis E A, Zimmerman D L. Probability and statistical inference[M]. 第10版. NJ,Hoboken:Pearson, 2020. pg 148 (section 4.3)
利用上述二元一次方程组,可以解出参数:
β1=μY−ρσYσXμX(8)β2=ρσYσX(9)
E(Y∣Xi)=β1+β2Xi=β1+ρσYσXXi(10)
相关系数 ρ的显著性检验等价于一元线性回归分析中斜率参数 β2的t检验过程,也即: H0:ρ=0;H1:ρ≠0;等价于 H0:β2=0;H1:β2≠0
一元线性回归 Yi=β1+β2Xi+ui;斜率系数t检验 H0:β2=0;H1:β2≠0
t=^β2−β2ˆσˆβ2=^β2√ˆσ2∑(Xi−ˉX)2=^β2−0√MSE∑(Xi−ˉX)2=r⋅(SY/SX)√(n−1)S2Y(1−r2)(n−2)⋅1(n−1)S2X=r√n−2√1−r2
r=SXYSXSYˆβ2=1n−1∑ni=1(Xi−ˉX)(Yi−ˉY)1n−1∑ni=1(Xi−ˉX)2=SXYS2X=r⋅SYSXˆβ1=¯Y−ˆβ2¯XMSE≡σ2=∑ni=1(Yi−ˆYi)2n−2=∑ni=1[Yi−(ˉY+SXYS2X(Xi−ˉX))]2n−2=(n−1)S2Y(1−r2)n−2
案例说明:某银行共有25家分行,分行及所在地区的相关变量数据如下表所示。
ID.bank | loan.bad | loan.surplus | loan.receivable | loan.numbers | investment.fixed |
---|
ID.bank | loan.bad | loan.surplus | loan.receivable | loan.numbers | investment.fixed |
---|---|---|---|---|---|
1 | 0.9 | 67.3 | 6.8 | 5 | 51.9 |
2 | 1.1 | 111.3 | 19.8 | 16 | 90.9 |
3 | 4.8 | 173 | 7.7 | 17 | 73.7 |
4 | 3.2 | 80.8 | 7.2 | 10 | 14.5 |
5 | 7.8 | 199.7 | 16.5 | 19 | 63.2 |
6 | 2.7 | 16.2 | 2.2 | 1 | 2.2 |
7 | 1.6 | 107.4 | 10.7 | 17 | 20.2 |
说明:上述变量的含义分别是ID.bank(分行编号)、loan.bad(不良贷款)、loan.surplus(各项贷款余额 )、loan.receivable(本年累计应收贷款)、loan.numbers(贷款项目个数)、investment.fixed(本年固定资产投资额)。
相关系数
r的大FF计算公式(eq01
):
r=n∑XiYi−∑Xi∑Yi√n∑X2i−(∑Xi)2⋅√n∑Y2i−(∑Yi)2=25×17080.14−3006.7×93.2√25×516543.37−(3006.7)2⋅√25×660.1−(93.2)2=0.8436
ID.bank | Y | X | x | y | x_sqr | y_sqr | xy |
---|
ID.bank | Y | X | x | y | x_sqr | y_sqr | xy |
---|---|---|---|---|---|---|---|
1 | 0.9 | 67.3 | -52.97 | -2.83 | 2,805.61 | 8.00 | 149.79 |
2 | 1.1 | 111.3 | -8.97 | -2.63 | 80.43 | 6.91 | 23.57 |
3 | 4.8 | 173 | 52.73 | 1.07 | 2,780.66 | 1.15 | 56.53 |
4 | 3.2 | 80.8 | -39.47 | -0.53 | 1,557.72 | 0.28 | 20.84 |
5 | 7.8 | 199.7 | 79.43 | 4.07 | 6,309.44 | 16.58 | 323.45 |
6 | 2.7 | 16.2 | -104.07 | -1.03 | 10,830.15 | 1.06 | 106.98 |
7 | 1.6 | 107.4 | -12.87 | -2.13 | 165.59 | 4.53 | 27.38 |
相关系数
r的小FF计算公式(eq02
):
r=∑((Xi−¯X)(Yi−¯Y))√∑(Xi−¯X)2(Yi−¯Y)2=∑xiyi√∑x2i∑y2i=5871.16√154933.57×312.65=0.8436
corl_pearson<- round(cor(df_loan[,-1], method = "pearson"),4) corl_pearson[upper.tri(corl_pearson)]<- NA
Pearson相关系数矩阵
corl_spearman<- round(cor(df_loan[,-1], method = "spearman"),4) corl_spearman[upper.tri(corl_spearman)] <- NA
Spearman相关系数矩阵
#remotes::install_github("r-link/corrmorant")require("corrmorant")corrmorant::corrmorant(df_loan[,-1], style = "binned")+ theme_dark() + theme(text = element_text(size = 14))
ggcorrm(data = df_loan[,-1]) + lotri(geom_point(alpha = 0.5)) + lotri(geom_smooth()) + utri_heatmap() + utri_corrtext() + dia_names(y_pos = 0.15, size = 3) + dia_histogram(lower = 0.3, fill = "grey80", color = 1) + scale_fill_corr() + theme(text = element_text(size = 14))
假定我们认为不良贷款(loan.bad
)与贷款余额(loan.surplus
)及贷款项目数(loan.number
)存在相互关系。
前面我们已经计算出如下的简单相关系数: r12=rbad,sur=0.8436;r13=rbad,num=0.7003;r23=rnum,sur=0.8484
因此我们可以分别计算出偏相关系数
r12⋅3=r12−r13r23√(1−r213)(1−r223)=0.84−0.7×0.85√(1−0.72)(1−0.852)=0.6601
r13.2=r13−r12r23√(1−r212)(1−r223)=0.7−0.84×0.85√(1−0.842)(1−0.852)=−0.0542
r23.1=r23−r12r13√(1−r212)(1−r213)=0.85−0.84×0.7√(1−0.842)(1−0.72)=0.6722
对于前述loan.surplus
与loan.bad
进行相关系数显著性检验(Pearson):
1)提出假设: H0:ρ=0;H1:ρ≠0
2)计算样本统计量:
T∗=|r|√n−21−r2=0.84×√25−21−0.842=7.53
3)给定显著性水平 α=0.05,确定t理论分布值 t1−α/2(n−2)=t1−0.05/2(25−2)=t0.975(23)=2.07。
4)得到假设检验结论:因为t样本统计量大于t理论查表值,也即
[T∗=7.53]>[t0.975(23)=2.07]
因此拒绝原假设
H0,认为变量loan.surplus
(贷款余额)与loan.bad
(不良贷款)显著存在相关关系。
我们可以使用R软件函数cor.test()
对上述两个变量进行相关系数显著性检验:
cor.test(df_rel1$loan.surplus, df_rel1$loan.bad, method = "pearson")
Pearson's product-moment correlationdata: df_rel1$loan.surplus and df_rel1$loan.badt = 8, df = 23, p-value = 0.0000001alternative hypothesis: true correlation is not equal to 095 percent confidence interval: 0.67 0.93sample estimates: cor 0.84
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |