Processing math: 25%
+ - 0:00:00
Notes for current slide
Notes for next slide

高级计量暑期班

(Seminar of Advanced Econometrics)

胡华平

西北农林科技大学

经济管理学院数量经济教研室

huhuaping01@hotmail.com

2022-06-28

1 / 136

(引子)RDD典型分析:地理区隔与收入变化

示例

  • 圣地亚哥(San Diego)是美国南部一个大城市,占地面积超过300平方英里。 它也很富裕,截至2019年,家庭平均年收入超过85000美元,比全国平均水平高出约50%。

  • 当您向南进入城市的其他区域时,一些南部地区的收入会少一些。例如用,当你往南到达的圣伊西德罗(San Ysidro)地区时(靠近墨西哥边境),家庭收入已经下降到50000-55000美元左右。你越往南走,期望家庭收入就越低。

  • 但是,当我们越过边境进入墨西哥的蒂华纳(Tijuana, Mexico)时会发生什么?一旦越过边境进入墨西哥的蒂华纳(Tijuana)。 你会发现家庭收入,突然和急剧地下降到20000美元左右。

4 / 136

(引子)RDD典型分析:地理区隔与收入变化

思考

  • 我们从圣地亚哥(San Diego)市中心开车到南部区域圣伊西德罗(San Ysidro),只有16英里距离,收入下降了25%。但是,只要继续往南步行几英尺越过边境进入墨西哥境内的蒂华纳(Tijuana, Mexico),家庭收入则发生急剧下降。

  • 当然,对于圣地亚哥南部的家庭,地理位置可能有所不同,这可以解释收入的一些差异。但是在边界线附近两端,家庭收入会出现显著跳跃,这是地理位置因素所难以解释的。

5 / 136

1.1 RDD直观解释:一句话理解

断点回归设计(Regression Discontinued Design, RDD):

RDD是一种用于检验因果关系(causal relationship)假设的分析方法(Thistlethwaite and Campbell, 1960)

6 / 136

1.1 RDD直观解释:复杂一点的解释

RDD主要用于如下情形(Cattaneo and Titiunik, 2021):

  • 被研究对象(units)上可以观测到一个运行变量(running variable)

  • 基于某些规则(rule)研究者可以给出运行变量上的一个(或若干个)断点值(cutoff),并据此对所有被研究对象设定分配水平(assignment level):包括处置条件(treatment condition)和控制条件(control condition)。

  • 在断点值以上的被研究对象将被分配处置条件(treatment condition),并被定义为处置组(treated group);在断点值以下的被研究对象将被分配控制条件(control condition),并被定义为控制组(controlled group)

  • 在满足某些假设条件下,断点附近处置条件分配概率的断点式变化,可以揭示出处置条件结果变量(目标变量)的因果关系。

7 / 136

1.2 RDD相关概念:结果变量、运行变量、混淆变量

  • 结果变量(output variable):研究的目标变量,一般记为 Y

例如,结果变量为观测到的病人是否猝死。

  • 运行变量(Runing variable)a:是一个可以观测得到的变量。一方面它将决定被研究对象(units)是否被处置(treated);另一方面它本身也会影响到结果变量。一般记为 X

例如,医生测量病人的血压,如果收缩压高于135,医生会给病人开降压药,这里病人的血压就是运行变量。

  • 混淆变量(Confound variable):是哪些不能被直接观测得到的变量,它们可能会同时影响到运行变量(进而干扰到马上要定义的处置变量)以及结果变量。一般记为 U

a 也被称为分派变量(assigning variable),或者强制变量(forcing variable)

8 / 136

1.2 RDD相关概念:断点和处置变量

  • 断点(Cutoff):是运行变量中的一个具体取值,根据它的取值我们可以来决定对象是否需要处置。 这一取值一般记为 X=c0

以血压为例,假定断点值设置为收缩压135。如果你的血压高于135,就应该吃药。 如果低于135,就无须吃药。

  • 处置变量(Treatment variable): 根据运行变量和断点值的关系,定义得到的关于是否要分配处置水平的虚拟变量。一般定义为:

D={0ifX<c01ifXc0

例如,给定运行变量 X为病人血压,断点值为 c0=135,那么处置变量即为是否用药。具体地,所有血压值 Xc0的病人都会进行用药处置,也即虚拟变量赋值 D=1(ifXc0);否则就不用药,虚拟变量赋值为0。

9 / 136

1.2 RDD相关概念:谱宽

  • 谱宽(Band width):是断点值附近的一个邻域的区间范围的长度,一般记为 h,此时这个领域的区间范围定义为 b[c0h,c0+h],andh>0

示例

  • 研究者可以任意给定运行变量(血压)的一个谱宽h=10,则断点值附近的一个邻域的区间范围为 b[c0h,c0+h]=[13510,135+10]=[125,145]
10 / 136

我们有理由认为,在边境线两边的家庭几乎是相同的,除了边境线。 但是,距离更远的人(比如圣地亚哥San Diego市中心vs.墨西哥境内更远的人)可能会因为边界以外的原因而有所不同。 带宽就是您愿意考虑的可比较的边境线两边附近的空间范围。距离美墨边境线各10英尺? 各1000英尺? 各80英里?

1.3 RDD因果关系分析:随机控制实验

  • 随机控制实验(Randomized controlled experiments):也称为随机对照实验,可以通过严格控制其他影响因素的变动,而准确分析特定一个影响因素对结果变量 Y的作用。绝大部分自然科学研究都基于这一实验设计理念。
  • 准自然实验(Quasi-experiment or Natural experiment):对于社会科学家而言,严格的随机控制实验往往无法获得或极难实施。但是在特定条件下,也还是可以得到某种“近似”(as if)随机性的数据生成机制(DGP)。
  • 局部随机性实验(Local randomized experiment):在某些情形下,全局性(global)的随机对照实验难以满足或事实,但是却可以在局部范围内(local)进行近似随机的对照实验(Hausman and Rapson, 2018)。
11 / 136

(示例)局部随机控制实验

分数与录取案例

  • 高校根据高考成绩划定投档线和录取线,如果某省理工类一本录取最低控制分数线为450,该省内的一所重点高校N理工类最低录取分数线为520分。

  • 那么该重点高校N最低录取线(520分)附近以下,例如516-519分之间未被录取的很多学生,与略高于最低录取线,例如520-522分之间被成功录取的很多学生,这两类学生群体理论上并无明显差异。

  • 那么我们就可以基于这一局部观察,设计局部随机控制性实验分析。

12 / 136

1.3 RDD因果关系分析:断点与局部随机

a)数据生成机制DGP

a)数据生成机制DGP

b)RDD因果关系解析

b)RDD因果关系解析

  • 图a)展示的是常见的数据生成机制(DGP)。因为混淆变量 U的存在,使得难以有效分析出处置变量 D结果变量 Y的作用关系(影响效应)。

  • 图b)展示的是在RDD框架下,研究者能够很大程度上剥离混淆变量 U的干扰,并有效分析出处置变量 D结果变量 Y的作用关系(影响效应)。

13 / 136

1.3 RDD因果关系分析:可观测事实与反事实

可观测事实(observed facts):在给定研究对象某种分配条件下(例如处置条件或控制条件),可以分别得到处置组对象(treated group, T)和控制组对象(controlled group, C),就能分别观测到结果变量的表现,也即可观测事实

可观测结果(observed outcome):此时,处置组和控制组的结果变量容易被观测得到,分别可记为 [Y1iD=1]以及 [Y0iD=0]

反事实(Counterfactual):对于处置组的研究对象,如果不给它们分配处置条件,那么它们的结果变量会是如何呢?同理,对于控制组的研究对象,如果给它们分配处置条件,那么它们的结果变量又会是如何呢?显然,这些都是假想情形,实际并未发生的事实。

潜在结果(Potential outcome):此时,处置组和控制组的结果变量不能被直接观测得到,表现为潜在结果,我们分别可记为 [Y0iD=1]以及 [Y1iD=0]

14 / 136

(示例)图形演示:可观测事实与反事实

15 / 136

1.3 RDD因果关系分析:可观测事实与反事实(表达式)

  • 处置条件下结果变量(可观测的和潜在的)的期望:

E(Y1iXic0)+E(Y0iXic0)E(Y1iD=1)+E(Y0iD=1)E(Y1c+)+E(Y0c+)

  • 控制条件下结果变量(可观测的和潜在的)的期望:

E(Y1iXi<c0)+E(Y0iXi<c0)E(Y1iD=0)+E(Y0iD=0)E(Y1c)+E(Y0c)

  • 处置变量对结果变量的因果效应:

τ=[E(Y1c+)+E(Y0c+)][E(Y1c)+E(Y0c)]

16 / 136

1.3 RDD因果关系分析:断点处置效应ATE(表达式)

  • 处置变量对结果变量的因果效应:

τ=E(YiXic)E(YiXi<c)=E(Y1iXic)E(Y0iXi<c)=E(Y1i)E(Y0i)

17 / 136

1.3 RDD因果关系分析:断点处置效应ATE(图示)

  • 潜在结果变量的条件均值为常数的情形:

18 / 136

source: fig2.a from Cattaneo M D, Idrobo N, Titiunik R. A Practical Introduction to Regression Discontinuity Designs: Extensions[J]. , 2021: 106.

1.3 RDD因果关系分析:断点处置效应ATE(图示)

  • 潜在结果变量的条件均值并不是常数的情形:

19 / 136

source: fig2.b from Cattaneo M D, Idrobo N, Titiunik R. A Practical Introduction to Regression Discontinuity Designs: Extensions[J]. , 2021: 106.

1.3 RDD因果关系分析:局部断点处置效应

  • 断点处置效应具有局部性特征(the local nature of RD effect)。

20 / 136

source: fig3 from Cattaneo M D, Idrobo N, Titiunik R. A Practical Introduction to Regression Discontinuity Designs: Extensions[J]. , 2021: 106.

1.4 RDD基本假设:连续性假设

假设1结果变量的期望值在断点处需要满足连续性假设(continuity assumption):

  • 结果变量的期望值在断点处连续,也即 E[Yi(1)|Xi=x]E[Yi(0)|Xi=x],可是作为 x的函数( f(x)),且在 x=c0出连续。(见下图)

  • 断点c0本身需要满足外生性(exogeneity)条件。也即,断点c0在触发处置变量D的时候,不会有其他变量在同时期来干预这种“触发行为”。

  • 在上述条件下,运行变量 X对结果变量 Y不再具有直接影响( XY),而是通过处置变量 D发生间接作用( XDY)。

  • 连续性假设(continuity assumption)应该是RDD最关键的一个假设条件,而且这符合经验事实

大自然不会跳跃![a] ---达尔文《物种起源》

[a] 事物的发展变化总是渐进式的,而不会陡然改变。常言道“量变引发质变”。

21 / 136

(示例)条件期望函数CEF的连续性假设

22 / 136

1.4 RDD基本假设:断点性假设

假设2:被研究对象被分配(assign)处置条件(treated condition)[1]条件概率(Conditional Probability of Receiving Treatment) P(Di=1Xi=c0)在断点处是不连续的(也即间断的)。

常见的处置分配概率不连续模式包括:

  • 骤变不连续(Sharp discontinuity):处置条件分配的概率在断点处被完全决定。

  • 模糊不连续(Fuzzy discontinuity):处置条件分配的概率在断点处不能被完全决定。

[1] 回顾分配水平(assign level)具有两个水平:处置条件(treated condition)和控制条件(controlled condition)

23 / 136

(示例)断点性假设:骤变(Sharp)不连续

  • 处置条件的骤变(Sharp)不连续示例:小学入学年龄严格要求出生日期( X)在 c0=91之前。
24 / 136

(示例)断点性假设:模糊(Fuzzy)不连续

  • 处置条件的模糊(Fuzzy)不连续:小学入学年龄要求出生日期( X)在 X[81,930]期间,家长可以自己选择孩子是否上小学。
25 / 136

1.5 RDD的基本过程:概览

如果暂时忽略各种细节,一个最简化的RDD分析过程包括:

  • 设定断点两边对结果变量的预测模型方法(predictive model)

  • 选择局部谱宽(bandwidth)

  • 估计并计算因果效应

26 / 136

(示例)RDD的基本过程1/4:原始数据

27 / 136

(示例)RDD的基本过程2/4:断点两边拟合

  • 这里采用了LL方法拟合局部均值(local mean)
28 / 136

(示例)RDD的基本过程3/4:选定一个谱宽Bandwidth

  • 我们暂时不关心远离断点处的观测值(因为混淆变量会产生作用)

  • 最优化的谱宽选择可以基于某些准则,例如BIC等

29 / 136

(示例)RDD的基本过程4/4:断点处估计因果效应

  • 谱宽范围内、断点两边的估计结果,表现出了“跳跃”效果(jumps)
30 / 136

(引子)符号表达体系

  • 结果变量 Y

  • 运行变量 X,断点值 c0

  • 处置变量 D

D={0ifX<c01ifXc0

  • 实验组对象T (D=1);控制组对象C (D=0)
32 / 136

2.1 平均和断点处置效应:定义

  • 当个体 i被分配为“处置条件”时,其结果变量为 Y1为;当个体 i被分配为“控制条件”时,其结果变量为 Y0

  • 此时,个体 i处置效应(treatment effect)记为 θ=Y1Y0,因为其具有随机性,也被称为随机处置效应(random treatment effect)

  • 给定一个可观测的协变量 X(运行变量),我们可以得到个体 i条件处置效应(conditional treatment effect),并记为:

θ|(X=x)=(Y1Y0)|(X=x)

  • 对于 X=x处的多个个体,我们可以得到它们的条件平均处置效应(average treatment effect, ATE),并记为:

θ(x)E(θX=x)

33 / 136

(示例)个体和平均处置效应

34 / 136

2.1 平均和断点处置效应:条件期望函数CEF

给定结果变量的条件期望函数(conditional expect function, CEF)a如下:

m(x)E(Y|X=x)

则可以分别得到控制条件处置条件下的条件期望函数

{m0(x)=E(Y0|X=x)m1(x)=E(Y1|X=x)

进而,我们可以把条件平均处置效应(conditional ATE)表达为:

θ(x)E(θX=x)=E[(Y1Y0)X=x]=E[(Y1X=x)(Y0X=x)]=m1(x)m0(x)

a 这里先表达为隐函数形式,也即其具体函数表达式未知。

35 / 136

(示例)条件期望函数CEF与平均处置效应

36 / 136

2.1 平均和断点处置效应:CEF连续性假设

结果变量的条件期望函数在断点处的连续性(continuity)假设:

给定断点值为 x=c,假设结果变量的条件期望函数 m(x)在断点处 x=c连续。

这也意味着在控制条件处置条件下的条件期望函数*也在断点处是连续的。也即 m0(x)m1(x)在断点处 x=c连续。

定义:我们把条件函数的 极限z从右边向 x值取极限,和 z从左边向 x值取极限)定义如下

m(x+)=lim

37 / 136

2.1 平均和断点处置效应:定理

断点处置效应定理:给定处置分配规则为 D=1\{X \geq c\},而且假定结果变量满足断点处的连续性假设,也即结果变量的条件期望函数 m(x)在断点处 x=c连续,那么断点处置效应为:

\bar{\theta}=\lim_{z \downarrow c} m(z) - \lim_{z \uparrow c} m(z)=m(c+)-m(c-)

38 / 136

2.1 平均和断点处置效应:证明

证明:首先,我们进一步定义结果变量:

\begin{align} Y \equiv Y_0 \cdot\mathbb{1}\{x<c\} + Y_1 \cdot\mathbb{1}\{x\geq c\} \end{align}

两边对 X=x取期望,且根据结果变量的条件期望函数的定义,则有:

\begin{align} \mathbb{E}(Y|X=x) &= \mathbb{E}(Y_0|X=x) \cdot\mathbb{1}\{x<c\} + \mathbb{E}(Y_1|X=x) \cdot\mathbb{1}\{x\geq c\} \\ \Rightarrow m(x) &= m_0(x)\cdot\mathbb{1}\{x<c\} + m_1(x) \cdot\mathbb{1}\{x\geq c\} \end{align}

根据前面关于条件处置效应的定义及连续性假设,则有:

\begin{align} \theta(x) &\equiv \mathbb{E}(\theta \mid X=x) \\ & = \mathbb{E}[(Y_1 -Y_0) \mid X=x] \\ & = \mathbb{E}[(Y_1\mid X=x ) -(Y_0\mid X=x)] \\ & = m_1(x) -m_0(x) \end{align}

\begin{align} \theta(c) &= m_1(c) -m_0(c) \\ &= \lim_{x\downarrow c}{m(x)} - \lim_{x\uparrow c}{m(x)} &&\leftarrow \text{(连续性假设)} \\ & = m(c+) - m(c-) \end{align}

39 / 136

2.2 骤变RDD的估计:边界估计问题

断点回归设计(RDD)属于典型的边界估计(boundary estimation)问题,这里我们将优先采用局部线性回归(local linear regression, LLR)方法进行估计。

这里,我们将使用到非参数的核函数(kernel function)方法来除了回归的权重问题。

给定如下条件:

  • 变量集

\begin{align} Z_{i}(x)=\left( \begin{array}{c} \mathbb{1} \\ X_{i}-x \end{array} \right) \end{align}

  • 核函数(kernel function) K(u)

  • 谱宽(bandwidth) h

40 / 136

2.2 骤变RDD的估计:局部线性回归估计(CEF)

此时,可以证明局部线性方法下的系数估计为(证明略):

  • 对于断点左侧 x < c,系数估计为a

\begin{align} \boldsymbol{\widehat{\beta}_{0}}(x)=\left(\sum_{i=1}^{n} K\left(\frac{X_{i}-x}{h}\right) Z_{i}(x) Z_{i}(x)^{\prime}\cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K\left(\frac{X_{i}-x}{h}\right) Z_{i}(x) Y_{i}\cdot \mathbb{1}\left\{X_{i}<c\right\}\right) \end{align}

  • 对于断点左侧 x \geq c,系数估计为b

\begin{align} \boldsymbol{\widehat{\beta}_{1}}(x)=\left(\sum_{i=1}^{n} K\left(\frac{X_{i}-x}{h}\right) Z_{i}(x) Z_{i}(x)^{\prime} \cdot\mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K\left(\frac{X_{i}-x}{h}\right) Z_{i}(x) Y_{i} \cdot\mathbb{1}\left\{X_{i} \geq c\right\}\right) \end{align}

a b 需要注意的是,这里我们得到的都是系数向量(vector)。

41 / 136

2.2 骤变RDD的估计:局部线性回归估计(断点效应)

根据结果变量条件期望函数 m(x)的定义,我们可以使用上述系数估计 \boldsymbol{\widehat{\beta}_{0}}(x),\boldsymbol{\widehat{\beta}_{1}}(x)\},进一步得到结果变量条件期望函数的估计结果a

\begin{align} \widehat{m}(x)=\left[\boldsymbol{\widehat{\beta}_{0}}(x)\right]_{1} \cdot \mathbb{1}\{x<c\}+\left[\boldsymbol{\widehat{\beta}_{1}}(x)\right]_{1} \cdot \mathbb{1}\{x \geq c\} \end{align}

因此,根据断点处置效应定理,可以得到在断点 x=c处对总体平均处置效应 \bar{\theta}的样本估计结果 \hat{\theta}

\begin{align} \widehat{\theta}=\left[\boldsymbol{\widehat{\beta}_{1}}(c)\right]_{1}-\left[\boldsymbol{\widehat{\beta}_{0}}(c)\right]_{1}=\hat{m}(c+)-\widehat{m}(c-) \end{align}

a 条件期望函数CEF只需要用到系数向量(vector)的第一个元素,因此用了下标1表达。

42 / 136

2.2 骤变RDD估计:简单线性回归方法

  • 容易证明骤变RDD断点处置效应也可以通过如下简单线性回归方法 等价地得到 \widehat{\theta}的对应估计值:

\begin{align} Y=\beta_{0}+\beta_{1} X+\beta_{3}(X-c) D+\theta D+e \end{align}

需要注意的是:

  • 上述等价模型,只是等价前面的基于非正规化矩形核函数(unnormalized Rectangular)谱宽下的局部线性LL断点处置估计效应值。

  • 简单地,上述等价模型需要进行样本数据集的重新定义。具体地,运行变量的范围需要调整到 X\in [c-h^{\ast}, c+h^{\ast}],其中 h^{\ast}=\sqrt{3}h=\sqrt{3}\times 8

43 / 136

2.3 骤变RDD谱宽选择:基本问题

  • 基于边界估计局部线性回归方法本质上需要进行非参数估计,这尤其体现在核函数的谱宽(bandwidth)估计。

  • 目前还没有达成一致意见的最优谱宽选择方法。因此在进行LLR估计之前,研究者不得不多尝试多种数据导向(data based)的谱宽选择工具。

  • 谱宽估计是一项具有挑战性的工作,有些具体估计方法会异常复杂。

当然,这里可以建议使用两种谱宽选择方法:

  • 多项式(polynomial, PN)谱宽选择法(Fan, Gijbels, Hu, et al., 1996):这是一种经验方法。

  • 交叉验证(cross validation, CV)谱宽选择法

44 / 136

2.3 骤变RDD谱宽选择:多项式法

  • 首先构造包含 q阶多项式和断点漂移项的模型:

\begin{align} m(x)=\beta_{0}+\beta_{1} x+\beta_{2} x^{2}+\cdots+\beta_{q} x^{q}+\beta_{q+1} D \end{align}

  • 然后,通过估计得到的条件期望函数 \widehat{m}(x)计算二阶求导结果:

\begin{align} \widehat{m}^{\prime \prime}(x)=2 \widehat{\beta}_{2}+6 \widehat{\beta}_{3} x+12 \widehat{\beta}_{4} x^{2}+\cdots+q(q-1) \widehat{\beta}_{q} x^{q-2} \end{align}

  • 再计算常量 \overline{B},其中 [\xi_1, \xi_2]是运行变量 X内部的一个评价区间:

\begin{align} \widehat{B}=\frac{1}{n} \sum_{i=1}^{n}\left(\frac{1}{2} \widehat{m}^{\prime \prime}\left(X_{i}\right)\right)^{2} \mathbb{1}\left\{\xi_{1} \leq X_{i} \leq \xi_{2}\right\} \end{align}

  • 最后,对于任意正规化核(normalized kernel),可以计算得到谱宽

\begin{align} h_{\text{FG}}=0.58 \cdot \left(\frac{\widehat{\sigma}^{2}\left(\xi_{2}-\xi_{1}\right)}{\widehat{B}}\right)^{1 / 5} n^{-1 / 5} \end{align}

45 / 136

2.3 骤变RDD谱宽选择:多项式法

根据核函数的不同,多项式法(polynomial)计算公式略有不同:

  • 对于非规化矩形核(un-normalized rectangular kernel) K(u)=1/2, \text {for} |u|\leq 1

\begin{align} h_{\text{pn}}=1\cdot \left(\frac{\widehat{\sigma}^{2}\left(\xi_{2}-\xi_{1}\right)}{\widehat{B}}\right)^{1 / 5} n^{-1 / 5} \end{align}

  • 对于非规化三角核(un-normalized rectangular kernel) K(u)=1-|u|, \text {for} |u|\leq 1

\begin{align} h_{\text{pn}}=1.42\cdot \left(\frac{\widehat{\sigma}^{2}\left(\xi_{2}-\xi_{1}\right)}{\widehat{B}}\right)^{1 / 5} n^{-1 / 5} \end{align}

46 / 136

2.3 骤变RDD谱宽选择:交叉验证法

  • 交叉验证(cross validation, CV)方法:主要形式是把训练集分成两部分,一部分用来训练模型,另一部分用来验证模型。

  • 交叉验证方法包括:留出法(holdout)、留一法(Leave-one-out, LOO)、K折法(K-fold)、自助法(Bootstrap)等。

  • 这里介绍的交叉验证谱宽选择法主要采用留一法(Leave-one-out,LOO)。

留一法(Leave-one-out,LOO)选择谱宽的基本步骤:

  • 初步选定一个临近断点的区间 [\xi_1, \xi_2](去中心化后centered X的范围)

  • 任意选择初始谱宽

  • 通过留一法计算模型预测残差及其残差平方和

  • 最小化残差平方和为目标,分析谱宽的变化趋势a,并最终确定谱宽bandwidth。

a 可以绘制CV标准(如均方误差AMSE)与谱宽关系的图示法进行观察。

47 / 136

2.3 骤变RDD谱宽选择:方法评析

  • 谱宽估计的噪点(noise)会进入到RDD估计进程中去,因此谱宽选择显得非常重要。

  • 无论是多项式法还是交叉验证法,确定最终谱宽时,都考虑到了全局性准确度。

这意味着它们都用到了更多的样本数据,因此谱宽估计会比较稳定。

  • 另一种局部性的谱宽选择方法,主要考察断点附近(near-by)的准确度。

因为局部性存在多种可能,所以这类方法得到的谱宽会更加不稳定。具体参看(Imbens and Kalyanaraman, 2012; Arai and Ichimura, 2018)。

  • 通过改变谱宽值,来对RDD估计进行稳健性检查是很必要的。

更大的谱宽,一般会使得断点效应估计系数方差减小(reduce variance),置信区间变窄,但同时也会增加偏误(increase bias)。

48 / 136

2.3 骤变RDD谱宽选择:方法评析

谱宽选择的经验法则

  • 实践操作中,我们往往需要同时结合多项式法交叉验证法来确定一个谱宽 \tilde{h}

  • 在上述基础上,我们还需要适当调减谱宽值,例如 h = 25\%\cdot\tilde{h},以减少估计偏误。

49 / 136

2.4 骤变RDD推断:理论估计偏误和方差

基于局部线性回归LLR估计结果,对断点处置效应参数 \bar{\theta}的推断陈述(inferential statement),都会受到其中非参数估计偏差的影响。

可以证明,局部线性回归(LLR)的估计量 \hat{m}(x)标准正则条件(standard regularity conditions)下将服从渐近正态分布

  • 此时,RDD估计量 \hat{\theta}的渐近偏误(bias)和渐近方差分别为:

\begin{align} \operatorname{bias}[\widehat{\theta}] &=\frac{h^{2} \sigma_{K^{*}}^{2}}{2}\left(m^{\prime \prime}(c+)-m^{\prime \prime}(c-)\right)\\ \operatorname{var}[\widehat{\theta}] &=\frac{R_{K}^{*}}{n h}\left(\frac{\sigma^{2}(c+)}{f(c+)}+\frac{\sigma^{2}(c-)}{f(c-)}\right) \end{align}

50 / 136

2.4 骤变RDD推断:样本方差

上述理论方差,我们可以通过两个边界回归(断点两边)的系数估计量的渐近方差求和计算得到。我们首先给定如下条件:

  • 变量集:

\begin{align} Z_{i}=\left( \begin{array}{c} \mathbb{1} \\ X_{i}-c \end{array} \right) \end{align}

  • 核函数(kernel function) K_i=k\left(\frac{X_i - c}{h}\right)

  • 谱宽(bandwidth) h

  • 留一法a得到的模型预测残差(leave-one-out prediction error) \tilde{e}_i

a 留一法(Leave One Out, LOO) 是一种 常见的交叉验证方法,其中每个观察集都被视为验证集test,其余的 (n-1)观测值被视为训练集training。此处原理类似,每次都去掉一个数据进行估计,然后根据估计结果进行预测,然后得到预测误差。

51 / 136

2.4 骤变RDD推断:样本方差

此时,我们可以得到局部线性回归LLR估计系数 \hat{\theta}方差协方差矩阵分别为:

\begin{aligned} &\widehat{\boldsymbol{V}}_{0}=\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K_{i}^{2} Z_{i} Z_{i}^{\prime} \tilde{e}_{i}^{2} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1} \\ &\widehat{\boldsymbol{V}}_{1}=\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K_{i}^{2} Z_{i} Z_{i}^{\prime} \tilde{\boldsymbol{e}}_{i}^{2} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1} \end{aligned}

进一步地,估计系数 \hat{\theta}的渐进方差为上述两个矩阵第一个对角元素之和:

\text{Var}{(\hat{\theta})}=\left[\widehat{\boldsymbol{V}}_{0}\right]_{11}+\left[\widehat{\boldsymbol{V}}_{1}\right]_{11}

52 / 136

2.4 骤变RDD推断:置信区间和置信带

最后,我们可以分别对断点两侧计算逐点置信区间(Pointwise Confidence Interval),并相应构建置信带

\begin{align} \widehat{m}(x) \pm z_{1-\alpha/2}(n-1) \cdot \sqrt{\widehat{V}_{\widehat{m}(x)}}\\ \widehat{m}(x) \pm 1.96 \sqrt{\widehat{V}_{\widehat{m}(x)}} \end{align}

53 / 136

(死亡率案例)背景说明1/2

援助项目与儿童死亡率

  • 案例基于(Ludwig and Miller, 2007)的研究,他们重点评估了美国联邦政府脱贫援助项目(Head Start)的骤变RDD政策效应。

  • 该援助项目于1965年实施,为3-5岁贫困孩子及其家庭提供学前教育、健康和社会服务等方面的资金援助。对于该援助项目经费,联邦政府将决定通过公开竞标,分配给提交援助申请的中标县。

  • 为了保障援助项目的针对性,联邦政府将重点考虑资助被认定的300个贫困县。其中贫困县是基于1960年美国统计测度得到的贫困线水平(poverty rate)予以划定。

  • 最终,300个贫困县中,有80%的县获得了项目资助;而其他提交申请的县中(非贫困县),有43%的县也获得了项目资助。

54 / 136

(死亡率案例)背景说明2/2

援助项目与儿童死亡率(续):

  • (Ludwig and Miller, 2007)重点关注援助项目对中长期儿童死亡率影响。其中儿童死亡率定义为:1973-1983年间、儿童年龄范围在8-18岁、儿童死亡原因为Head Start定义的相关原因(如结核病等)。因而而援助项目希望努力消减这些儿童死亡情形的发生。

  • 我们关注的问题:脱贫援助项目(Head Start)对儿童死亡率Y=mortality rate)的因果效应。我们将采用骤变RDD非参数回归估计,运行变量为县贫困率(X=poverty rate),断点值(cut-off)设定为 c=59.1984。将使用子样本数据的样本数为n=2783。

55 / 136

(死亡率案例)样本数据集

  • 样本数据的描述性统计如下:
X Y D
Min. :15 Min. : 0 Min. :0.00
1st Qu.:24 1st Qu.: 0 1st Qu.:0.00
Median :34 Median : 0 Median :0.00
Mean :37 Mean : 2 Mean :0.11
3rd Qu.:47 3rd Qu.: 3 3rd Qu.:0.00
Max. :82 Max. :136 Max. :1.00
56 / 136

(死亡率案例)样本数据集:分组描述性统计

57 / 136

(死亡率案例)样本数据散点图

58 / 136

(死亡率案例)谱宽选择及CEF估计的规则策略

  • 规则1:我们设定先验谱宽h=8,断点值设定为 c =59.1984\%

  • 规则2:分别设定断点两边箱组中心点序列值(center of bins)。我们将采用非对称箱组设置方法:

  • 控制组(断点左边)的评估范围为 [15, 59.2],序列间隔为0.2。评估总箱组数为 g1=222,待评估序列值为 15.0, 15.2, 15.4, 15.6, 15.8, \cdots,58.6, 58.8, 59.0, 59.2
  • 处置组(断点右边)的评估范围为 [59.2, 82],序列间隔为0.2。评估总箱组数为 g2=115,待评估序列值为 59.2, 59.4, 59.6, 59.8, 60.0, \cdots,81.4, 81.6, 81.8, 82.0
  • 规则3:基于三角核函数(triangle kenerl)采用局部线性估计法,分别对断点两侧进行条件期望函数CEF m(x)进行估计,并得到估计值 \widehat{m}(x)(见下面附表和附图)。
59 / 136

(死亡率案例)CEF m(x)估计:计算附表

60 / 136

(死亡率案例)CEF m(x)估计图示:断点左侧(控制组)

61 / 136

(死亡率案例)CEF m(x)估计图示:断点右侧(处置组)

62 / 136

(死亡率案例)CEF m(x)估计图示:断点两侧(对比)

63 / 136

(死亡率案例)CEF方差估计:计算方差、标准差

  • 直接使用谱宽a h=8进行局部线性LL估计,并利用留一法法计算得到预测误差 \tilde{\boldsymbol{e}},并最终分别得断点两侧的协方差矩阵(见下式),从而进一步计算得到CEF估计值的方差和标准差(见后面附表)。

\begin{aligned} &\widehat{\boldsymbol{V}}_{0}=\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K_{i}^{2} Z_{i} Z_{i}^{\prime} \tilde{e}_{i}^{2} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1} \\ &\widehat{\boldsymbol{V}}_{1}=\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K_{i}^{2} Z_{i} Z_{i}^{\prime} \tilde{\boldsymbol{e}}_{i}^{2} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1} \end{aligned}

a 这里我们没有再次评估条件方差估计中的最优谱宽,而是简单直接地使用了CEF估计时的谱宽。但是我们还是要注意,二者的最优谱宽可以完全不相同!

64 / 136

(死亡率案例)CEF方差估计:计算方差估计值(附表)

65 / 136

(死亡率案例)CEF的置信区间和置信带

  • 进一步计算局部线性估计下的逐点置信区间(Pointwise Confidence Interval)(见后面附表),并得到置信带(见后面附图)。

\begin{align} \widehat{m}(x) \pm z_{1-\alpha/2}(n-1) \cdot \sqrt{\widehat{V}_{\widehat{m}(x)}}\\ \widehat{m}(x) \pm 1.96 \sqrt{\widehat{V}_{\widehat{m}(x)}} \end{align}

66 / 136

(死亡率案例)CEF的置信区间和置信带(附表)

67 / 136

(死亡率案例)CEF的置信区间和置信带:断点左侧(控制组)

68 / 136

(死亡率案例)CEF的置信区间和置信带:断点右侧(处置组)

69 / 136

(死亡率案例)CEF的置信区间和置信带:断点两侧侧(对比)

70 / 136

(死亡率案例)RDD断点处置效应:计算结果

  • 根据断点处置效应定理,可以得到在断点 x=c=59.1984处对总体平均处置效应 \bar{\theta}的样本估计结果 \hat{\theta}

\begin{align} \widehat{\theta} &=\left[\boldsymbol{\widehat{\beta}_{1}}(c)\right]_{1}-\left[\boldsymbol{\widehat{\beta}_{0}}(c)\right]_{1}\\ &=\hat{m}(c+)-\widehat{m}(c-)\\ &=3.3096 -1.8035 =-1.5060 \end{align}

  • 断点处置效应估计值为 \hat{\theta}=-1.5060
  • 断点左边的条件期望(CEF)的估计值 \widehat{m}(c-)=3.31
  • 断点右边的条件期望(CEF)的估计值 \widehat{m}(c+)=1.8
  • 结论:援助项目的实施,减低了儿童死亡率,使得10万个孩子中约1.51个小孩免于遭受死亡。相比不实施项目援助,儿童死亡率由3.3096,下降到1.8035,降幅接近50%。
71 / 136

(死亡率案例)RDD断点处置效应:估计误差及显著性检验

  • 进一步地,估计系数 \hat{\theta}渐进方差为两个方差协方差矩阵第一个对角元素之和:

\begin{align} \text{Var}{(\hat{\theta})} &=\left[\widehat{\boldsymbol{V}}_{0}\right]_{11}+\left[\widehat{\boldsymbol{V}}_{1}\right]_{11}\\ &= 0.3673 + 0.1417 = 0.5090\\ se({(\hat{\theta})}) &= \sqrt{\text{Var}{(\hat{\theta})}} = \sqrt{0.5090} =0.7134 \end{align}

  • 断点左边的条件期望(CEF)的估计值 \widehat{m}(c-)=3.3096
  • 断点右边的条件期望(CEF)的估计值 \widehat{m}(c+)=1.8035
  • 结论:援助项目的实施,减低了儿童死亡率,使得10万个孩子中约-1.5060个小孩免于遭受死亡。相比不实施项目援助,儿童死亡率由3.3096,下降到1.8035,降幅接近50%。
72 / 136

(死亡率案例)等价线性回归:调整运行变量范围

  • 如前所述,骤变RDD断点处置效应也可以通过如下简单线性回归方法等价地得到 \widehat{\theta}的对应估计值:

\begin{align} Y=\beta_{0}+\beta_{1} X+\beta_{3}(X-c) D+\theta D+e \end{align}

  • 简单地,上述等价模型需要进行样本数据集的重新定义。具体地,运行变量 X的范围需要调整到 X\in [c-h^{\ast}, c+h^{\ast}],其中 h^{\ast}=\sqrt{3}h=\sqrt{3}\times 8=13.86
73 / 136

(死亡率案例)等价线性回归:调整后的数据集

  • 样本数据的描述性统计如下:
X Y D XcD
Min. :45 Min. : 0 Min. :0.00 Min. : 0.0
1st Qu.:50 1st Qu.: 0 1st Qu.:0.00 1st Qu.: 0.0
Median :55 Median : 0 Median :0.00 Median : 0.0
Mean :56 Mean : 3 Mean :0.34 Mean : 1.8
3rd Qu.:62 3rd Qu.: 4 3rd Qu.:1.00 3rd Qu.: 2.4
Max. :73 Max. :65 Max. :1.00 Max. :13.8
74 / 136

(死亡率案例)等价线性回归:分组描述性统计

75 / 136

(死亡率案例)等价线性回归:OLS估计结果

\begin{equation} \begin{alignedat}{999} &\widehat{Y}=&&-1.0987&&+0.0758X_i&&+0.0331XcD_i&&-1.5454D_i\\ &(s)&&(2.9382)&&(0.0564)&&(0.1060)&&(0.7375)\\ &(t)&&(-0.37)&&(+1.34)&&(+0.31)&&(-2.10)\\ &(over)&&n=757&&\hat{\sigma}=5.1830 && &&\\ &(fit)&&R^2=0.0059&&\bar{R}^2=0.0019 && &&\\ &(Ftest)&&F^*=1.48&&p=0.2191 && && \end{alignedat} \end{equation}

  • 用上述等价回归法估计得到的断点处置效应估计值为 \widehat{\theta}=-1.5454,样本t统计量为 t^{\ast}=-2.10,对应的概率值为 p=0.0180,表明是统计显著的。
76 / 136

2.5 协变量RDD:基本问题

  • 回顾断点处置效应定理:

给定处置分配规则为 D=1\{X \geq c\},而且假定结果变量满足断点处的连续性假设,也即结果变量的条件期望函数 m(x)在断点处 x=c连续,那么断点处置效应为:

\bar{\theta}=m(c+)-m(c-)

  • 根据前面的讨论,就效应估计推断而言,RDD分析中完全没有必要引入其他协变量( Z)进入模型。

  • 当然,为了提高模型预测准确度,我们可以引入一些额外的、有价值的协变量。

77 / 136

2.5 协变量RDD:符号表达

  • 给定变量集为: (Y,X,Z),其中 Z为含有 k个元素的协变量向量(covariates vector)

  • 同前, Y_0Y_1分别为控制条件处置条件下的结果变量(观测的或反事实的)

  • 并进一步假定条件期望函数CEF是如下的线性形式,且断点两边的方程中协变量系数是相同的 \beta^{\prime}

\begin{align} &\mathbb{E}\left[Y_{0} \mid X=x, Z=z\right]=m_{0}(x)+\beta^{\prime} z \\ &\mathbb{E}\left[Y_{1} \mid X=x, Z=z\right]=m_{1}(x)+\beta^{\prime} z \end{align}

  • 那么,结果变量 Y的条件期望函数CEF将可以表达为:

\begin{align} m(x, z)=m_{0}(x) \cdot \mathbb{1}\{x< c\}+m_{1}(x) \cdot \mathbb{1}\{x \geq c\}+\beta^{\prime} z \end{align}

  • 此时,可以证明断点处置效应结果为:

\overline{\theta} = m(c+,z) - m(c-,z)

78 / 136

2.5 协变量RDD:估计方法

RDD协变量估计方法有很多种,这里重点讨论(Robinson, 1988)提出了一种半参数效率估计方法,主要步骤如下:

  • 步骤1:直接采用前面的RDD局部线性回归方法(RDD LLR),用 Y_iX_i进行回归,并得到第1阶段的结果变量的拟合值 \widehat{m}_i = \widehat{m}_i(X_i)

  • 步骤2:依次做 Z_{i1}X_iZ_{i2}X_i\ldots的局部线性回归Z(LL),并分别得到协变量的拟合值 \widehat{g}_{1i},\widehat{g}_{2i},\ldots,\widehat{g}_{ki}

  • 步骤3:做 Y_i -m_{i}Z_{i1}-\widehat{g}_{1i},Z_{i2}-\widehat{g}_{2i},\ldots,Z_{ik}-\widehat{g}_{ki}的回归,并得到估计系数 \hat{\beta}及其标准误

  • 步骤4:构造残差 \hat{e}_i=Y_i - Z^{\prime}_i\hat{\beta}

  • 步骤5:再次采用RDD局部线性回归方法(LLR),进行 \hat{e}_iX_i的回归,并计算得到非参数估计量 \widehat{m}(x),断点效应估计值 \hat{\theta}及其标准误。

79 / 136

(死亡率案例)背景说明

案例说明

我们继续使用前面(Ludwig and Miller, 2007)的研究案例,来评估美国联邦政府脱贫援助项目(Head Start)对儿童死亡率的骤变RDD政策效应。现在我们考虑使用两个协变量(covariates):

  • 县级黑人人口占比black pop percentageZ_a

  • 县级城镇人口占比urban pop percentageZ_a

  • 上述两个协变量,本质上可以视作为收入变量(income)的代理变量(proxy)。

  • 下面我们将使用(Robinson, 1988)的半参数效率估计方法来评估项目援助的断点处置效应(RDD ATE)。

80 / 136

(死亡率案例)样本数据集

  • 样本数据的描述性统计如下:
X Y Za Zb D
Min. :15 Min. : 0 Min. : 0 Min. : 0 Min. :0.00
1st Qu.:24 1st Qu.: 0 1st Qu.: 0 1st Qu.: 0 1st Qu.:0.00
Median :34 Median : 0 Median : 2 Median : 28 Median :0.00
Mean :37 Mean : 2 Mean :11 Mean : 29 Mean :0.11
3rd Qu.:47 3rd Qu.: 3 3rd Qu.:15 3rd Qu.: 48 3rd Qu.:0.00
Max. :82 Max. :136 Max. :83 Max. :100 Max. :1.00
81 / 136

(死亡率案例)样本数据集:分组描述性统计

82 / 136

(死亡率案例)协变量RDD:规则策略

在进行协变量RDD分析之前,我们设定如下的规则策略:

  • 规则1:我们设定先验谱宽h=8,断点值设定为 c =59.1984\%

  • 规则2:分别设定断点两边箱组中心点序列值(center of bins)。我们将采用非对称箱组设置方法:

  • 控制组(断点左边)的评估范围为 [15, 59.2],序列间隔为0.2。评估总箱组数为 g1=222,待评估序列值为 15.0, 15.2, 15.4, 15.6, 15.8, \cdots,58.6, 58.8, 59.0, 59.2
  • 处置组(断点右边)的评估范围为 [59.2, 82],序列间隔为0.2。评估总箱组数为 g2=115,待评估序列值为 59.2, 59.4, 59.6, 59.8, 60.0, \cdots,81.4, 81.6, 81.8, 82.0
  • 规则3:如果使用局部线性估计法(LL),则采用三角核函数(triangle kenerl)。

  • 规则4:我们将使用(Robinson, 1988)的半参数效率估计方法来评估断点处置效应(RDD ATE)。

83 / 136

(死亡率案例)协变量RDD:第1阶段LLR估计残差

  • 步骤1:直接采用前面的局部线性回归方法(LLR),用 Y_iX_i进行LL回归,得到第1阶段的结果变量的拟合值 \widehat{m}_i = \widehat{m}_i(X_i),并进一步构造留一法残差a Y_i - \widehat{m}_i

a 这个阶段的残差序列用e命名。

84 / 136

(死亡率案例)协变量RDD:第2阶段LLR估计残差

  • 步骤2:同上,依次做 Z_aX_iZ_bX_i局部线性回归(LLR),并分别得到协变量的拟合值 \widehat{g}_{1i},\widehat{g}_{2i},及其对应残差a (Z_a-\widehat{g}_{1i}),(Z_b-\widehat{g}_{2i})

a 这个阶段的两个残差序列分别用RaRb命名。

85 / 136

(死亡率案例)协变量RDD:第3阶段OLS估计(模型)

  • 步骤3:利用前面两个阶段的残差,做 Y_i -m_{i}Z_{i1}-\widehat{g}_{1i},Z_{i2}-\widehat{g}_{2i},\ldots,Z_{ik}-\widehat{g}_{ki}无截距的普通最小二乘回归(OLS),并得到估计系数 \hat{\beta}及其标准误

\begin{align} (Y_i -m_{i}) &= \hat{\beta}_1(Z_{ia}-\widehat{g}_{1i})+\hat{\beta}_2(Z_{ib}-\widehat{g}_{2i})\\ e&=\hat{\beta}_{1}R_a + \hat{\beta}_{2}R_a \end{align}

86 / 136

(死亡率案例)协变量RDD:第3阶段OLS估计(结果)

  • 上述模型,未矫正标准误下OLS估计的结果如下a

\begin{equation} \begin{alignedat}{999} &\widehat{e}=&&+0.0265Ra_i&&-0.0094Rb_i\\ &(s)&&(0.0083)&&(0.0045)\\ &(t)&&(+3.19)&&(-2.08)\\ &(p)&&(0.0014)&&(0.0377)\\ &(over)&&n=2783&&\hat{\sigma}=5.7091 \end{alignedat} \end{equation}

  • 上述模型,进行稳健标准误矫正OLS估计的结果如下b

a b 两种OLS估计程序下,回归系数都相同,只是系数对应的标准误不一样。这里我们仅需要用到回归系数,因此不影响后续步骤。

87 / 136

(死亡率案例)协变量RDD:构造残差

  • 步骤4:利用前面的OLS估计系数,我们就可以构造得到残差 \hat{e}_i=Y_i - Z^{\prime}_i\hat{\beta}

a 这个步骤构造出来的残差序列RZ

88 / 136

(死亡率案例)协变量RDD:LLR估计CEF(附表)

  • 步骤5:再次采用RDD局部线性回归方法(LLR),进行 \hat{e}_iX_i的回归,并计算得到非参数估计量 \widehat{m}(x),断点效应估计值 \hat{\theta}及其标准误。
89 / 136

(死亡率案例)协变量RDD:断点左侧CEF(控制组)

90 / 136

(死亡率案例)协变量RDD:断点右侧CEF(处置组)

91 / 136

(死亡率案例)协变量RDD:断点两侧(对比)

92 / 136

(死亡率案例)协变量RDD:标准差和置信区间(附表)

  • 同前,进一步计算得到CEF估计值的方差和标准差以及95%置信区间
93 / 136

(死亡率案例)协变量RDD:断点左侧置信带(控制组)

94 / 136

(死亡率案例)协变量RDD:断点右侧置信带(处置组)

95 / 136

(死亡率案例)协变量RDD:断点两侧

96 / 136

(死亡率案例)协变量RDD:断点处置效应

  • 根据断点处置效应定理,可以得到在断点 x=c=59.1984处对总体平均处置效应 \bar{\theta}的样本估计结果 \hat{\theta}

\begin{align} \widehat{\theta} &=\left[\boldsymbol{\widehat{\beta}_{1}}(c)\right]_{1}-\left[\boldsymbol{\widehat{\beta}_{0}}(c)\right]_{1}\\ &=\hat{m}(c+)-\widehat{m}(c-)\\ &= 2.8209 - 1.2592 = -1.5617 \end{align}

  • 断点处置效应估计值为 \hat{\theta}=-1.5617
  • 断点左边的条件期望(CEF)的估计值 \widehat{m}(c-)=2.8209
  • 断点右边的条件期望(CEF)的估计值 \widehat{m}(c+)=1.2592
  • 结论:援助项目的实施,减低了儿童死亡率,使得10万个孩子中约-1.5617个小孩免于遭受死亡。相比不实施项目援助,儿童死亡率由2.8209,下降到1.2592,降幅接近50%。
97 / 136

(死亡率案例)协变量RDD:估计误差及显著性检验

  • 进一步地,估计系数 \hat{\theta}渐进方差为两个方差协方差矩阵第一个对角元素之和:

\begin{align} \text{Var}{(\hat{\theta})} &=\left[\widehat{\boldsymbol{V}}_{0}\right]_{11}+\left[\widehat{\boldsymbol{V}}_{1}\right]_{11}\\ &= 0.3673 + 0.1417 = 0.5090\\ se({(\hat{\theta})}) &= \sqrt{\text{Var}{(\hat{\theta})}} = \sqrt{0.5090} =0.7122 \end{align}

  • 因此RDD断点处置效应估计值 \hat{\theta}标准误se({\hat{\theta}}) =0.7122;最后我们可以计算得到RDD断点处置效应对应的t统计量: t^{\ast}=\frac{\hat{\theta}}{se(\hat{\theta})}=-2.19,其概率值为 p=0.0283.

  • 综上,RDD结果表明援助项目降低了儿童死亡率,使得10万个孩子中约1.51个小孩免于遭受死亡。并且t统计量检验表明,援助项目在降低了儿童死亡率上具有统计显著性(置信度超过95%)。

98 / 136

(死亡率案例)总结:系数和标准误比较

  • 结论1:与基准RDD相比,两个协变量的引入没有明显改变断点处置效应估计值大小。

  • 结论2:但是是否引入协变量,对CEF估计值 \widehat{m}(x)的影响较大。可以看到基准RDD更陡峭,而协变量RDD更平缓。(见后面附图对比)

  • 结论3:考虑到两个协变量可以视作收入的代理变量,可以看到黑人人口比重负向影响儿童死亡率,而城镇人口比重正向影响儿童死亡率。

99 / 136

(死亡率案例)总结:CEF估计值图形比较1/2

基准RDD:局部线性回归及断点效应估计

基准RDD:局部线性回归及断点效应估计

100 / 136

(死亡率案例)总结:CEF估计值图形比较2/2

协变量RDD:局部线性回归及断点效应估计

协变量RDD:局部线性回归及断点效应估计

101 / 136

3.1 模糊RDD分析

模糊RDD(fuzzy regression discontinuity design,FRDD):是指处置条件的条件分配概率在断点处是不连续的(跳跃的),但又不是从0直接跳跃到1的一种RDD分析情形。

骤变RDD中,在断点两边,处置条件的条件分配概率在断点处是跳跃的,而且是直接从0跳跃到1。

  • 我们定义处置条件的条件分配概率为:

p(x) = \mathbb{P}[D=1|X=x]

  • 那么在断点 x=c左右两边的极限条件分配概率则分别定义为: p(c-),p(c+)

  • 因此,对于模糊RDD而言,则意味着: p(c-)\neq p(c+)

103 / 136

(示例)模糊RDD分析:处置水平的分配概率

104 / 136

(示例)模糊RDD分析:反事实与条件期望函数

105 / 136

3.1 模糊RDD分析:断点ATE定理(表达)

定理:模糊RDD下的断点处置效应ATE。

  • 假定 m_0(x)m_1(x)在点 x=c处连续, p(x)在点 x=c处不连续,且 在断点附近处置变量 D与真实参数 \theta|X相互独立,则断点处置效应ATE为:

\begin{align} \bar{\theta}=\frac{m(c+)-m(c-)}{p(c+)-p(c-)} \end{align}

106 / 136

3.1 模糊RDD分析:断点ATE定理(证明)

此时,我们考虑如下的模型:

\begin{align} \begin{aligned} Y &=Y_{0} \mathbb{1}\{D=0\}+Y_{1} \mathbb{1}\{D=1\} \\ &=Y_{0}+\theta \mathbb{1}\{D=1\} \end{aligned} \end{align}

  • 对两边在 x=c附近同时取期望:

\begin{align} \begin{aligned} m(x) =m_{0}(x)+\mathbb{E}[\theta \mathbb{1}\{D=1\} \mid X=x] =m_{0}(x)+\theta(x) p(x) \end{aligned} \end{align}

  • x=c处取极限,则有:

\begin{align} m(c+)=m_{0}(c)+\bar{\theta} p(c+); \quad \quad m(c-)=m_{0}(c)+\bar{\theta} p(c-) \\ \end{align}

  • 最后可以证明:

\begin{align} m(c+)- m(c-) = \bar{\theta} p(c+) -\bar{\theta} p(c-) \Rightarrow \quad \quad \bar{\theta} = \frac{m(c+)- m(c-)}{ p(c+) - p(c-) } \end{align}

107 / 136

3.1 模糊RDD分析:断点ATE的估计(精简表达法)

  • 对于分母部分,我们可以使用前面介绍的局部线性回归(LLR)对总体参数 m(c+)- m(c-)进行估计,得到断点 x=c附近的两边的估计值:

\begin{align} \widehat{m}(c+)- \widehat{m}(c-) & \equiv [\widehat{\beta}_1(c)]_1 - [\widehat{\beta}_0(c)]_1 \end{align}

  • 同理,分子部分我们也同样使用局部线性回归(LLR)对总体参数 p(c+)- p(c-)进行估计,得到断点 x=c附近的估计值:

\begin{align} \widehat{p}(c+)- \widehat{p}(c-) & \equiv [\widehat{\alpha}_1(c)]_1 - [\widehat{\alpha}_0(c)]_1 \end{align}

  • 最终,我们可以得到断点ATE的估计值为:

\begin{align} \widehat{\theta} &= \frac{\widehat{m}(c+)- \widehat{m}(c-)}{ \widehat{p}(c+) - \widehat{p}(c-) } \end{align}

108 / 136

3.1 模糊RDD分析:断点ATE的估计(精简表达法)

对于模糊RDD断点ATE的估计:

\begin{align} \widehat{\theta} &= \frac{\widehat{m}(c+)- \widehat{m}(c-)}{ \widehat{p}(c+) - \widehat{p}(c-) } \end{align}

  • 上式实际上是两类断点估计的比率值。而且当 \widehat{p}(c+) - \widehat{p}(c-) =1时,以上估计式即为骤变RDD的估计情形!

  • 上述估计值的计算总共会需要进行4次局部线性回归,是不是需要都使用相同的谱宽(bandwidth),或者断点两侧是否要采用不同数量的箱组(bins),可以进行多次尝试!

109 / 136

3.1 模糊RDD分析:断点ATE的估计(IV表达法)

事实上,上述模糊RDD断点ATE的估计可以使用工具变量法(IV)等价得到。

  • 简单地,可以把 D视作为 X的工具变量,然后把 Y对它们二者进行局部加权工具变量估计(Locally weighted IV estimation),从而得到断点ATE估计值 \widehat{\theta}

  • 断点处置效应能否被识别,有赖于在断点附近处概率 p(x)的跳跃性程度。如果跳跃不大,那么就会带来弱工具变量问题(Weak Instruments Problem)。

  • ATE估计的标准误,其计算过程类似于IV回归法。我们先把估计量 {\widehat{m}(c+)- \widehat{m}(c-)}的标准误定义为 s(\widehat{\theta}),那么就可以使用下式计算得到ATE估计 \widehat{\theta}的标准误:

\begin{align} s(ate)=\frac{s(\widehat{\theta})}{|\hat{p}(c+)-\widehat{p}(c-)|} \end{align}

110 / 136

3.2 拐点回归RKD分析:引子

回顾与思考

  • 断点回归设计(RDD)探讨的是结果变量 Y的条件期望值(均值) \mathbb{E}(Y|X=x)\equiv m(x)断点附近是否存在跳跃性(jump)的不连续。

  • 那么,我们能不能分析除此之外,其他对象的跳跃性或不对称性呢?

例如结果变量的标准差是否跳跃?中位数是否跳跃?或者箱组内(bins)局部回归的判定系数 R^2是否跳跃?

111 / 136

3.2 拐点回归RKD分析:问题描述

拐点回归设计(Regression Kink Design, RKD):是探讨结果变量 Y运行变量 X斜率(slope)是否存在显著改变(change)的一种处置效应回归分析设计框架。

  • 处置条件只是改变了斜率,但是并没有引起结果变量的跳跃,也即结果变量在拐点处(kink point)还是连续的!

  • 在有些情形下,研究者还可以关注处置水平D对运行变量X的变化率的拐点效应

112 / 136

(示例)拐点回归RKD分析:基于模拟数据

结果变量对运行变量的变化率(斜率)具有拐点效应

结果变量对运行变量的变化率(斜率)具有拐点效应

113 / 136

3.2 拐点回归RKD分析:应用案例1

  • 结果变量 Y运行变量 X的变化率(斜率)具有拐点效应

案例1:政府择机扶持科技公司。

  • 政府在特定时间点开始,决定大量关注并投资科技公司。此时公司雇员人数为结果变量Y,时间观测为运行变量X,政府是否决定大量投资则为处置变量D。

  • 这种情况下,公司雇员总人数Y可能并不会在拐点 x=c处立刻跳跃(不连续),但是我们预期在拐点后的公司的雇员增长率(Y对X的斜率)会比之前会有一个明显变化!

114 / 136

3.2 拐点回归RKD分析:应用案例2

  • 结果变量 Y运行变量 X的变化率(斜率)具有拐点效应

案例2:失业保险政策(Card, Lee, Pei, et al., 2015)。

  • 案例背景为澳大利亚。公民的失业保险补贴水平大概为其正常工作收入的55%,并且有一个补贴最高上限值。因此,失业保险政策设计下,公民的正常工作收入会正向地影响失业保险补贴水平。工作收入越高,补贴会越多,直到达到一个补贴上限值。

  • 此时,我们定义:公民的正常工作收入为运行变量X,公民是否能获得失业补贴为处置变量D。一个公民如果失业,把他从失业那一刻算起,直到他找到一份新工作,期间他所愿意的等待时长定义为结果变量Y,

115 / 136

3.2 拐点回归RKD分析:应用案例2

  • 结果变量 Y运行变量 X的变化率(斜率)具有拐点效应

案例2(续):失业保险政策(Card, Lee, Pei, et al., 2015)。

  • 这种情况下,政策如果给予更高的补贴水平,那么我们可以预期公民的就业等待时长Y可能会更长!因此,我们也可以预期,在达到最高补贴水平(拐点c)之前,公民正常的工作收入X越高,那么他的就业等待时长Y也会更长!

  • 显然,在拐点之后(最高补贴之后),等待时长Y对正常工作收入X的比率应该会变得比拐点之前更加平缓(斜率更小)!——也即出现了Y对X的斜率具有拐点效应!同时,我们还可以预期到就业等待时长Y并不会在拐点 x=c处立刻跳跃(不连续)!

116 / 136

3.2 拐点回归RKD分析:应用案例3

  • 处置变量D对运行变量 X的变化率(斜率)具有拐点效应

案例3:妇女育儿支持政策(Bana, Bedard, and Rossin-Slater, 2020)。

  • 案例背景为美国加利福尼亚州。政府制定了一项妇女育儿家庭支持政策(paid family leave)。对于符合条件的家庭,加州政府根据家庭正常工作收入,将补贴其家庭收入的55%直至一个最高最高上限值。

  • 因此,妇女育儿家庭支持政策设计下,家庭的正常工作收入会正向地影响补贴水平。工作收入越高,补贴会越多,直到达到一个补贴上限值。

117 / 136

3.2 拐点回归RKD分析:应用案例3

  • 处置变量D对运行变量 X的变化率(斜率)具有拐点效应

案例3(续):妇女育儿支持政策(Bana, Bedard, and Rossin-Slater, 2020)。

  • 此时,我们定义:家庭的正常工作收入为运行变量X,家庭获得政策补贴水平为处置变量D。妇女获得的育儿假时长为结果变量Y。

  • 显然,在拐点之前(最高补贴之前),家庭的政策补贴水平D越高,也意味着家庭正常工作收入X越高;而在拐点之后(最高补贴之后),家庭的政策补贴水平D会保持不变——也即意味着D对X的斜率为0!

  • 因此,处置变量D对运行变量 X的变化率(斜率)具有拐点效应

118 / 136

(育儿支持案例)处置变量对运行变量的拐点效应

处置变量对运行变量的变化率(斜率)具有拐点效应

处置变量对运行变量的变化率(斜率)具有拐点效应

119 / 136

(育儿支持案例)结果变量对运行变量的拐点效应1/2

  • 对于不打算再要孩子的家庭
结果变量对运行变量的变化率(斜率)没有拐点效应

结果变量对运行变量的变化率(斜率)没有拐点效应

120 / 136

(育儿支持案例)结果变量对运行变量的拐点效应2/2

  • 对于打算再要孩子的家庭,不仅仅只是拐点效应,而是断点效应
结果变量对运行变量的变化率(斜率)具有拐点效应

结果变量对运行变量的变化率(斜率)具有拐点效应

121 / 136

3.2 拐点回归RKD分析:拐点效应ATE估计

总体而言,关于拐点效应ATE的估计方法,与之前的RDD估计过程基本类似:

  • 确定核函数

  • 选择谱宽

  • 局部线性回归LLR或局部多项式回归LPR

  • 安慰剂效应检验

编程提示

  • 对于Rstata用户而言,可以使用分析包rdrobust

  • 拐点回归RKD估计时,仅需要设定参数deriv=1即可

122 / 136

3.3 多断点RDD:引子

回顾与思考

  • 截止目前为止,我们已经接触了骤变断点(SRDD)、模糊断点(FRDD)、斜率改变拐点(RKD)

  • 那么,我们能不能考虑政策存在多个断点(或拐点)的情形呢?

123 / 136

(示例)多断点RDD应用案例

应用案例

  • 育儿支持案例中,能拿到最高补贴支持的家庭季度收入(x=c),也是随着年度变化而进行调整的。例如在2004年这个收入水平划定为25000美元,而到了2005年则被划定在20000美元。

  • 一国猪肉储备投放政策中,会考虑根据猪粮比价(X)变动,分别设定红色、橙色、蓝色和绿色预警窗口(多个断点),来决定如何干预市场(如生产收储或市场投放,以及数量多少等)。

124 / 136

(示例)多断点RDD应用案例

应用案例(续):

  • 高考招生政策中,会考虑根据不同招生类型(如普通招录生、师范特招生、体育特招生等),设定不同的高考成绩录取线(多个断点)。而且普通高考招录的录取线,对于不同的省份也是不同的(例如,某省的某个高校在全国各省的招录录取线就会各不相同——一般本省录取线会更低)。

  • 在多党派多家的政党选举中,某个政党能否竞选胜出执政,有的年度可能需要50.1%的投票率,但是有的年份可能只需要42.7%就能胜选。

125 / 136

3.3 多断点RDD:问题描述

  • 很多情况下,断点(或拐点)本身就是政策指定者最为关注的议题

  • 一些情形下,多个断点的政策设计具有很强的现实意义或价值。

多断点分析(Cutoffs cut off Analysis):在运行变量X上,存在多个断点,断点值的划定,往往基于不同群体、不同地区,或不同时间段上的运行变量取值。

126 / 136

3.3 多断点RDD:断点ATE的估计

回顾与启发

  • 在经典的RDD估计中,断点平均处置效应(ATE)是把断点附近的处置效应做了简单平均(正如其名!)。

  • 但是,在多断点的RDD情形下,事情变得复杂(不同的断点针对不同的群体),因此不能再直接、粗暴地进行简单平均——我们必须考虑到不同的群体区块!

编程提示

  • 对于Rstata用户而言,可以使用分析包rdmulti

  • 多断点RDD估计时,可以使用函数rdmulti::rdmc()进行分析

127 / 136

3.4 安慰剂检验:原理

安慰剂检验(Placebo Tests):RDD分析的前提假设是,处置变量的作用是“干净的”、没有后门的(no back doors)。如果不使用结果变量Y,而是使用协变量作为“结果变量”进行正常的RDD估计,如果也表现出与之前同样显著的断点处置效应ATE,那么我们就要质疑我们的RDD设计框架了。

  • 选择合理的协变量,将其视作为“结果变量”

  • 进行常规的RDD分析流程

  • 比较结果并得出检验结论。

理论上,上述操作不应该得到——“显著存在断点处置效应”——的结论!

128 / 136

(政府转移支付案例)背景

政府转移支付案例

  • (Manacorda, Miguel, and Vigorito, 2011)分析了乌拉圭的一个大型扶贫项目,该项目削减了很大一部分贫困人口。论文关注的话题是:获得政府转移支付资金是否会让人们更有可能支持新成立的政府?

  • 研究人员对一群接近收入临界值的人进行了调查,看看他们之后对政府的支持程度。收入低于临界值的人比收入高于临界值的人支持政府要更多吗?

129 / 136

(政府转移支付案例)年龄协变量下的安慰剂检验

  • 以协变量年龄作为结果变量进行安慰剂检验

130 / 136

(政府转移支付案例)教育协变量下的安慰剂检验

  • 以协变量教育年数作为结果变量进行安慰剂检验

131 / 136

参考文献(References):1/3

Arai, Y. and H. Ichimura (2018). "Simultaneous Selection of Optimal Bandwidths for the Sharp Regression Discontinuity Estimator". In: Quantitative Economics 9.1, pp. 441-482.

Bana, S. H., K. Bedard, and M. Rossin-Slater (2020). "The Impacts of Paid Family Leave Benefits: Regression Kink Evidence from California Administrative Data". In: Journal of Policy Analysis and Management 39.4, pp. 888-929.

Card, D., D. S. Lee, Z. Pei, et al. (2015). "Inference on Causal Effects in a Generalized Regression Kink Design". In: Econometrica 83.6, pp. 2453-2483.

Cattaneo, M. D. and R. Titiunik (2021). "Regression Discontinuity Designs" , p. 48.

Fan, J., I. Gijbels, T. Hu, et al. (1996). "A Study of Variable Bandwidth Selection for Local Polynomial Regression". In: Statistica Sinica, pp. 113-127.

133 / 136

参考文献(References):2/3

Hausman, C. and D. S. Rapson (2018). "Regression Discontinuity in Time: Considerations for Empirical Applications". In: Annual Review of Resource Economics 10.1, pp. 533-552. DOI: 10.1146/annurev-resource-121517-033306.

Imbens, G. and K. Kalyanaraman (2012). "Optimal Bandwidth Choice for the Regression Discontinuity Estimator". In: The Review of economic studies 79.3, pp. 933-959.

Ludwig, J. and D. L. Miller (2007). "Does Head Start Improve Children's Life Chances? Evidence from a Regression Discontinuity Design". In: The Quarterly journal of economics 122.1, pp. 159-208.

Manacorda, M., E. Miguel, and A. Vigorito (2011). "Government Transfers and Political Support". In: American Economic Journal: Applied Economics 3.3, pp. 1-28.

Robinson, P. M. (1988). "Root-N-consistent Semiparametric Regression". In: Econometrica: Journal of the Econometric Society, pp. 931-954.

134 / 136

参考文献(References):3/3

Thistlethwaite, D. L. and D. T. Campbell (1960). "Regression-Discontinuity Analysis: An Alternative to the Ex Post Facto Experiment." In: Journal of Educational psychology 51.6, p. 309.

135 / 136

本章结束

136 / 136
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow