示例:
圣地亚哥(San Diego)是美国南部一个大城市,占地面积超过300平方英里。 它也很富裕,截至2019年,家庭平均年收入超过85000美元,比全国平均水平高出约50%。
当您向南进入城市的其他区域时,一些南部地区的收入会少一些。例如用,当你往南到达的圣伊西德罗(San Ysidro)地区时(靠近墨西哥边境),家庭收入已经下降到50000-55000美元左右。你越往南走,期望家庭收入就越低。
但是,当我们越过边境进入墨西哥的蒂华纳(Tijuana, Mexico)时会发生什么?一旦越过边境进入墨西哥的蒂华纳(Tijuana)。 你会发现家庭收入,突然和急剧地下降到20000美元左右。
思考:
我们从圣地亚哥(San Diego)市中心开车到南部区域圣伊西德罗(San Ysidro),只有16英里距离,收入下降了25%。但是,只要继续往南步行几英尺越过边境进入墨西哥境内的蒂华纳(Tijuana, Mexico),家庭收入则发生急剧下降。
当然,对于圣地亚哥南部的家庭,地理位置可能有所不同,这可以解释收入的一些差异。但是在边界线附近两端,家庭收入会出现显著跳跃,这是地理位置因素所难以解释的。
断点回归设计(Regression Discontinued Design, RDD):
RDD是一种用于检验因果关系(causal relationship)假设的分析方法(Thistlethwaite and Campbell, 1960)
RDD主要用于如下情形(Cattaneo and Titiunik, 2021):
被研究对象(units)上可以观测到一个运行变量(running variable)
基于某些规则(rule)研究者可以给出运行变量上的一个(或若干个)断点值(cutoff),并据此对所有被研究对象设定分配水平(assignment level):包括处置条件(treatment condition)和控制条件(control condition)。
在断点值以上的被研究对象将被分配处置条件(treatment condition),并被定义为处置组(treated group);在断点值以下的被研究对象将被分配控制条件(control condition),并被定义为控制组(controlled group)
在满足某些假设条件下,断点附近处置条件分配概率的断点式变化,可以揭示出处置条件对结果变量(目标变量)的因果关系。
例如,结果变量为观测到的病人是否猝死。
例如,医生测量病人的血压,如果收缩压高于135,医生会给病人开降压药,这里病人的血压就是运行变量。
a 也被称为分派变量(assigning variable),或者强制变量(forcing variable)
以血压为例,假定断点值设置为收缩压135。如果你的血压高于135,就应该吃药。 如果低于135,就无须吃药。
D={0ifX<c01ifX≥c0
例如,给定运行变量 X为病人血压,断点值为 c0=135,那么处置变量即为是否用药。具体地,所有血压值 X≥c0的病人都会进行用药处置,也即虚拟变量赋值 D=1(ifX≥c0);否则就不用药,虚拟变量赋值为0。
示例:
我们有理由认为,在边境线两边的家庭几乎是相同的,除了边境线。 但是,距离更远的人(比如圣地亚哥San Diego市中心vs.墨西哥境内更远的人)可能会因为边界以外的原因而有所不同。 带宽就是您愿意考虑的可比较的边境线两边附近的空间范围。距离美墨边境线各10英尺? 各1000英尺? 各80英里?
分数与录取案例:
高校根据高考成绩划定投档线和录取线,如果某省理工类一本录取最低控制分数线为450,该省内的一所重点高校N理工类最低录取分数线为520分。
那么该重点高校N最低录取线(520分)附近以下,例如516-519分之间未被录取的很多学生,与略高于最低录取线,例如520-522分之间被成功录取的很多学生,这两类学生群体理论上并无明显差异。
那么我们就可以基于这一局部观察,设计局部随机控制性实验分析。
a)数据生成机制DGP
b)RDD因果关系解析
图a)展示的是常见的数据生成机制(DGP)。因为混淆变量 U的存在,使得难以有效分析出处置变量 D对结果变量 Y的作用关系(影响效应)。
图b)展示的是在RDD框架下,研究者能够很大程度上剥离混淆变量 U的干扰,并有效分析出处置变量 D对结果变量 Y的作用关系(影响效应)。
可观测事实(observed facts):在给定研究对象某种分配条件下(例如处置条件或控制条件),可以分别得到处置组对象(treated group, T)和控制组对象(controlled group, C),就能分别观测到结果变量的表现,也即可观测事实。
可观测结果(observed outcome):此时,处置组和控制组的结果变量容易被观测得到,分别可记为 [Y1i∣D=1]以及 [Y0i∣D=0]
反事实(Counterfactual):对于处置组的研究对象,如果不给它们分配处置条件,那么它们的结果变量会是如何呢?同理,对于控制组的研究对象,如果给它们分配处置条件,那么它们的结果变量又会是如何呢?显然,这些都是假想情形,实际并未发生的事实。
潜在结果(Potential outcome):此时,处置组和控制组的结果变量不能被直接观测得到,表现为潜在结果,我们分别可记为 [Y0i∣D=1]以及 [Y1i∣D=0]
≡E(Y1i∣Xi≥c0)+E(Y0i∣Xi≥c0)≡E(Y1i∣D=1)+E(Y0i∣D=1)≡E(Y1∣c+)+E(Y0∣c+)
≡E(Y1i∣Xi<c0)+E(Y0i∣Xi<c0)≡E(Y1i∣D=0)+E(Y0i∣D=0)≡E(Y1∣c−)+E(Y0∣c−)
τ=[E(Y1∣c+)+E(Y0∣c+)]−[E(Y1∣c−)+E(Y0∣c−)]
τ=E(Yi∣Xi≥c)−E(Yi∣Xi<c)=E(Y1i∣Xi≥c)−E(Y0i∣Xi<c)=E(Y1i)−E(Y0i)
source: fig2.a from Cattaneo M D, Idrobo N, Titiunik R. A Practical Introduction to Regression Discontinuity Designs: Extensions[J]. , 2021: 106.
source: fig2.b from Cattaneo M D, Idrobo N, Titiunik R. A Practical Introduction to Regression Discontinuity Designs: Extensions[J]. , 2021: 106.
source: fig3 from Cattaneo M D, Idrobo N, Titiunik R. A Practical Introduction to Regression Discontinuity Designs: Extensions[J]. , 2021: 106.
假设1:结果变量的期望值在断点处需要满足连续性假设(continuity assumption):
结果变量的期望值在断点处连续,也即 E[Yi(1)|Xi=x]和 E[Yi(0)|Xi=x],可是作为 x的函数( f(x)),且在 x=c0出连续。(见下图)
断点值 c0本身需要满足外生性(exogeneity)条件。也即,断点值 c0在触发处置变量D的时候,不会有其他变量在同时期来干预这种“触发行为”。
在上述条件下,运行变量 X对结果变量 Y将不再具有直接影响( X→Y),而是通过处置变量 D发生间接作用( X→D→Y)。
连续性假设(continuity assumption)应该是RDD最关键的一个假设条件,而且这符合经验事实。
大自然不会跳跃![a] ---达尔文《物种起源》
[a] 事物的发展变化总是渐进式的,而不会陡然改变。常言道“量变引发质变”。
假设2:被研究对象被分配(assign)处置条件(treated condition)[1]的条件概率(Conditional Probability of Receiving Treatment) P(Di=1∣Xi=c0)在断点处是不连续的(也即间断的)。
常见的处置分配概率不连续模式包括:
骤变不连续(Sharp discontinuity):处置条件分配的概率在断点处被完全决定。
模糊不连续(Fuzzy discontinuity):处置条件分配的概率在断点处不能被完全决定。
[1] 回顾分配水平(assign level)具有两个水平:处置条件(treated condition)和控制条件(controlled condition)
如果暂时忽略各种细节,一个最简化的RDD分析过程包括:
设定断点两边对结果变量的预测模型方法(predictive model)
选择局部谱宽(bandwidth)
估计并计算因果效应
我们暂时不关心远离断点处的观测值(因为混淆变量会产生作用)
最优化的谱宽选择可以基于某些准则,例如BIC等
结果变量 Y
运行变量 X,断点值 c0
处置变量 D:
D={0ifX<c01ifX≥c0
当个体 i被分配为“处置条件”时,其结果变量为 Y1为;当个体 i被分配为“控制条件”时,其结果变量为 Y0。
此时,个体 i的处置效应(treatment effect)记为 θ=Y1−Y0,因为其具有随机性,也被称为随机处置效应(random treatment effect)
给定一个可观测的协变量 X(运行变量),我们可以得到个体 i的条件处置效应(conditional treatment effect),并记为:
θ|(X=x)=(Y1−Y0)|(X=x)
θ(x)≡E(θ∣X=x)
给定结果变量的条件期望函数(conditional expect function, CEF)a如下:
m(x)≡E(Y|X=x)
则可以分别得到控制条件和处置条件下的条件期望函数:
{m0(x)=E(Y0|X=x)m1(x)=E(Y1|X=x)
进而,我们可以把条件平均处置效应(conditional ATE)表达为:
θ(x)≡E(θ∣X=x)=E[(Y1−Y0)∣X=x]=E[(Y1∣X=x)−(Y0∣X=x)]=m1(x)−m0(x)
a 这里先表达为隐函数形式,也即其具体函数表达式未知。
结果变量的条件期望函数在断点处的连续性(continuity)假设:
给定断点值为 x=c,假设结果变量的条件期望函数 m(x)在断点处 x=c连续。
这也意味着在控制条件和处置条件下的条件期望函数*也在断点处是连续的。也即 m0(x)和 m1(x)在断点处 x=c连续。
定义:我们把条件函数的 极限( z从右边向 x值取极限,和 z从左边向 x值取极限)定义如下
m(x+)=lim
断点处置效应定理:给定处置分配规则为 D=1\{X \geq c\},而且假定结果变量满足断点处的连续性假设,也即结果变量的条件期望函数 m(x)在断点处 x=c连续,那么断点处置效应为:
\bar{\theta}=\lim_{z \downarrow c} m(z) - \lim_{z \uparrow c} m(z)=m(c+)-m(c-)
证明:首先,我们进一步定义结果变量:
\begin{align} Y \equiv Y_0 \cdot\mathbb{1}\{x<c\} + Y_1 \cdot\mathbb{1}\{x\geq c\} \end{align}
两边对 X=x取期望,且根据结果变量的条件期望函数的定义,则有:
\begin{align} \mathbb{E}(Y|X=x) &= \mathbb{E}(Y_0|X=x) \cdot\mathbb{1}\{x<c\} + \mathbb{E}(Y_1|X=x) \cdot\mathbb{1}\{x\geq c\} \\ \Rightarrow m(x) &= m_0(x)\cdot\mathbb{1}\{x<c\} + m_1(x) \cdot\mathbb{1}\{x\geq c\} \end{align}
根据前面关于条件处置效应的定义及连续性假设,则有:
\begin{align} \theta(x) &\equiv \mathbb{E}(\theta \mid X=x) \\ & = \mathbb{E}[(Y_1 -Y_0) \mid X=x] \\ & = \mathbb{E}[(Y_1\mid X=x ) -(Y_0\mid X=x)] \\ & = m_1(x) -m_0(x) \end{align}
\begin{align} \theta(c) &= m_1(c) -m_0(c) \\ &= \lim_{x\downarrow c}{m(x)} - \lim_{x\uparrow c}{m(x)} &&\leftarrow \text{(连续性假设)} \\ & = m(c+) - m(c-) \end{align}
断点回归设计(RDD)属于典型的边界估计(boundary estimation)问题,这里我们将优先采用局部线性回归(local linear regression, LLR)方法进行估计。
这里,我们将使用到非参数的核函数(kernel function)方法来除了回归的权重问题。
给定如下条件:
\begin{align} Z_{i}(x)=\left( \begin{array}{c} \mathbb{1} \\ X_{i}-x \end{array} \right) \end{align}
核函数(kernel function) K(u)
谱宽(bandwidth) h
此时,可以证明局部线性方法下的系数估计为(证明略):
\begin{align} \boldsymbol{\widehat{\beta}_{0}}(x)=\left(\sum_{i=1}^{n} K\left(\frac{X_{i}-x}{h}\right) Z_{i}(x) Z_{i}(x)^{\prime}\cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K\left(\frac{X_{i}-x}{h}\right) Z_{i}(x) Y_{i}\cdot \mathbb{1}\left\{X_{i}<c\right\}\right) \end{align}
\begin{align} \boldsymbol{\widehat{\beta}_{1}}(x)=\left(\sum_{i=1}^{n} K\left(\frac{X_{i}-x}{h}\right) Z_{i}(x) Z_{i}(x)^{\prime} \cdot\mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K\left(\frac{X_{i}-x}{h}\right) Z_{i}(x) Y_{i} \cdot\mathbb{1}\left\{X_{i} \geq c\right\}\right) \end{align}
a b 需要注意的是,这里我们得到的都是系数向量(vector)。
根据结果变量条件期望函数 m(x)的定义,我们可以使用上述系数估计 \boldsymbol{\widehat{\beta}_{0}}(x),\boldsymbol{\widehat{\beta}_{1}}(x)\},进一步得到结果变量条件期望函数的估计结果a:
\begin{align} \widehat{m}(x)=\left[\boldsymbol{\widehat{\beta}_{0}}(x)\right]_{1} \cdot \mathbb{1}\{x<c\}+\left[\boldsymbol{\widehat{\beta}_{1}}(x)\right]_{1} \cdot \mathbb{1}\{x \geq c\} \end{align}
因此,根据断点处置效应定理,可以得到在断点 x=c处对总体平均处置效应 \bar{\theta}的样本估计结果 \hat{\theta}:
\begin{align} \widehat{\theta}=\left[\boldsymbol{\widehat{\beta}_{1}}(c)\right]_{1}-\left[\boldsymbol{\widehat{\beta}_{0}}(c)\right]_{1}=\hat{m}(c+)-\widehat{m}(c-) \end{align}
a 条件期望函数CEF只需要用到系数向量(vector)的第一个元素,因此用了下标1表达。
\begin{align} Y=\beta_{0}+\beta_{1} X+\beta_{3}(X-c) D+\theta D+e \end{align}
需要注意的是:
上述等价模型,只是等价前面的基于非正规化矩形核函数(unnormalized Rectangular)谱宽下的局部线性LL断点处置估计效应值。
简单地,上述等价模型需要进行样本数据集的重新定义。具体地,运行变量的范围需要调整到 X\in [c-h^{\ast}, c+h^{\ast}],其中 h^{\ast}=\sqrt{3}h=\sqrt{3}\times 8
基于边界估计的局部线性回归方法本质上需要进行非参数估计,这尤其体现在核函数的谱宽(bandwidth)估计。
目前还没有达成一致意见的最优谱宽选择方法。因此在进行LLR估计之前,研究者不得不多尝试多种数据导向(data based)的谱宽选择工具。
谱宽估计是一项具有挑战性的工作,有些具体估计方法会异常复杂。
当然,这里可以建议使用两种谱宽选择方法:
多项式(polynomial, PN)谱宽选择法(Fan, Gijbels, Hu, et al., 1996):这是一种经验方法。
交叉验证(cross validation, CV)谱宽选择法
\begin{align} m(x)=\beta_{0}+\beta_{1} x+\beta_{2} x^{2}+\cdots+\beta_{q} x^{q}+\beta_{q+1} D \end{align}
\begin{align} \widehat{m}^{\prime \prime}(x)=2 \widehat{\beta}_{2}+6 \widehat{\beta}_{3} x+12 \widehat{\beta}_{4} x^{2}+\cdots+q(q-1) \widehat{\beta}_{q} x^{q-2} \end{align}
\begin{align} \widehat{B}=\frac{1}{n} \sum_{i=1}^{n}\left(\frac{1}{2} \widehat{m}^{\prime \prime}\left(X_{i}\right)\right)^{2} \mathbb{1}\left\{\xi_{1} \leq X_{i} \leq \xi_{2}\right\} \end{align}
\begin{align} h_{\text{FG}}=0.58 \cdot \left(\frac{\widehat{\sigma}^{2}\left(\xi_{2}-\xi_{1}\right)}{\widehat{B}}\right)^{1 / 5} n^{-1 / 5} \end{align}
根据核函数的不同,多项式法(polynomial)计算公式略有不同:
\begin{align} h_{\text{pn}}=1\cdot \left(\frac{\widehat{\sigma}^{2}\left(\xi_{2}-\xi_{1}\right)}{\widehat{B}}\right)^{1 / 5} n^{-1 / 5} \end{align}
\begin{align} h_{\text{pn}}=1.42\cdot \left(\frac{\widehat{\sigma}^{2}\left(\xi_{2}-\xi_{1}\right)}{\widehat{B}}\right)^{1 / 5} n^{-1 / 5} \end{align}
交叉验证(cross validation, CV)方法:主要形式是把训练集分成两部分,一部分用来训练模型,另一部分用来验证模型。
交叉验证方法包括:留出法(holdout)、留一法(Leave-one-out, LOO)、K折法(K-fold)、自助法(Bootstrap)等。
这里介绍的交叉验证谱宽选择法主要采用留一法(Leave-one-out,LOO)。
留一法(Leave-one-out,LOO)选择谱宽的基本步骤:
初步选定一个临近断点的区间 [\xi_1, \xi_2](去中心化后centered X的范围)
任意选择初始谱宽
通过留一法计算模型预测残差及其残差平方和
以最小化残差平方和为目标,分析谱宽的变化趋势a,并最终确定谱宽bandwidth。
a 可以绘制CV标准(如均方误差AMSE)与谱宽关系的图示法进行观察。
谱宽估计的噪点(noise)会进入到RDD估计进程中去,因此谱宽选择显得非常重要。
无论是多项式法还是交叉验证法,确定最终谱宽时,都考虑到了全局性准确度。
这意味着它们都用到了更多的样本数据,因此谱宽估计会比较稳定。
因为局部性存在多种可能,所以这类方法得到的谱宽会更加不稳定。具体参看(Imbens and Kalyanaraman, 2012; Arai and Ichimura, 2018)。
更大的谱宽,一般会使得断点效应估计系数方差减小(reduce variance),置信区间变窄,但同时也会增加偏误(increase bias)。
谱宽选择的经验法则:
实践操作中,我们往往需要同时结合多项式法和交叉验证法来确定一个谱宽 \tilde{h}。
在上述基础上,我们还需要适当调减谱宽值,例如 h = 25\%\cdot\tilde{h},以减少估计偏误。
基于局部线性回归LLR估计结果,对断点处置效应参数 \bar{\theta}的推断陈述(inferential statement),都会受到其中非参数估计偏差的影响。
可以证明,局部线性回归(LLR)的估计量 \hat{m}(x)在标准正则条件(standard regularity conditions)下将服从渐近正态分布。
\begin{align} \operatorname{bias}[\widehat{\theta}] &=\frac{h^{2} \sigma_{K^{*}}^{2}}{2}\left(m^{\prime \prime}(c+)-m^{\prime \prime}(c-)\right)\\ \operatorname{var}[\widehat{\theta}] &=\frac{R_{K}^{*}}{n h}\left(\frac{\sigma^{2}(c+)}{f(c+)}+\frac{\sigma^{2}(c-)}{f(c-)}\right) \end{align}
上述理论方差,我们可以通过两个边界回归(断点两边)的系数估计量的渐近方差求和计算得到。我们首先给定如下条件:
\begin{align} Z_{i}=\left( \begin{array}{c} \mathbb{1} \\ X_{i}-c \end{array} \right) \end{align}
核函数(kernel function) K_i=k\left(\frac{X_i - c}{h}\right)
谱宽(bandwidth) h
留一法a得到的模型预测残差(leave-one-out prediction error) \tilde{e}_i
a 留一法(Leave One Out, LOO) 是一种 常见的交叉验证方法,其中每个观察集都被视为验证集test,其余的 (n-1)观测值被视为训练集training。此处原理类似,每次都去掉一个数据进行估计,然后根据估计结果进行预测,然后得到预测误差。
此时,我们可以得到局部线性回归LLR估计系数 \hat{\theta}的方差协方差矩阵分别为:
\begin{aligned} &\widehat{\boldsymbol{V}}_{0}=\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K_{i}^{2} Z_{i} Z_{i}^{\prime} \tilde{e}_{i}^{2} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1} \\ &\widehat{\boldsymbol{V}}_{1}=\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K_{i}^{2} Z_{i} Z_{i}^{\prime} \tilde{\boldsymbol{e}}_{i}^{2} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1} \end{aligned}
进一步地,估计系数 \hat{\theta}的渐进方差为上述两个矩阵第一个对角元素之和:
\text{Var}{(\hat{\theta})}=\left[\widehat{\boldsymbol{V}}_{0}\right]_{11}+\left[\widehat{\boldsymbol{V}}_{1}\right]_{11}
最后,我们可以分别对断点两侧计算逐点置信区间(Pointwise Confidence Interval),并相应构建置信带。
\begin{align} \widehat{m}(x) \pm z_{1-\alpha/2}(n-1) \cdot \sqrt{\widehat{V}_{\widehat{m}(x)}}\\ \widehat{m}(x) \pm 1.96 \sqrt{\widehat{V}_{\widehat{m}(x)}} \end{align}
援助项目与儿童死亡率:
案例基于(Ludwig and Miller, 2007)的研究,他们重点评估了美国联邦政府脱贫援助项目(Head Start)的骤变RDD政策效应。
该援助项目于1965年实施,为3-5岁贫困孩子及其家庭提供学前教育、健康和社会服务等方面的资金援助。对于该援助项目经费,联邦政府将决定通过公开竞标,分配给提交援助申请的中标县。
为了保障援助项目的针对性,联邦政府将重点考虑资助被认定的300个贫困县。其中贫困县是基于1960年美国统计测度得到的贫困线水平(poverty rate)予以划定。
最终,300个贫困县中,有80%的县获得了项目资助;而其他提交申请的县中(非贫困县),有43%的县也获得了项目资助。
援助项目与儿童死亡率(续):
(Ludwig and Miller, 2007)重点关注援助项目对中长期儿童死亡率影响。其中儿童死亡率定义为:1973-1983年间、儿童年龄范围在8-18岁、儿童死亡原因为Head Start定义的相关原因(如结核病等)。因而而援助项目希望努力消减这些儿童死亡情形的发生。
我们关注的问题:脱贫援助项目(Head Start)对儿童死亡率(Y=mortality rate
)的因果效应。我们将采用骤变RDD非参数回归估计,运行变量为县贫困率(X=poverty rate
),断点值(cut-off)设定为
c=59.1984。将使用子样本数据的样本数为n=2783。
X Y D Min. :15 Min. : 0 Min. :0.00 1st Qu.:24 1st Qu.: 0 1st Qu.:0.00 Median :34 Median : 0 Median :0.00 Mean :37 Mean : 2 Mean :0.11 3rd Qu.:47 3rd Qu.: 3 3rd Qu.:0.00 Max. :82 Max. :136 Max. :1.00
规则1:我们设定先验谱宽为 h=8,断点值设定为 c =59.1984\%。
规则2:分别设定断点两边箱组中心点序列值(center of bins)。我们将采用非对称箱组设置方法:
- 控制组(断点左边)的评估范围为 [15, 59.2],序列间隔为
0.2
。评估总箱组数为 g1=222,待评估序列值为 15.0, 15.2, 15.4, 15.6, 15.8, \cdots,58.6, 58.8, 59.0, 59.2。- 处置组(断点右边)的评估范围为 [59.2, 82],序列间隔为
0.2
。评估总箱组数为 g2=115,待评估序列值为 59.2, 59.4, 59.6, 59.8, 60.0, \cdots,81.4, 81.6, 81.8, 82.0。
\begin{aligned} &\widehat{\boldsymbol{V}}_{0}=\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K_{i}^{2} Z_{i} Z_{i}^{\prime} \tilde{e}_{i}^{2} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i}<c\right\}\right)^{-1} \\ &\widehat{\boldsymbol{V}}_{1}=\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1}\left(\sum_{i=1}^{n} K_{i}^{2} Z_{i} Z_{i}^{\prime} \tilde{\boldsymbol{e}}_{i}^{2} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)\left(\sum_{i=1}^{n} K_{i} Z_{i} Z_{i}^{\prime} \cdot \mathbb{1}\left\{X_{i} \geq c\right\}\right)^{-1} \end{aligned}
a 这里我们没有再次评估条件方差估计中的最优谱宽,而是简单直接地使用了CEF估计时的谱宽。但是我们还是要注意,二者的最优谱宽可以完全不相同!
index | group | xg | mx | s | s2 |
---|
index | group | xg | mx | s | s2 |
---|---|---|---|---|---|
1 | control | 15.0 | 1.8395 | 0.2396 | 0.0574 |
2 | control | 15.2 | 1.8347 | 0.2339 | 0.0547 |
3 | control | 15.4 | 1.8310 | 0.2284 | 0.0522 |
4 | control | 15.6 | 1.8260 | 0.2225 | 0.0495 |
5 | control | 15.8 | 1.8210 | 0.2166 | 0.0469 |
6 | control | 16.0 | 1.8169 | 0.2111 | 0.0446 |
7 | control | 16.2 | 1.8116 | 0.2050 | 0.0420 |
8 | control | 16.4 | 1.8042 | 0.1990 | 0.0396 |
\begin{align} \widehat{m}(x) \pm z_{1-\alpha/2}(n-1) \cdot \sqrt{\widehat{V}_{\widehat{m}(x)}}\\ \widehat{m}(x) \pm 1.96 \sqrt{\widehat{V}_{\widehat{m}(x)}} \end{align}
group | index | xg | mx | s | lwr | upr |
---|
group | index | xg | mx | s | lwr | upr |
---|---|---|---|---|---|---|
control | 1 | 15.0 | 1.8395 | 0.2396 | 1.3699 | 2.3092 |
control | 2 | 15.2 | 1.8347 | 0.2339 | 1.3762 | 2.2931 |
control | 3 | 15.4 | 1.8310 | 0.2284 | 1.3833 | 2.2787 |
control | 4 | 15.6 | 1.8260 | 0.2225 | 1.3899 | 2.2622 |
control | 5 | 15.8 | 1.8210 | 0.2166 | 1.3964 | 2.2456 |
control | 6 | 16.0 | 1.8169 | 0.2111 | 1.4032 | 2.2307 |
control | 7 | 16.2 | 1.8116 | 0.2050 | 1.4098 | 2.2134 |
control | 8 | 16.4 | 1.8042 | 0.1990 | 1.4142 | 2.1942 |
\begin{align} \widehat{\theta} &=\left[\boldsymbol{\widehat{\beta}_{1}}(c)\right]_{1}-\left[\boldsymbol{\widehat{\beta}_{0}}(c)\right]_{1}\\ &=\hat{m}(c+)-\widehat{m}(c-)\\ &=3.3096 -1.8035 =-1.5060 \end{align}
- 断点左边的条件期望(CEF)的估计值 \widehat{m}(c-)=3.31;
- 断点右边的条件期望(CEF)的估计值 \widehat{m}(c+)=1.8;
\begin{align} \text{Var}{(\hat{\theta})} &=\left[\widehat{\boldsymbol{V}}_{0}\right]_{11}+\left[\widehat{\boldsymbol{V}}_{1}\right]_{11}\\ &= 0.3673 + 0.1417 = 0.5090\\ se({(\hat{\theta})}) &= \sqrt{\text{Var}{(\hat{\theta})}} = \sqrt{0.5090} =0.7134 \end{align}
- 断点左边的条件期望(CEF)的估计值 \widehat{m}(c-)=3.3096;
- 断点右边的条件期望(CEF)的估计值 \widehat{m}(c+)=1.8035;
\begin{align} Y=\beta_{0}+\beta_{1} X+\beta_{3}(X-c) D+\theta D+e \end{align}
X Y D XcD Min. :45 Min. : 0 Min. :0.00 Min. : 0.0 1st Qu.:50 1st Qu.: 0 1st Qu.:0.00 1st Qu.: 0.0 Median :55 Median : 0 Median :0.00 Median : 0.0 Mean :56 Mean : 3 Mean :0.34 Mean : 1.8 3rd Qu.:62 3rd Qu.: 4 3rd Qu.:1.00 3rd Qu.: 2.4 Max. :73 Max. :65 Max. :1.00 Max. :13.8
\begin{equation} \begin{alignedat}{999} &\widehat{Y}=&&-1.0987&&+0.0758X_i&&+0.0331XcD_i&&-1.5454D_i\\ &(s)&&(2.9382)&&(0.0564)&&(0.1060)&&(0.7375)\\ &(t)&&(-0.37)&&(+1.34)&&(+0.31)&&(-2.10)\\ &(over)&&n=757&&\hat{\sigma}=5.1830 && &&\\ &(fit)&&R^2=0.0059&&\bar{R}^2=0.0019 && &&\\ &(Ftest)&&F^*=1.48&&p=0.2191 && && \end{alignedat} \end{equation}
给定处置分配规则为 D=1\{X \geq c\},而且假定结果变量满足断点处的连续性假设,也即结果变量的条件期望函数 m(x)在断点处 x=c连续,那么断点处置效应为:
\bar{\theta}=m(c+)-m(c-)
根据前面的讨论,就效应估计和推断而言,RDD分析中完全没有必要引入其他协变量( Z)进入模型。
当然,为了提高模型预测准确度,我们可以引入一些额外的、有价值的协变量。
给定变量集为: (Y,X,Z),其中 Z为含有 k个元素的协变量向量(covariates vector)
同前, Y_0和 Y_1分别为控制条件和处置条件下的结果变量(观测的或反事实的)
并进一步假定条件期望函数CEF是如下的线性形式,且断点两边的方程中协变量系数是相同的 \beta^{\prime}:
\begin{align} &\mathbb{E}\left[Y_{0} \mid X=x, Z=z\right]=m_{0}(x)+\beta^{\prime} z \\ &\mathbb{E}\left[Y_{1} \mid X=x, Z=z\right]=m_{1}(x)+\beta^{\prime} z \end{align}
\begin{align} m(x, z)=m_{0}(x) \cdot \mathbb{1}\{x< c\}+m_{1}(x) \cdot \mathbb{1}\{x \geq c\}+\beta^{\prime} z \end{align}
\overline{\theta} = m(c+,z) - m(c-,z)
RDD协变量估计方法有很多种,这里重点讨论(Robinson, 1988)提出了一种半参数效率估计方法,主要步骤如下:
步骤1:直接采用前面的RDD局部线性回归方法(RDD LLR),用 Y_i对 X_i进行回归,并得到第1阶段的结果变量的拟合值 \widehat{m}_i = \widehat{m}_i(X_i)
步骤2:依次做 Z_{i1}对 X_i、 Z_{i2}对 X_i、 \ldots的局部线性回归Z(LL),并分别得到协变量的拟合值 \widehat{g}_{1i},\widehat{g}_{2i},\ldots,\widehat{g}_{ki}
步骤3:做 Y_i -m_{i}对 Z_{i1}-\widehat{g}_{1i},Z_{i2}-\widehat{g}_{2i},\ldots,Z_{ik}-\widehat{g}_{ki}的回归,并得到估计系数 \hat{\beta}及其标准误
步骤4:构造残差 \hat{e}_i=Y_i - Z^{\prime}_i\hat{\beta}
步骤5:再次采用RDD局部线性回归方法(LLR),进行 \hat{e}_i对 X_i的回归,并计算得到非参数估计量 \widehat{m}(x),断点效应估计值 \hat{\theta}及其标准误。
案例说明:
我们继续使用前面(Ludwig and Miller, 2007)的研究案例,来评估美国联邦政府脱贫援助项目(Head Start)对儿童死亡率的骤变RDD政策效应。现在我们考虑使用两个协变量(covariates):
县级黑人人口占比(black pop percentage
)
Z_a
县级城镇人口占比(urban pop percentage
)
Z_a
上述两个协变量,本质上可以视作为收入变量(income
)的代理变量(proxy)。
下面我们将使用(Robinson, 1988)的半参数效率估计方法来评估项目援助的断点处置效应(RDD ATE)。
X Y Za Zb D Min. :15 Min. : 0 Min. : 0 Min. : 0 Min. :0.00 1st Qu.:24 1st Qu.: 0 1st Qu.: 0 1st Qu.: 0 1st Qu.:0.00 Median :34 Median : 0 Median : 2 Median : 28 Median :0.00 Mean :37 Mean : 2 Mean :11 Mean : 29 Mean :0.11 3rd Qu.:47 3rd Qu.: 3 3rd Qu.:15 3rd Qu.: 48 3rd Qu.:0.00 Max. :82 Max. :136 Max. :83 Max. :100 Max. :1.00
在进行协变量RDD分析之前,我们设定如下的规则策略:
规则1:我们设定先验谱宽为 h=8,断点值设定为 c =59.1984\%。
规则2:分别设定断点两边箱组中心点序列值(center of bins)。我们将采用非对称箱组设置方法:
- 控制组(断点左边)的评估范围为 [15, 59.2],序列间隔为
0.2
。评估总箱组数为 g1=222,待评估序列值为 15.0, 15.2, 15.4, 15.6, 15.8, \cdots,58.6, 58.8, 59.0, 59.2。- 处置组(断点右边)的评估范围为 [59.2, 82],序列间隔为
0.2
。评估总箱组数为 g2=115,待评估序列值为 59.2, 59.4, 59.6, 59.8, 60.0, \cdots,81.4, 81.6, 81.8, 82.0。
规则3:如果使用局部线性估计法(LL),则采用三角核函数(triangle kenerl)。
规则4:我们将使用(Robinson, 1988)的半参数效率估计方法来评估断点处置效应(RDD ATE)。
a 这个阶段的残差序列用e
命名。
obs | D | X | Y | Za | Zb | e | Ra | Rb |
---|---|---|---|---|---|---|---|---|
1 | 0 | 15.2085 | 0.6846 | 0.3 | 70.2 | -1.1544 | -1.2525 | 20.8178 |
2 | 0 | 15.2118 | 2.0734 | 8.4 | 67.0 | 0.2399 | 6.8787 | 17.6103 |
3 | 0 | 15.2175 | 3.3101 | 1.4 | 51.2 | 1.4815 | -0.1493 | 1.7575 |
4 | 0 | 15.2254 | 0.0000 | 0.5 | 26.9 | -1.8413 | -1.0537 | -22.6246 |
5 | 0 | 15.2411 | 0.0000 | 0.0 | 26.5 | -1.8409 | -1.5575 | -23.0015 |
6 | 0 | 15.2583 | 1.0910 | 11.8 | 92.2 | -0.7454 | 10.2859 | 42.9783 |
a 这个阶段的两个残差序列分别用Ra
和Rb
命名。
\begin{align} (Y_i -m_{i}) &= \hat{\beta}_1(Z_{ia}-\widehat{g}_{1i})+\hat{\beta}_2(Z_{ib}-\widehat{g}_{2i})\\ e&=\hat{\beta}_{1}R_a + \hat{\beta}_{2}R_a \end{align}
\begin{equation} \begin{alignedat}{999} &\widehat{e}=&&+0.0265Ra_i&&-0.0094Rb_i\\ &(s)&&(0.0083)&&(0.0045)\\ &(t)&&(+3.19)&&(-2.08)\\ &(p)&&(0.0014)&&(0.0377)\\ &(over)&&n=2783&&\hat{\sigma}=5.7091 \end{alignedat} \end{equation}
term | estimate | std.error | statistic | p.value |
---|---|---|---|---|
Ra | 0.0265 | 0.0073 | 3.62 | 0.0003 |
Rb | -0.0094 | 0.0046 | -2.04 | 0.0412 |
a b 两种OLS估计程序下,回归系数都相同,只是系数对应的标准误不一样。这里我们仅需要用到回归系数,因此不影响后续步骤。
obs | D | X | Y | Za | Zb | e | Ra | Rb | RZ |
---|---|---|---|---|---|---|---|---|---|
1 | 0 | 15.2085 | 0.6846 | 0.3 | 70.2 | -1.1544 | -1.2525 | 20.8178 | 1.3390 |
2 | 0 | 15.2118 | 2.0734 | 8.4 | 67.0 | 0.2399 | 6.8787 | 17.6103 | 2.4826 |
3 | 0 | 15.2175 | 3.3101 | 1.4 | 51.2 | 1.4815 | -0.1493 | 1.7575 | 3.7560 |
4 | 0 | 15.2254 | 0.0000 | 0.5 | 26.9 | -1.8413 | -1.0537 | -22.6246 | 0.2405 |
5 | 0 | 15.2411 | 0.0000 | 0.0 | 26.5 | -1.8409 | -1.5575 | -23.0015 | 0.2500 |
6 | 0 | 15.2583 | 1.0910 | 11.8 | 92.2 | -0.7454 | 10.2859 | 42.9783 | 1.6477 |
a 这个步骤构造出来的残差序列RZ
。
index | group | xg | mx | s | lwr | upr |
---|
index | group | xg | mx | s | lwr | upr |
---|---|---|---|---|---|---|
1 | control | 15.0 | 2.2757 | 0.2392 | 1.8068 | 2.7445 |
2 | control | 15.2 | 2.2674 | 0.2335 | 1.8096 | 2.7251 |
3 | control | 15.4 | 2.2601 | 0.2281 | 1.8131 | 2.7071 |
4 | control | 15.6 | 2.2516 | 0.2222 | 1.8161 | 2.6871 |
5 | control | 15.8 | 2.2428 | 0.2163 | 1.8187 | 2.6668 |
6 | control | 16.0 | 2.2350 | 0.2109 | 1.8217 | 2.6482 |
7 | control | 16.2 | 2.2259 | 0.2048 | 1.8245 | 2.6273 |
8 | control | 16.4 | 2.2148 | 0.1989 | 1.8251 | 2.6046 |
\begin{align} \widehat{\theta} &=\left[\boldsymbol{\widehat{\beta}_{1}}(c)\right]_{1}-\left[\boldsymbol{\widehat{\beta}_{0}}(c)\right]_{1}\\ &=\hat{m}(c+)-\widehat{m}(c-)\\ &= 2.8209 - 1.2592 = -1.5617 \end{align}
- 断点左边的条件期望(CEF)的估计值 \widehat{m}(c-)=2.8209;
- 断点右边的条件期望(CEF)的估计值 \widehat{m}(c+)=1.2592;
\begin{align} \text{Var}{(\hat{\theta})} &=\left[\widehat{\boldsymbol{V}}_{0}\right]_{11}+\left[\widehat{\boldsymbol{V}}_{1}\right]_{11}\\ &= 0.3673 + 0.1417 = 0.5090\\ se({(\hat{\theta})}) &= \sqrt{\text{Var}{(\hat{\theta})}} = \sqrt{0.5090} =0.7122 \end{align}
因此RDD断点处置效应估计值 \hat{\theta}的标准误为 se({\hat{\theta}}) =0.7122;最后我们可以计算得到RDD断点处置效应对应的t统计量: t^{\ast}=\frac{\hat{\theta}}{se(\hat{\theta})}=-2.19,其概率值为 p=0.0283.
综上,RDD结果表明援助项目降低了儿童死亡率,使得10万个孩子中约1.51个小孩免于遭受死亡。并且t统计量检验表明,援助项目在降低了儿童死亡率上具有统计显著性(置信度超过95%)。
pars | stats | baseline | covariate |
---|---|---|---|
theta | est | -1.5060 | -1.5617 |
theta | se | 0.7134 | 0.7122 |
black | est | 0.0265 | |
black | se | 0.0073 | |
urban | est | -0.0094 | |
urban | se | 0.0046 |
结论1:与基准RDD相比,两个协变量的引入没有明显改变断点处置效应估计值大小。
结论2:但是是否引入协变量,对CEF估计值 \widehat{m}(x)的影响较大。可以看到基准RDD更陡峭,而协变量RDD更平缓。(见后面附图对比)
结论3:考虑到两个协变量可以视作收入的代理变量,可以看到黑人人口比重负向影响儿童死亡率,而城镇人口比重正向影响儿童死亡率。
基准RDD:局部线性回归及断点效应估计
协变量RDD:局部线性回归及断点效应估计
模糊RDD(fuzzy regression discontinuity design,FRDD):是指处置条件的条件分配概率在断点处是不连续的(跳跃的),但又不是从0直接跳跃到1的一种RDD分析情形。
骤变RDD中,在断点两边,处置条件的条件分配概率在断点处是跳跃的,而且是直接从0跳跃到1。
p(x) = \mathbb{P}[D=1|X=x]
那么在断点 x=c左右两边的极限条件分配概率则分别定义为: p(c-),p(c+)。
因此,对于模糊RDD而言,则意味着: p(c-)\neq p(c+)
定理:模糊RDD下的断点处置效应ATE。
\begin{align} \bar{\theta}=\frac{m(c+)-m(c-)}{p(c+)-p(c-)} \end{align}
此时,我们考虑如下的模型:
\begin{align} \begin{aligned} Y &=Y_{0} \mathbb{1}\{D=0\}+Y_{1} \mathbb{1}\{D=1\} \\ &=Y_{0}+\theta \mathbb{1}\{D=1\} \end{aligned} \end{align}
\begin{align} \begin{aligned} m(x) =m_{0}(x)+\mathbb{E}[\theta \mathbb{1}\{D=1\} \mid X=x] =m_{0}(x)+\theta(x) p(x) \end{aligned} \end{align}
\begin{align} m(c+)=m_{0}(c)+\bar{\theta} p(c+); \quad \quad m(c-)=m_{0}(c)+\bar{\theta} p(c-) \\ \end{align}
\begin{align} m(c+)- m(c-) = \bar{\theta} p(c+) -\bar{\theta} p(c-) \Rightarrow \quad \quad \bar{\theta} = \frac{m(c+)- m(c-)}{ p(c+) - p(c-) } \end{align}
\begin{align} \widehat{m}(c+)- \widehat{m}(c-) & \equiv [\widehat{\beta}_1(c)]_1 - [\widehat{\beta}_0(c)]_1 \end{align}
\begin{align} \widehat{p}(c+)- \widehat{p}(c-) & \equiv [\widehat{\alpha}_1(c)]_1 - [\widehat{\alpha}_0(c)]_1 \end{align}
\begin{align} \widehat{\theta} &= \frac{\widehat{m}(c+)- \widehat{m}(c-)}{ \widehat{p}(c+) - \widehat{p}(c-) } \end{align}
对于模糊RDD断点ATE的估计:
\begin{align} \widehat{\theta} &= \frac{\widehat{m}(c+)- \widehat{m}(c-)}{ \widehat{p}(c+) - \widehat{p}(c-) } \end{align}
上式实际上是两类断点估计的比率值。而且当 \widehat{p}(c+) - \widehat{p}(c-) =1时,以上估计式即为骤变RDD的估计情形!
上述估计值的计算总共会需要进行4次局部线性回归,是不是需要都使用相同的谱宽(bandwidth),或者断点两侧是否要采用不同数量的箱组(bins),可以进行多次尝试!
事实上,上述模糊RDD断点ATE的估计可以使用工具变量法(IV)等价得到。
简单地,可以把 D视作为 X的工具变量,然后把 Y对它们二者进行局部加权工具变量估计(Locally weighted IV estimation),从而得到断点ATE估计值 \widehat{\theta}。
断点处置效应能否被识别,有赖于在断点附近处概率 p(x)的跳跃性程度。如果跳跃不大,那么就会带来弱工具变量问题(Weak Instruments Problem)。
ATE估计的标准误,其计算过程类似于IV回归法。我们先把估计量 {\widehat{m}(c+)- \widehat{m}(c-)}的标准误定义为 s(\widehat{\theta}),那么就可以使用下式计算得到ATE估计 \widehat{\theta}的标准误:
\begin{align} s(ate)=\frac{s(\widehat{\theta})}{|\hat{p}(c+)-\widehat{p}(c-)|} \end{align}
回顾与思考:
断点回归设计(RDD)探讨的是结果变量 Y的条件期望值(均值) \mathbb{E}(Y|X=x)\equiv m(x)在断点附近是否存在跳跃性(jump)的不连续。
那么,我们能不能分析除此之外,其他对象的跳跃性或不对称性呢?
例如结果变量的标准差是否跳跃?中位数是否跳跃?或者箱组内(bins)局部回归的判定系数 R^2是否跳跃?
拐点回归设计(Regression Kink Design, RKD):是探讨结果变量 Y对运行变量 X的斜率(slope)是否存在显著改变(change)的一种处置效应回归分析设计框架。
处置条件只是改变了斜率,但是并没有引起结果变量的跳跃,也即结果变量在拐点处(kink point)还是连续的!
在有些情形下,研究者还可以关注处置水平D对运行变量X的变化率的拐点效应。
结果变量对运行变量的变化率(斜率)具有拐点效应
案例1:政府择机扶持科技公司。
政府在特定时间点开始,决定大量关注并投资科技公司。此时公司雇员人数为结果变量Y,时间观测为运行变量X,政府是否决定大量投资则为处置变量D。
这种情况下,公司雇员总人数Y可能并不会在拐点 x=c处立刻跳跃(不连续),但是我们预期在拐点后的公司的雇员增长率(Y对X的斜率)会比之前会有一个明显变化!
案例2:失业保险政策(Card, Lee, Pei, et al., 2015)。
案例背景为澳大利亚。公民的失业保险补贴水平大概为其正常工作收入的55%,并且有一个补贴最高上限值。因此,失业保险政策设计下,公民的正常工作收入会正向地影响失业保险补贴水平。工作收入越高,补贴会越多,直到达到一个补贴上限值。
此时,我们定义:公民的正常工作收入为运行变量X,公民是否能获得失业补贴为处置变量D。一个公民如果失业,把他从失业那一刻算起,直到他找到一份新工作,期间他所愿意的等待时长定义为结果变量Y,
案例2(续):失业保险政策(Card, Lee, Pei, et al., 2015)。
这种情况下,政策如果给予更高的补贴水平,那么我们可以预期公民的就业等待时长Y可能会更长!因此,我们也可以预期,在达到最高补贴水平(拐点c)之前,公民正常的工作收入X越高,那么他的就业等待时长Y也会更长!
显然,在拐点之后(最高补贴之后),等待时长Y对正常工作收入X的比率应该会变得比拐点之前更加平缓(斜率更小)!——也即出现了Y对X的斜率具有拐点效应!同时,我们还可以预期到就业等待时长Y并不会在拐点 x=c处立刻跳跃(不连续)!
案例3:妇女育儿支持政策(Bana, Bedard, and Rossin-Slater, 2020)。
案例背景为美国加利福尼亚州。政府制定了一项妇女育儿家庭支持政策(paid family leave)。对于符合条件的家庭,加州政府根据家庭正常工作收入,将补贴其家庭收入的55%直至一个最高最高上限值。
因此,妇女育儿家庭支持政策设计下,家庭的正常工作收入会正向地影响补贴水平。工作收入越高,补贴会越多,直到达到一个补贴上限值。
案例3(续):妇女育儿支持政策(Bana, Bedard, and Rossin-Slater, 2020)。
此时,我们定义:家庭的正常工作收入为运行变量X,家庭获得政策补贴水平为处置变量D。妇女获得的育儿假时长为结果变量Y。
显然,在拐点之前(最高补贴之前),家庭的政策补贴水平D越高,也意味着家庭正常工作收入X越高;而在拐点之后(最高补贴之后),家庭的政策补贴水平D会保持不变——也即意味着D对X的斜率为0!
因此,处置变量D对运行变量 X的变化率(斜率)具有拐点效应:
处置变量对运行变量的变化率(斜率)具有拐点效应
结果变量对运行变量的变化率(斜率)没有拐点效应
结果变量对运行变量的变化率(斜率)具有拐点效应
总体而言,关于拐点效应ATE的估计方法,与之前的RDD估计过程基本类似:
确定核函数
选择谱宽
局部线性回归LLR或局部多项式回归LPR
安慰剂效应检验
编程提示:
对于R
或stata
用户而言,可以使用分析包rdrobust
拐点回归RKD估计时,仅需要设定参数deriv=1
即可
回顾与思考:
截止目前为止,我们已经接触了骤变断点(SRDD)、模糊断点(FRDD)、斜率改变拐点(RKD)
那么,我们能不能考虑政策存在多个断点(或拐点)的情形呢?
应用案例:
在育儿支持案例中,能拿到最高补贴支持的家庭季度收入(x=c),也是随着年度变化而进行调整的。例如在2004年这个收入水平划定为25000美元,而到了2005年则被划定在20000美元。
一国猪肉储备投放政策中,会考虑根据猪粮比价(X)变动,分别设定红色、橙色、蓝色和绿色预警窗口(多个断点),来决定如何干预市场(如生产收储或市场投放,以及数量多少等)。
应用案例(续):
高考招生政策中,会考虑根据不同招生类型(如普通招录生、师范特招生、体育特招生等),设定不同的高考成绩录取线(多个断点)。而且普通高考招录的录取线,对于不同的省份也是不同的(例如,某省的某个高校在全国各省的招录录取线就会各不相同——一般本省录取线会更低)。
在多党派多家的政党选举中,某个政党能否竞选胜出执政,有的年度可能需要50.1%的投票率,但是有的年份可能只需要42.7%就能胜选。
很多情况下,断点(或拐点)本身就是政策指定者最为关注的议题
一些情形下,多个断点的政策设计具有很强的现实意义或价值。
多断点分析(Cutoffs cut off Analysis):在运行变量X上,存在多个断点,断点值的划定,往往基于不同群体、不同地区,或不同时间段上的运行变量取值。
回顾与启发:
在经典的RDD估计中,断点平均处置效应(ATE)是把断点附近的处置效应做了简单平均(正如其名!)。
但是,在多断点的RDD情形下,事情变得复杂(不同的断点针对不同的群体),因此不能再直接、粗暴地进行简单平均——我们必须考虑到不同的群体区块!
编程提示:
对于R
或stata
用户而言,可以使用分析包rdmulti
多断点RDD估计时,可以使用函数rdmulti::rdmc()
进行分析
安慰剂检验(Placebo Tests):RDD分析的前提假设是,处置变量的作用是“干净的”、没有后门的(no back doors)。如果不使用结果变量Y,而是使用协变量作为“结果变量”进行正常的RDD估计,如果也表现出与之前同样显著的断点处置效应ATE,那么我们就要质疑我们的RDD设计框架了。
选择合理的协变量,将其视作为“结果变量”
进行常规的RDD分析流程
比较结果并得出检验结论。
理论上,上述操作不应该得到——“显著存在断点处置效应”——的结论!
政府转移支付案例:
(Manacorda, Miguel, and Vigorito, 2011)分析了乌拉圭的一个大型扶贫项目,该项目削减了很大一部分贫困人口。论文关注的话题是:获得政府转移支付资金是否会让人们更有可能支持新成立的政府?
研究人员对一群接近收入临界值的人进行了调查,看看他们之后对政府的支持程度。收入低于临界值的人比收入高于临界值的人支持政府要更多吗?
Arai, Y. and H. Ichimura (2018). "Simultaneous Selection of Optimal Bandwidths for the Sharp Regression Discontinuity Estimator". In: Quantitative Economics 9.1, pp. 441-482.
Bana, S. H., K. Bedard, and M. Rossin-Slater (2020). "The Impacts of Paid Family Leave Benefits: Regression Kink Evidence from California Administrative Data". In: Journal of Policy Analysis and Management 39.4, pp. 888-929.
Card, D., D. S. Lee, Z. Pei, et al. (2015). "Inference on Causal Effects in a Generalized Regression Kink Design". In: Econometrica 83.6, pp. 2453-2483.
Cattaneo, M. D. and R. Titiunik (2021). "Regression Discontinuity Designs" , p. 48.
Fan, J., I. Gijbels, T. Hu, et al. (1996). "A Study of Variable Bandwidth Selection for Local Polynomial Regression". In: Statistica Sinica, pp. 113-127.
Hausman, C. and D. S. Rapson (2018). "Regression Discontinuity in Time: Considerations for Empirical Applications". In: Annual Review of Resource Economics 10.1, pp. 533-552. DOI: 10.1146/annurev-resource-121517-033306.
Imbens, G. and K. Kalyanaraman (2012). "Optimal Bandwidth Choice for the Regression Discontinuity Estimator". In: The Review of economic studies 79.3, pp. 933-959.
Ludwig, J. and D. L. Miller (2007). "Does Head Start Improve Children's Life Chances? Evidence from a Regression Discontinuity Design". In: The Quarterly journal of economics 122.1, pp. 159-208.
Manacorda, M., E. Miguel, and A. Vigorito (2011). "Government Transfers and Political Support". In: American Economic Journal: Applied Economics 3.3, pp. 1-28.
Robinson, P. M. (1988). "Root-N-consistent Semiparametric Regression". In: Econometrica: Journal of the Econometric Society, pp. 931-954.
Thistlethwaite, D. L. and D. T. Campbell (1960). "Regression-Discontinuity Analysis: An Alternative to the Ex Post Facto Experiment." In: Journal of Educational psychology 51.6, p. 309.
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |