西西河

主题:【原创】经济学的经验研究方法 -- Dracula

共:💬86 🌺446
全看分页树展 · 主题 跟帖
家园 【原创】Regression Discontinuity

Regression Discontinuity这个方法是在1960年被统计学家Thistlethwaite和Campbell发明的。到90年代末才开始被经济学家广泛使用。现在已经是reduced-form那一派工具箱里最常用的方法之一。

经济学里比较早使用Regression Discontinuity的是Wilbert Van der Klaauw 2002年International Economic Review的文章。凭直觉,如果大学(比如纽约大学)给予新生奖学金,这个新生选择纽约大学的可能性会大大增加。但是现实中,成绩好,能力高的学生更有可能获得纽约大学的奖学金,但是这样的学生也更可能获得其它大学比如康奈尔大学的奖学金,因此简单的回归分析可能会显示获得奖学金同学校选择无关,存在endogeneity的问题。解决这个问题理想方法是我们随机选择一批学生给予奖学金,然后观测他们的学校选择,可惜经济学家申请不下这么多研究经费。Van der Klaauw注意到纽约大学发出奖学金有个公式,加权计算学生的各项特征比如GPA,SAT,父母收入等等。如果按照这个公式计算出的分数大于320分,学生会获得奖学金,319分的就得不到。对于得分319分和320分的学生来说,他们各方面的平均特征应该是近乎相同的,因此只要其他大学不是使用同纽约大学完全相同的公式,这些学生被其他大学录取或获得奖学金的可能性也应该近乎相同。因此比较这两组学生的选择来得到奖学金对学生选择的影响,就解决了endogeneity的问题。换一个角度来说,学生的考试成绩比如SAT并不是完全是由学生的能力决定,是有噪音的,其他因素也类似,因此每个学生按照公式计算出来的分数也是有噪音的。319分和320分的学生各方面非常相似,320分的学生获得奖学金,主要可以看作是噪音的影响。因此这些噪音可以看作是自然在作的randomized experiment,将特征非常类似的人分为treatment组和control组。因此我们比较这两组的结果不同,就可以得到奖学金对学生选择的影响。Van der Klaauw的结果是奖学金增加10%,学生选择纽约大学的可能性增加8.6%。

就解决endogeneity的问题来说,我觉得regression discontinuity要比diff-in-diff和instrumental variable更有说服力,但是它也有一些局限性。就上面这个例子来说,这个研究的结果测量的其实是奖学金对320分左右学生学校选择的影响。这个结果对其他学生选择的适用度不是很明确。

再举两个例子。

Sandra Black研究的问题是一个好的公立学校对家长有多重要。换成经济学的术语来说是是hedonics,相对于一个差的公立学校来说,一个好的公立学校给家长增加的效用可以折算成多少钱。她的方法是利用地理上的discontinuity。假设有两个邻近的校区,一个校区的公立学校质量高,另一个质量低。那么在校区边界的非常类似的两座房子(同样的房间数,类似的面积等等),一座在校区A,一个在校区B,它们其他的环境因素应该也非常相似,比如犯罪率,买东西的方便程度等等。因此它们的主要差异就在于它们处于不同的校区,由此导致这两所房屋价格的不同。因此比较两座房子价格的差异,就可以给出好的公立学校给家长效用增加的金钱换算。Black使用马萨诸塞州的数据,结果是小学成绩增加5%,所在校区的房屋价格增加2.1%,在1999年的时候大致是4000美元。

Sandra Black的方法确实是非常巧妙,但是如果我们仔细考虑,她的方法有个隐含假设,就是说校区界线的划定完全是随机的。为了解决可能的边界endogeneity问题,如果校区边界是公园,高尔夫球场,河流等等,她就不使用这些数据。但是如果加上这些数据就得不到她的结果,为什么只删除这些数据,其他有可能导致边界endogeneous的数据为什么不擅出呢?因此有人觉得她的结果有data mining的嫌疑。

前面我已经解释了,简单的回归研究班级人数和学生成绩之间的关系有endogeneity的问题。一种解决办法是randomized experiment。1985年美国田纳西州花费1千2百万美元将7000名从幼儿园到小学3年级的学生随机分配到15个人或24个人的班级里,比较他们的成绩。实验结论是小班确实能够提高学生成绩。另一种解决方法就是regression discountinuity。Joshua Angrist和Victor Lavy注意到以色列小学的班级人数使用Maimonides’ Rule。如果学校一个年级的人数少于40人,那么就只有一个班,由一个老师来教。如果超过40人比如是41人,就分为两个班,每个班20或21 人。因此如果我们假设每年注册的学生数量是随机的话,在40,41 这个范围左右,班级人数的确定基本上也是随机的。这就像是自然在做的randomized experiment。如果我们比较年级40和41人学生的成绩,就可以得出班级人数对成绩的影响。他们的结果是班级人数减少10人,全班平均成绩增加0.75分(百分制)。

Angrist和Lavy的方法非常巧妙,但是它有一个隐含假设,就是39人40人的班级学生的家长不会选择转学到小班级的学校,比如私立学校。如果是这样的话,我们现实中观测到的39人,40人班级学生的家长对孩子教育不是太关心,或者财力不够。这样的话,40人和41人的学校的学生会有很大的不同。我们有新的endogeneity的问题,这个design和真正的randomized experiment还有差异。Miguel Urquiola AND Eric Verhoogen使用智利的数据发现有钱人倾向于把孩子送到班级小的学校。因此Angrist和Lavy的结果很可能高估了班级人数对学生成绩的影响。

元宝推荐:老马丁, 通宝推:响马,万里风中虎,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河