近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：【原创】经济学的经验研究方法 -- Dracula

共:💬86 🌺446

老大河待整

【原创】Regression Discontinuity

Regression Discontinuity这个方法是在1960年被统计学家Thistlethwaite和Campbell发明的。到90年代末才开始被经济学家广泛使用。现在已经是reduced-form那一派工具箱里最常用的方法之一。

经济学里比较早使用Regression Discontinuity的是Wilbert Van der Klaauw 2002年International Economic Review的文章。凭直觉，如果大学（比如纽约大学）给予新生奖学金，这个新生选择纽约大学的可能性会大大增加。但是现实中，成绩好，能力高的学生更有可能获得纽约大学的奖学金，但是这样的学生也更可能获得其它大学比如康奈尔大学的奖学金，因此简单的回归分析可能会显示获得奖学金同学校选择无关，存在endogeneity的问题。解决这个问题理想方法是我们随机选择一批学生给予奖学金，然后观测他们的学校选择，可惜经济学家申请不下这么多研究经费。Van der Klaauw注意到纽约大学发出奖学金有个公式，加权计算学生的各项特征比如GPA，SAT，父母收入等等。如果按照这个公式计算出的分数大于320分，学生会获得奖学金，319分的就得不到。对于得分319分和320分的学生来说，他们各方面的平均特征应该是近乎相同的，因此只要其他大学不是使用同纽约大学完全相同的公式，这些学生被其他大学录取或获得奖学金的可能性也应该近乎相同。因此比较这两组学生的选择来得到奖学金对学生选择的影响，就解决了endogeneity的问题。换一个角度来说，学生的考试成绩比如SAT并不是完全是由学生的能力决定，是有噪音的，其他因素也类似，因此每个学生按照公式计算出来的分数也是有噪音的。319分和320分的学生各方面非常相似，320分的学生获得奖学金，主要可以看作是噪音的影响。因此这些噪音可以看作是自然在作的randomized experiment，将特征非常类似的人分为treatment组和control组。因此我们比较这两组的结果不同，就可以得到奖学金对学生选择的影响。Van der Klaauw的结果是奖学金增加10%，学生选择纽约大学的可能性增加8.6%。

就解决endogeneity的问题来说，我觉得regression discontinuity要比diff-in-diff和instrumental variable更有说服力，但是它也有一些局限性。就上面这个例子来说，这个研究的结果测量的其实是奖学金对320分左右学生学校选择的影响。这个结果对其他学生选择的适用度不是很明确。

再举两个例子。

Sandra Black研究的问题是一个好的公立学校对家长有多重要。换成经济学的术语来说是是hedonics，相对于一个差的公立学校来说，一个好的公立学校给家长增加的效用可以折算成多少钱。她的方法是利用地理上的discontinuity。假设有两个邻近的校区，一个校区的公立学校质量高，另一个质量低。那么在校区边界的非常类似的两座房子（同样的房间数，类似的面积等等），一座在校区A，一个在校区B，它们其他的环境因素应该也非常相似，比如犯罪率，买东西的方便程度等等。因此它们的主要差异就在于它们处于不同的校区，由此导致这两所房屋价格的不同。因此比较两座房子价格的差异，就可以给出好的公立学校给家长效用增加的金钱换算。Black使用马萨诸塞州的数据，结果是小学成绩增加5%，所在校区的房屋价格增加2.1%，在1999年的时候大致是4000美元。

Sandra Black的方法确实是非常巧妙，但是如果我们仔细考虑，她的方法有个隐含假设，就是说校区界线的划定完全是随机的。为了解决可能的边界endogeneity问题，如果校区边界是公园，高尔夫球场，河流等等，她就不使用这些数据。但是如果加上这些数据就得不到她的结果，为什么只删除这些数据，其他有可能导致边界endogeneous的数据为什么不擅出呢？因此有人觉得她的结果有data mining的嫌疑。

前面我已经解释了，简单的回归研究班级人数和学生成绩之间的关系有endogeneity的问题。一种解决办法是randomized experiment。1985年美国田纳西州花费1千2百万美元将7000名从幼儿园到小学3年级的学生随机分配到15个人或24个人的班级里，比较他们的成绩。实验结论是小班确实能够提高学生成绩。另一种解决方法就是regression discountinuity。Joshua Angrist和Victor Lavy注意到以色列小学的班级人数使用Maimonides’ Rule。如果学校一个年级的人数少于40人，那么就只有一个班，由一个老师来教。如果超过40人比如是41人，就分为两个班，每个班20或21 人。因此如果我们假设每年注册的学生数量是随机的话，在40，41 这个范围左右，班级人数的确定基本上也是随机的。这就像是自然在做的randomized experiment。如果我们比较年级40和41人学生的成绩，就可以得出班级人数对成绩的影响。他们的结果是班级人数减少10人，全班平均成绩增加0.75分（百分制）。

Angrist和Lavy的方法非常巧妙,但是它有一个隐含假设，就是39人40人的班级学生的家长不会选择转学到小班级的学校，比如私立学校。如果是这样的话，我们现实中观测到的39人，40人班级学生的家长对孩子教育不是太关心，或者财力不够。这样的话，40人和41人的学校的学生会有很大的不同。我们有新的endogeneity的问题，这个design和真正的randomized experiment还有差异。Miguel Urquiola AND Eric Verhoogen使用智利的数据发现有钱人倾向于把孩子送到班级小的学校。因此Angrist和Lavy的结果很可能高估了班级人数对学生成绩的影响。

元宝推荐：老马丁, 通宝推：响马,万里风中虎,

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂为什么两派的名字为苏城字74 2010-11-05 12:16:36
    🙂我也不是很清楚 1 Dracula 字133 2010-11-05 13:11:47
    🙂exactly. 静默各自想拳经字418 2010-11-06 11:38:43
  - 🙂【原创】Regression Discontinuity
    🙂关于公立学校价值的一个观察实例自以为是字80 2010-11-06 21:08:41
    🙂大学ranking方面有相关研究吗？苏城字40 2010-11-05 10:32:10
    🙂这方面研究的开创者是Sherwin Rosen 4 Dracula 字1094 2010-11-05 11:27:10
    🙂谢谢对hedonic的解释苏城字268 2010-11-05 12:05:20

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明