查看原文
其他

粗化精确匹配CEM文献推荐, 程序步骤可复制

因果推断研究小组 计量经济圈 2021-10-23


凡是搞计量经济的,都关注这个号了

箱:econometrics666@sina.cn

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

前些日,咱们引荐了IV和Matching老矣, “弹性联合似然法”成新趋势,里面较为系统地介绍了相关因果推断方法。
1.广义PSM,连续政策变量因果识别的不二利器
2.PSM倾向匹配Stata操作详细步骤和代码
3.看完顶级期刊文章后, 整理了内生性处理小册子
4.处理效应模型选择标准,NNM和PSM
5.因果推断中的匹配方法:最全回顾和前景展望
6.内生性和倾向得分匹配, 献给准自然试验的厚礼
7.倾向值匹配与因果推论,史上最全面精妙的锦囊
8.匹配还是不匹配?这真是个值得考虑的问题
9.匹配方法(matching)操作指南, 值得收藏的16篇文章

10.倾向匹配分析深度(Propsensity matching)

前些年,咱们引荐了“无需检查协变量平衡性的CEM匹配, 到底有多神气和与众不同”,受到学者广泛欢迎和讨论。那篇文章里包括详细的操作程序、步骤和数据,各位学者可以自行查看、下载和使用。


今天,咱们引荐一篇使用CEM进行非参数估计的文献。


作者使用2013-2014年中国教育调查小组(CEPS)的数据。由中国人民大学国家调查研究中心进行,CEPS是一项正在进行的以学校为基础的全国代表性纵向调查。采用分层、多阶段整群抽样的方法,从中国省20个省的112所学校随机抽取约20000名学生(第七年级10279人,第九年级9208人)。ceps分别对7年级和9年级的学生进行了认知测试,以测量他们的认知发展。这项测试包括七年级20项,九年级22项,来自初中生认知能力测试,其本身来源于台湾教育团体调查(Yang et_al)的无课程分析能力测试。2003年)。对于7年级和9年级的学生来说,认知测试旨在评估他们的语言(例如,语言推理、短语类比)、视觉(例如,图形模式分析、折纸和几何应用)和数学(例如,数学单词问题、自定义计算规则、抽象模式分析和概率)能力。


测量学生整体认知能力的主要结果变量是使用三参数(3pl)IRT模型从认知测试项目中生成的(de Ayala 2013)。irt是心理测量学领域的一项重要创新。它被广泛应用于测验、问卷和类似工具的设计、分析和评分,这些工具可以测量潜在的理论结构,如能力、态度、技能。为了作者的目的,使用三参数IRT模型对学生的认知能力进行评分的主要优势在于,该评分考虑了不同测试项目可能具有不同程度的辨别力和难度,以及一些学生可能比其他学生更擅长伪猜正确答案的可能性。此外,irt分数是独立于测试的,这意味着即使作者对7年级和9年级的学生进行了不同的测试项目,作者仍然可以将这两个样本集合在一起进行分析。IRT得分为无标度,近似正态分布为零均值。更多IRT程序的技术细节见Wang和Li(2015)。


处理变量,被调查者是否独生子女。作者的分析还利用了学校年级(即7年级与9年级)、性别、种族(汉族与少数民族)、出生时的户籍(城市与农村)、移民史(即学生是否离开出生地)、母亲教育、父亲教育、母亲职业和父亲职业。作者还考虑了被调查者的地理位置,主要是他们居住的省和县。


作者使用粗化精确匹配CEM(Iacus et al.2011a,b),这实际上是一个精确匹配加上一个预处理步骤,临时减少维度以增加匹配的数量,作为作者的主要分析工具。与倾向评分或其他形式的近似匹配不同,CEM通过研究者的事前选择限定处理组和对照组之间的最大不平衡程度。这个决策可以是数据驱动的、理论驱动的,也可以是由实质性知识指导的。在用于匹配的9个变量中,有5个变量(包括学校年级、性别、种族、出生时的户口和移民)完全匹配,没有粗化,而母亲和父亲的教育和职业在包含匹配之前粗化。

 

作者利用CEM方法提供的灵活性,并在四个步骤中进行了作者的分析。在分析的第一步中,作者主要关注的是评估处理组的独生子女(att)对认知发展的平均处理效果。为此,作者把有兄弟姐妹的孩子作为一组,并将他们与独生子女配对。在分析的第二步,作者有兴趣测试独生子女对认知发展的潜在出生顺序差异。为了做到这一点,作者将有兄弟姐妹的孩子分成两组:有弟弟妹妹的第一胎孩子和有哥哥姐姐的非第一胎孩子,分别与独生子女配对。同样,在分析的第三步,作者有兴趣测试独生子女的性别差异对认知发展的影响。作者听从了Hoet al. (2007)的建议首先进行非参数匹配,然后使用匹配的样本进行进一步的参数回归分析。这种方法结合了非参数匹配的能力和回归的灵活性,提供了一种测试异质性处理效果的简单方法。在分析的最后一步,作者将第二和第三步整合到一组模型中,同时测试独生子女的出生顺序和性别差异对认知发展的影响。作者进行了类似的分析,重点是出生顺序和出生时的户口状况(即农村与城市)。


在所有这些分析中,作者或多或少遵循了相同的模型构建策略。在每个步骤中,作者都从只匹配表1中列出的9个变量的模型开始。然后在第二个模型中,作者进一步将省id作为一个额外的匹配变量(不进行粗化)。通过限制匹配案例来自同一个省份,可以控制未测量的省份特征,提高匹配质量。在第三次cem分析中,作者进一步推进了这一思想,并通过将省id替换为县id作为额外的匹配变量,将匹配的案例限制为同一个县(县内模型)。在匹配模型中使用更精细的地理单元以降低统计能力为代价来改善匹配样本的平衡。作者通常倾向于县内结果,而不是全国样本结果和省内结果,尽管比较不同的模型以确定潜在的趋势总是一个好主意。


独生子女与非独生子女两组样本的比较。

独生子女与非独生子女认知能力比较。

出生顺序差异:非独生子女中老大与独生子女比较

出生顺序差异:非独生子女中弟弟妹妹与独生子女比较

性别差异,做了一个交互项。

长按以上二维码可查看全文

推荐阅读:
1.实证研究中用到的135篇文章, 社科学者常用toolkit
2.1998-2016年中国地级市年均PM2.5数据release
3.计量经济圈经济社会等数据库合集, 社科研究大米

咱们圈子引荐了很多经典文献,也对里面的方法有或简或繁地讨论。下面是一些代表性文献,若想了解更多,各位学者可以搜索公众号。

1.DID运用经典文献,强制性许可:来自对敌贸易法的证据
2.连续DID经典文献, 土豆成就了旧世界的文明
3.截面数据DID讲述, 截面做双重差分政策评估的范式
4.RDD经典文献, RDD模型有效性稳健性检验
5.事件研究法用于DID的经典文献"环境规制"论文数据和程序
6.广义DID方法运用得非常经典的JHE文献
7.DID的经典文献"强制许可"论文数据和do程序
8.传销活动对经济发展影响, AER上截面数据分析经典文
9.多期DID的经典文献big bad banks数据和do文件
10.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?
11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章
12.第二篇因果推断经典,工作中断对工人随后生产效率的影响?
13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文
14.AER上以DID, DDD为识别策略的劳动和健康经济学

15.一个使用截面数据的政策评估方法, 也可以发AER

拓展性阅读:

1.双重差分DID的种类细分, 不得不看的20篇文章
2.内生性问题操作指南, 广为流传的22篇文章
3.匹配方法(matching)操作指南, 值得收藏的16篇文章
4.空间计量百科全书式的使用指南, 只此一份掌握此独门秘籍
5.面板数据模型操作指南, 不得不看的16篇文章
6.社会网络分析最新文献和软件学习手册
7.中国工业企业数据库的使用问题说明
8.JEEM环境与资源经济学最新研究趋势和热点话题
9.经济学领域英文期刊的审稿情况统计, 审稿周期次数
10.中文C刊的审稿信息全统计, 审稿周期次数, 赶快下载

11.高效使用Stata的115页Tips, PDF版本可打印使用

1.安神+克拉克奖得主的RDD论文, 断点回归设计

2.政策评估里的断点回归设计是什么, 如何做?

3.2卷RDD断点回归使用手册, 含Stata和R软件操作流程

4.断点回归设计RDD全面讲解, 教育领域用者众多

5.没有工具变量、断点和随机冲击,也可以推断归因

6.RDD断点回归, 实证完整程序百科全书式的宝典

7.断点回归设计RDD分类与操作案例

8.DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征

9.RDD经典文献, RDD模型有效性稳健性检验

10.在教育领域使用IV, RDD, DID, PSM多吗?

11.RDD slides资料公开分享

12.断点回归设计的前沿研究现状, RDD

13.PSM-DID, DID, RDD, Stata程序百科全书式的宝典

14.找不到IV, RD和DID该怎么办? 这有一种备选方法

其他名家专栏文章,建议全部阅读

1.陆铭教授给搞实证研究学者的经验建议
2.陆铭教授以审稿人的身份谈论文写作和审稿
3.陆铭把实证研究进行到底,献给学术路上的人

4.必须反对实证主义--评陆铭《如何把实证研究进行到底》

5.姚洋为什么你不能发《经济研究》?
6.姚洋经济学是科学吗?季刊主编如是说
7.《经济学季刊》主编姚洋:如何写出一篇高质量的论文

8.陈强: 计量经济学实证论文写作全解析

9.洪永淼教授, 可以为计量经济学代言

10.陆蓉计量工具让经济学科学化了吗

11.徐淑英:商学院教授们, 别躲在象牙塔里

12.于晓华计量经济模型进行实证分析的正确打开方式

13.方汉明美国经济学教育体系和对中国的启示

14.马光荣经济学实证研究中的误区,全部是经验
15.吴喜之计量经济学中的7大误区, 你踩雷了吗?

16.首发, 邹恒甫教授对年轻学者四句学术箴言, 句句扎心

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2年,计量经济圈公众号近1000篇文章,

Econometrics Circle

数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 |

计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 

数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |


干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |

计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存