查看原文
其他

为啥我看到面板数据中可以估计出性别, 民族虚拟变量? 还是国内权威期刊

计量圈社群 计量经济圈 2023-08-12

凡是搞计量经济的,都关注这个号了
邮件:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
社群群友文询问:在做面板数据时,控制性别、户籍、民族等虚拟变量,是不是都omit掉了,为什么有些国内paper可以控制?

*下方内容主要出自@计量圈社群,欢迎大家就此一起讨论。

针对这一问题,计量社群里展开了一系列热火朝天的讨论,由于内容过多就不一一张贴讨论截图了。多数群友认为,这是在估计面板数据固定效应模型的方法选择上导致的初级但让人疑惑的错误,即作者在固定效应模型方法(组内去均值)、LSDV和一阶差分方法的选择上出现了问题。

更多讨论,请到社群交流讨论,下面主要陈述一下社群群友讨论的主要要点。下方数据和代码也已上传计量社群,群友可以直接下载。

假设我们有一份面板数据,其中有一个民族虚拟变量(ethnicity=1,如果是汉族,反之ethnicity=0,如果是其他少数民族),同一个体在不同年份的民族虚拟变量取值都是一样的,即一个人在1999年是汉族,那他在2022年还是汉族。

现在,我们先用所谓的最小二乘虚拟变量方法(LSDV,reg y x control ethnicity i.year i.id)进行估计,结果如下。其中,列(1)没有加入民族虚拟变量,列(2)加入了民族虚拟变量。对比发现,列(2)中的民族虚拟变量存在估计系数,但是个体100(100.id)的系数却被omit掉了,而且民族变量的估计系数刚好等于列(1)个体100(100.id)的系数的相反数。

社群群友说:“这就是为什么在有些权威期刊上还能看到,面板数据中不随时间变化的虚拟变量被正常估计出的原因。此时,为了估计出民族、性别虚拟变量的结果,最后一个id的系数被强制omit掉了,而且估计出的虚拟变量的系数其实正是最后一个id的系数的相反数,而非真正的估计结果。”

其次,我们尝试用xtreg(xtreg y x control ethnicity i.year, fe)进行估计,结果如下。其中,列(1)没有加入民族虚拟变量,列(2)加入了民族虚拟变量。对比发现,列(2)中的民族虚拟变量被omit掉了,即用xtreg估计不出来民族虚拟变量。

最后,我们尝试用reghdfe(reghdfe y x control ethnicity, abs(id year))进行估计,结果如下。从中可知,与xtreg估计一样,民族虚拟变量被omit掉了,即用reghdfe也估计不出来民族虚拟变量。

下面是reg、xtreg和reghdfe三种程序估计结果的对比表。很明显,在三种程序中核心解释变量和随时间变化的控制变量的估计结果都一致,但是不随时间变化的民族、性别虚拟变量却不相同。在reg中看似能够估计出这些变量的结果,但这却是以omit掉个体100的估计系数为代价,并且估计值也只是个体100的系数的相反数,而在xtreg和reghdfe中上述虚拟变量都被omit掉了。勿用LSDV估计这些虚拟变量,是错误的。

*数据和代码也已上传计量社群,群友可以直接下载。


一些社群学术讨论:1.“显著不显著的后背是什么, 非(半)参估计里解决内生性”,2.“计量社群里关于使用交互项还是中介效应分析开展机制研究的讨论”,3.“为啥面板数据回归中, 即使X对Y的解释程度很大, 但R-square一般都很小?”,4.多期DID中使用双向固定效应可能有问题! 又如何做平行趋势检验? 多期DID方法的最新进展如何?,5.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?6.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗?7.回归中常数项显著说明模型中有遗漏变量问题?8.审稿人有义务告诉你回归中可能的遗漏变量么?9.针对很多实证问题的讨论, 随手保存的部分内容以飨学者,10.未引入交互项主效应为正, 引入后变为负, 解释出来的故事特别好, 主效应符号确实增强了故事性,11.双向固定效应多期DID最新进展和代码汇总, 关于控制变量和固定效应选取的讨论,12.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器,13.多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等,14.针对经济学领域中介效应模型问题的回应和理性讨论,15.讨论a(b)对b(a)的新方向论文, 经济学期刊分区问题, 3个机制存在时计量模型设计问题,16.如果解决了内生性, 那么是否意味着证实了变量之间的因果关系呢?17.解释变量提升一个标准差,被解释变量提升几个百分比呢?18.关于DID中对照组与处理组的比例问题?19.双重差分法和事件研究法的区别主要在哪里?20.双重差分法和事件研究法的区别主要在哪里?21.统计上不显著的变量表明该变量对结果变量没有影响吗?22.IV与Y在理论上无直接关系, 但用Y对IV做回归发现IV是显著的, 这是咋回事?23.Heckman模型和工具变量IV之间的差异?24.被质疑: X与Y相关系数与回归系数截然相反, 你咋想的?25.审稿人质问: 通篇都基于OLS估计, 却把它放到稳健性检验或进一步讨论中!26.异质性和机制检验都用交互项做会被审稿人质疑么? 27.所有控制变量都不显著行不行呢?审稿人啥看法,28.审稿人: 实证论文必须先提出假说, 再依次进行实证检验么?

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

5年,计量经济圈近1500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存