查看原文
其他

糟糕! 回归系数的符号怎么跟我想的相反呢?有没有解决思路呢?

计量经济圈 计量经济圈 2023-10-03

凡是搞计量经济的,都关注这个号了

邮箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

下面将分享一些关于‘回归系数的符号与预期相反’可能导致的因素以及解决途径。许多时候,基于理论或常识,我们推断自变量应该对因变量产生正向影响,但数据却得出了相反的结论——即自变量x对因变量y的影响是负向的。

在这种情况下,我们可能会感到困惑、甚至有些不知所措。有时候,我们可能会感到如坐针毡,甚至有些昏眩,感觉‘太难了,真的太难了’。
接下来,综合计量社群群友讨论,我们将从多个角度阐述在遇到回归系数与预期相反时,应该考虑的可能原因以及解决方法。
一、错误的经济理论逻辑
例1. 不恰当的替代品。比如有研究发现,在控制了巴西咖啡的价格后,斯里兰卡茶叶的价格竟然正面导致了对其的需求,这可是与咱们的预期是相反的。原来,这里的替代品不应该是巴西咖啡,而应该是印度茶叶,所以我们应该控制的是印度茶叶的价格。
例2. 真实的与名义的傻傻分不清楚。比如有研究发现,在消费方程的估计中发现利率的符号是正的,即,利率越高人们的消费得反而越多,这可是与咱们的预期是相反的。原来这些研究中压根不区分名义利率与实际利率,所以真实与名义变量的转换需要时刻牢记在心。
例3. 定义学习。在经济教育的早期研究中,研究人员通过用测试前的分数对“学习”进行了回归,其中,学习是通过测试后和预测前的分数之间的差异衡量的,得到的测试前的分数(作为学生能力的衡量标准)的系数竟然是负的。面对这种与咱们预期相反的结果,Becker和Salemi(1977)对此错误符号进行了解释。
还有很多其他类似的因为错误的经济理论逻辑而造成回归系数的符号与预期相反的情形。
二、数据问题
出现错误符号可能也与各种数据问题有关。比如,不好的数据不适当的数据定义测量误差影响点、异常点、杠杆点不好的工具变量变量的测量弄反了(本来应该是1-5,但是把5测量成了1,而把1测量成了5)。
例1. 不好的数据。选取的数据最好具有代表性、权威性,因此在实证研究中能够把你数据的优势细致地刻画出来是多么的重要。
例2.1. 不适当的数据定义。使用的面板或时间序列数据最好具有连贯性,不能隔几天就把数据或变量的定义改变了,那会让研究的口径缺乏一致性从而导致错误的结论。
例2.2. 不适当的数据定义。这个就是需要具体看每个变量的定义,比如,在不同的统计机构对"中等收入国家"有不同的定义。因此,在做实证研究的过程中,变量描述显得是多么的重要。
例3. 测量误差。这个比较常见,解决方法是,可以用各种类似的变量多做几个回归,然后看其稳健性如何。测量误差消除, 直接和间接效应计算, 多数据和指标使用的方法
例4. 影响点。有些个体在你的样本中属于那种异常值、杠杆点,他们会导致你得到一个与你预期相反的的结果。因此,通过描述统计看看你的样本特点,并且用winsorize或trim或drop把这些异常值处理掉是很必要的。
例5. 不恰当的工具变量。比如,一个研究用美国居民对“与枪相关的杂志”的订阅量作为“该地居民拥有枪支的比例”的工具变量,来研究其对暴力犯罪事件的影响。在批评者看来,这就不是一个很好的工具变量,因为这实际上是个“弱工具变量”(具体,可以看相关文献)。
例6. 弱工具变量。弱工具变量的影响值得关注,具体可以看看 Zivot, Startz, and Nelson(1998)。
例7. 变量的测量弄反了(本来应该是1-5,但是把5测量成了1,而把1测量成了5)。既然是个相反刻度的变量,那回归出来的结果自然与原来变量的结果是刚好相反的。
三、经典的计量问题
此类别包括计量经济学教科书中所说的几种计量经济现象,这些现象可能会产生错误的符号:遗漏解释变量非平稳性问题回归系数的方差偏大选择性偏差不可识别性
例1.1. 遗漏解释变量。比如,Barro (1991) 用人均GDP的增长率对一个国家最起初的人均GDP做回归,得到了一个符号为正的系数,意味着咱们传统的“增长收敛”假说是正确的。可,当增加了一些相关解释变量后,起初的人均GDP的符号变成负号了,这意味着上面的结论是不成立的。可以看出遗漏解释变量可能导致解释变量出现相反的符号。
例1.2. 遗漏解释变量。关于女性吸烟是否会增加(降低)她20年后仍然活着的概率。
例2. 遗漏时间趋势。这个在时间序列数据中尤其常见,因此,最好加上year这些时间趋势变量。
例3. 自变量和因变量两者的协整阶数不一致,尤其是当自变量是时间趋势平稳变量(time trend stationary),此时,咱们最好在方程右边加上时间趋势项。
例4. 忽视非平稳性。例2和例3都可以当作是添加时间趋势项来让数据达到平稳性的情形,除此之外,课本上还说可以使用“一阶差分”来让有单位根的数据达到平稳性。
例5.1. 估计系数的方差偏大。当解释变量中的两个变量高度自相关,这会导致估计的系数出现偏大的方差,也会导致出现相反的回归系数符号。此时,我们建议使用的方法是用两者的比例作为解释变量。
例5.2. 估计系数的方差偏大。除了变量的自相关外,样本过少和自变量数据列中的差异过小也会导致所估计的系数的符号相反。
例6. 样本选择偏差。这个很明显,就是咱们所得到的样本不满足“非随机性”,有人为的因素在左右我们的样本结果。主要是通过Heckman两步法修正,或者在面板数据中使用固定效应或者“一阶差分”来控制不可观测因素。
例7.不可识别。傻傻不知道simultaneous equation所需要的rank条件,比如估计产品的需求和供给曲线的时候,我们就需要保证有一个外力因素影响供给(需求),这样就可以识别出需求和供给曲线了。
例8. 联立性偏误。对于上面那种联立性偏误,我们建议使用2sls进行解决,即找到一个工具变量来解决双向因果的问题。
四、错误解释
我们还需要看看符号不是错误解释实证结果所导致的。这种错误可能源于混淆其他条件保持不变的情况下对回归结果的解释解释参数化时的一些代数误差忽略相互作用项使用非线性近似替代不能把动态性分离出来
例1. 其他条件保持不便的情况下的混淆。比如,用房子的价值对房子面积、浴室数量、卧室数量和有没有客厅做回归,但发现了有没有客厅前的系数是负的。这意味着,有客厅反而降低了房子的价值,这与咱们的常识相当矛盾的。原来,在我们回归的时候,当解释有没有客厅的系数时,实际上是以房子的面积保持不变为前提的,但若有客厅此时浴室和卧室所能够使用的面积就必须要降低,那很可能会导致房子的价值下降的。
例2. 解释参数化时的一些代数错误。比如, 咱们实际上想用到的解释变量是男性的教育和男性与女性教育差异,那如果在实际回归中使用的是女性的教育和女性与男性教育的差异,那我们所得到的结果会怎么样?
例3. 忽视交互项。相当于做一个异质性分析,此时如果忽略交互项,那回归系数实际上就不能完整反映解释变量的影响。
例4. 方程形式的非线性近似表达。比如,房子的价格是房间数量、房间数量的平方的函数,得到的结果是房间数量的系数为负,但房间数量的平方的系数为正。这表明,在少于这个最优房间数量之前(即,在这个数量会让房价达到最高),房间数量增加会让房价下降。这种有点违犯常识的结果,在于数据里那种小居室的房子观测值比较少,从而房间数量的二次项在数据中就发挥着比一次项更重要的作用。
例5.1. 动态性疑惑。傻傻分不清楚到底是短期还是长期影响。如果在面板数据中,我们使用固定效应模型,那么就可能把那些长期因素剔除掉,从而只剩下一些短期因素。这时候,如果使用混合ols, between估计,随机效应估计,那就可以保留这些长期因素,从而让回归系数的符号与预期相符和。不过,在那种时间期数比较多的面板中,最好还是加入一些“滞后变量”,来更好地观测变量的动态变化。
例5.2. 动态性疑惑。如果用y对x和x的滞后项做回归,得到的x的滞后项的系数是负号,那实质上表明,x的长期影响要比它的短期影响要小(x的长期影响为x与x的滞后的和,而x的短期影响即为x)。

一些社群有趣讨论。


structural form和reduce form整个的研究逻辑都不太一样了,微观的structural 就没那么强调IV这类causal inference的,structural的人很多都默认自己的模型就是不存在endogeneity的,他们研究的卖点也主要是在于模型,而不是causality的严谨性判断。这种特点在搞empirical IO的那帮人身上比较显著。而咱们搞OLS的,卖点往往是causal inference。

另外,“我看很多文章是把把半参和非参作为参数估计后的稳健型检验” 可能还有另外一个原因。现在由于知识更加专业化,能够同时精通计量和其他领域的学者也越来越少了。例如搞labor的,可能一辈子专注于找IV,DID这些,实际上对于semi-parametric的了解并不多,所以当他们作为你的审稿人的时候,他们基本只会关注你的OLS部分,你搞Labor实证研究要过他们的审,用OLS就够了。另一部分审稿人,他们可能对于IV不精通,但是专注于搞计量,对于计量模型的各种假设、设定非常清楚也非常较真儿,你如果遇到他们审稿,却只用OLS,和可能被他们插得很惨。所以就会出现你说的这种现象,投labor杂志,审稿人大概率是专注搞labor的,但是保不准来一个搞计量的,所以就是OLS为主,semi-parametric作为robustness check。

参数和半参数主要是解决模型函数形式误设的问题 但是也不是解决内生性。

对,我指的是非参和半参加上IV这类~

是的,根据审稿人来做出的应变,也是一种学习路径。内生性是个无底洞,现在趋势是外生冲击去解决或者实验控制,已经看到越来越大比例top文章是这个。

关于计量方法类书籍,参看:1.一些比较常见的因果推断书籍25本汇总, 很多可以直接下载PDF,2.推荐一本专攻处理效应分析的书籍, 包括主流政策评估计量方法,3.年龄-时期-队列分析及其实现过程和经典书籍, 附code和数据!4.推荐使用Python语言做因果推断前沿方法的书籍,5.使用Stata做时间序列分析书籍, 包括模型讲解以及Stata示例操作,6.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法,7.社会经济政策的评估计量经济学, 提供书籍和数据和程序文件,8.全面且前沿的因果推断课程, 提供视频, 课件, 书籍和经典文献,9.从网页上直接复制代码的因果推断书籍出现了, 学会主流方法成效极快,10.推荐书籍"用R软件做应用因果分析", 有需要的学者可以自行下载!11.哪本因果推断书籍最好?我们给你整理好了这个书单!12.“不一样”的因果推断书籍, 很多观点让我们能恍然大悟, 涵盖了不少其他书里没有的因果推断方法!13.搞懂因果推断中内生性问题解决方法必读的书籍和文献已搜集好!14.一位“诗人”教授写了本因果推断书籍, 现在可以直接下载PDF参看!15.使用R软件学习计量经济学方法三本书籍推荐,16.数据缺失方法处理大全, 经典书籍助你修复数据,17.中介和调节效应操作指南, 经典书籍和PPT珍藏版,18.用R语言做Econometrics的书籍推荐, 值得拥有的经典,19.史上最全的因果识别经典前沿书籍, 仅此一份,20.重磅好书"环境能源计量经济学(附代码)", 该领域主流, 时髦和前沿的计量方法,21.Acemoglu又出版了两本经济学教课书!22.Stata17MP版最新使用指南全书, 包括DSGE, Lasso回归, ERM, 贝叶斯分析等,23.全新因果推断方法新书, 配套R, Stata和Python的代码, 还包括教授视频和PPT素材!24.学习计量, 统计和各种软件的必备书单,25.机器学习第一书, 数据挖掘, 推理和预测,26.计量回归中的交互项到底什么鬼? 捎一本书给你,27.荐书,计量经济学宝典,28.送书: 应用时间序列分析(经典),29.计量经济学教科书,多门类多级别的一个都不能少,30.50本经济学书单,入门到精通分门别类,31.从入门到进阶的Python数据分析手册, 课程内容完全免费!32.2卷RDD断点回归使用手册, 含Stata和R软件操作流程,33.社会网络分析最新文献和软件学习手册,34.环境, 能源和资源经济学手册推荐, 经典著作需要反复咀嚼,35.各领域经济学手册全在这里, 不学手册只能做重复研究,36.史上最全博士论文撰写指导手册Handbook

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

5年,计量经济圈近1500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存