查看原文
其他

交互项有什么用?为啥要做异质性分析?

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

Author:陆铭,上海交通大学安泰经济与管理学院特聘教授、博士生导师、中国发展研究院执行院长。

背景知识:0.教授给搞实证研究学者的经验建议,1.现实·理论·证据──谈如何做研究和写论文,2.教授以审稿人的身份谈论文写作和审稿,3.把实证研究进行到底,献给学术路上的人,4.评《如何把实证研究进行到底》,5.为什么你不能发《经济研究》?,6.经济学是科学吗?季刊主编如是说,7.如何写出一篇高质量的论文,8.计量经济学实证论文写作全解析

正文


1.交互项有什么用?看差异的差异
很多时候我们在讨论一些具体的现实问题的时候,就涉及到解释变量对被解释变量的影响是如何相互依赖的。我来举几个例子,比如说在城市发展当中,很多人都认为当城市长大了,特别是那些比较大的产业结构比较高端的城市,只需要高技能劳动者,而不需要低技能劳动者。那么高技能劳动者和低技能劳动者之间的关系到底是怎样的?从经济理论角度来讲,有一种说法叫“技能互补性”,也就是说,当高技能劳动力增加的时候就会带来很多对于低技能劳动者的需求,来进行生产上的辅助性的工作,这时候增加雇佣一些低技能劳动力,其实是可以提高高技能劳动力的劳动生产率的。这个时候高技能劳动力对于生产的影响,其实就取决于低技能者的数量。
同样的道理,我刚才所说的高技能劳动力和低技能劳动力之间的相互依赖关系,其实也存在于本地劳动力和外来劳动力之间。因为往往本地劳动力平均来讲它的教育水平比较高,而外来劳动力的平均教育水平要相对来说低一点,他们所从事的工作岗位也有非常大的差异。比如说在我们的城市生活当中,大量的环卫工人、送快递的、做早餐的,其实都是外来劳动力,这时候本地劳动力的生产力或者他们的生活质量也是取决于外来劳动力的数量,换句话说本地劳动力和外来劳动力之间,恐怕也是相互依赖的关系。
还有一个例子涉及到推迟退休年龄这样的问题,大家都知道中国现在出现了比较明显的老龄化的趋势,那么为了缓解养老金的压力,如果我们可以推迟退休年龄,这个时候就可以延长大家工作的时间,从而缓解劳动力供给不足和老龄化的问题。但是这个时候大家可能会担心一种问题,那就是推迟退休年龄是不是会导致老年人口仍然占着工作岗位,从而导致年轻人失业,对于这个问题本身又取决于,相对来说比较老年的人口和年轻的劳动力的关系,是相互替代的还是互补的。如果担心推迟退休年龄会导致失业,本质上来说,就是认为老年人和年轻人之间是相互替代的,你有工作了,我就没工作了。但其实可能还有另外一种可能性,那就是老年人和年轻人其实是互补的,一方面,老年人有经验,他们可以通过传帮带这样的做法,来提高年轻人的劳动生产率。反过来说,年轻劳动力如果从事一些辅助性的岗位,也有可能提高老年人的工作效率。那么他们到底是互相替代的还是互补的,本身就对于我们理解推迟退休年龄这样的公共政策会导致什么样的后果,具有非常重大的意义。
对于我刚刚讲的这些例子来说,在实证研究当中,都需要使用到交互项,也就是说在方程右边的解释变量里,可能我们需要把两个决定被解释变量的影响因素进行相乘,来看这样一个交互项或者交叉项的系数是正还是负。比如说在我刚刚所讲的几个例子里,如果高低技能劳动者,本地和外来劳动者,老年人和年轻人之间是互补的,那么它们之间的交互项对于产出的影响的系数,就应该是正的,如果是互替的,它们就应该是负的。
再比如说在我之前做的一个研究里,我研究了新城建设的问题,当时我发现,在中国大量建设了很多新城,而这些新城往往建得密度非常低,同时这些新城又建设在距离当地的老城非常远的地方。于是我们发现,如果一个地方新城建设的密度非常低,同时又建得非常远的话,那这个地方的投资效率就比较低,从而带来债务负债率比较高这样的现象。当时我就问了一个问题,如果一个新城建得离老城非常远,在这种情况下,同时如果这个新城建设的密度比较高一点,是不是可以缓解远距离对于债务这种负面的影响呢?于是我们在研究中也构造了一个密度和距离之间的交互项,这样我就可以回答是不是密度增加,可以有助于缓解距离远这样新城建设当中的负面影响,结果的确如此。
在上面这样一些例子当中,我都讲了一些关于交互项的实际运用的例子,但是我今天所想讲的另外一个意思可能更为重要,那就是交互项的巧妙运用,有的时候能够帮我们在没有很好的因果关系识别的方法的时候,能够帮我们靠近因果识别。
比如说在之前我举过一个例子,那就是户籍与消费之间的关系,我们当时想说的一个道理就是,在城市里居住但是却没有本地城镇户籍的外来劳动力,他会挣钱,但是相对来说消费就不会消费那么多。换句话说,外来人口这样一个户籍身份,会对消费不利,但是可能你会反问我,这种农村户籍或者说外来人口户籍,它到底是一个制度的影响还是一个文化的因素?也就是说是不是因为农村居民有某种特定的文化或者消费习惯,他进到城里来,他也不太习惯增加消费。
这个问题其实是合理的,当时为了回答这个问题,我们就想了这样一个逻辑,如果农村户籍的身份,真的只代表文化的话,那么我们应该看到,当这些人在城市里居住的时间越来越长的时候,那么农村户籍对于消费的负面影响应该会逐渐的变小,因为它有一个在城市里逐渐适应城市文化的这样一个过程。所以在做这个研究的时候,就可以在方程的右边放入农村户籍身份乘以在城市里居住时间这样一个因素,构成一个交叉项或者交互项,来看它的系数会怎样。
最后我再举一个例子,最近我和上海对外经贸大学的王丹利老师做了一个研究,我们想研究在中国农村教育有的时候水平比较低是由什么样的因素导致的?其实我们想讲,在有些地方可能具有这样一种传统文化,那就是当宗族的势力比较强的时候,这个地方很容易产生宗族之间的冲突,如果宗族冲突非常激烈的话,就需要进行一些武力的斗争,比如说我们会发现有一些现象叫做“械斗”。我们发现在一个地方械斗比较严重的话,这个地方就会产生武力的冲突,而大家就会少投资于教育,从而导致教育水平会比较偏低。
但这其中会有一个问题产生了,我们所看到的械斗这样一个现象,到底是不是真的代表了宗族的冲突,还是由于一些其他的因素所导致的,比如说是不是因为在械斗比较严重的地方,同时也是资源比较贫乏的地方呢。为了回答这样的问题我们想了很多办法,其中有一个办法是跟交互项的使用有关的,那就是在逻辑上,如果械斗的确代表的是一种宗族冲突,大家可以想,这种影响主要会影响男性,因为男性是参与械斗的主力,女性不大会参与械斗的。与此同时,这种影响估计主要会产生在农村地区,而对于城市地区来讲,恐怕就不大会通过械斗来进行宗族之间的冲突,从而影响教育。所以我们就可以把械斗发生的度量指标和是否在农村地区以及个体是男性还是女性这样的变量进行交乘,从而观察这些交互项的作用,来看它是不是真正的是因为宗族冲突的作用影响了教育。
其实我讲到这里,如果一些熟悉微观实证研究方法的听众朋友就已经反应过来了,其实在我们使用交互项的时候,其实本质上就是在看difference in difference,或者说差异的差异。比如说在刚才械斗这样一个例子里,我们就是想看械斗对于教育的影响是否在农村和城市之间存在差异,是否在男性和女性之间存在差异,这个本质上其实就是一个双差分的分析。
我要说的一个意思就是,交叉项可以帮助我们解释变量之间的相互依赖性,同时也可以近似的被认为是一个双差分的分析,来接近因果的识别。

2.为什么要去做异质性分析?不要相信有普适的政策
这节的话题是为什么要做异质性分析?我们先从一个具体的例子开始谈起,那就是开发区政策,大家都知道在中国经济改革开放以来,沿海地区,特别是东南沿海地区,获得了相对好的、比较快速度的发展,尤其是长三角和珠三角。
相对来讲在中国的中西部,制造业的发展、经济发展的速度总体上来讲不尽如人意,于是就有了这样一种理解,认为中国的东部沿海地区,特别是东南沿海地区,他们的经济发展是因为享受了一些优惠的政策,其中就包括了开发区政策。因为你如果回顾中国早期改革开放的历史的话就知道,中国的一些经济特区,比较大的经济技术开发区等等,都首先是从沿海地区,特别是东南沿海地区开始实施的。
既然是这样的话,是不是可以把同样的开发区政策,在广大的中西部进行实施,这样的话就可以促进中西部的发展呢,很多人就这样想的。可是如果要是你真的是这样相信的话,或者说像有一些有关开发区的研究所得到的结论那样,开发区的政策的确可以促进经济发展,甚至有的研究就直接认为开发区政策可以促进欠发达地区的经济发展,那么我们就要问一个问题了,如果你真的相信开发区政策是无条件的可以应用在所有的地方的话,那么为什么我们今天在中西部的广大地区可以看到这样的现象,那就是开发区遍地开花,——以工业园为例,现在几乎每一个县都有一个以上的工业园,——如果开发区政策、工业园政策真的是无条件有用的话,那为什么看到在中西部大量的开发区现在出现闲置呢?为什么企业不搬迁到中西部的这些开发区去,然后把开发区填满呢?
我们在之前的一项研究里就说了这样一个道理,其实开发区政策是否能够促进当地的发展,实际上是取决于一个地方的地理条件的。中国改革开放以来,特别是上世纪90年代中期以后,开始全面发展开放经济,以及出口导向的制造业,这个时候,沿海地区因为拥有大港口,在国际贸易里的国际贸易成本可以借助海运降到比较低的水平,于是又在这个基础上形成了产业的集聚效应。所以这个时候,如果你给一个当地经济发展的优惠政策,它就可以借助于集聚效应,能够更加有效的进行工业的发展。
而相反,在中国的广大中西部地区,它恰恰是远离沿海大港口的地区,运输成本比较高,同时因为当地的产业发展,没有形成集群,所以它的集聚效应也不够高。也就是说如果你把同样的开发区政策,放在远离大港口的地方,本身的产业规模又比较小,人口密度又不够高,甚至有一些中小城市,它本身就远离大的经济集聚的中心城市,交通基础设施条件也不够好,那么当你把经济的资源和政策集中在这些地方的时候,其实它就不会产生在沿海地区同样的促进经济发展的作用。换句话说,我们往往把一些政策想用来促进欠发达地区的发展,但是欠发达地区的一些地理条件、自然条件,往往又会局限这种政策的作用,这就是一个悖论。
也是因为同样的道理,在我的研究当中,还去考察了新城建设,中国现在很多地方都建有当地的新城,希望通过城市的扩张,新城的建设搞房地产开发、基础设施建设来推动当地的经济发展。其实类似像这样的政策是否能够成功也是有条件的,在我的研究当中我告诉大家,如果一个新城建设在人口流出地,那么人口在流出,城市的建设却在扩张,这个时候这样的投资就比较无效率,甚至有可能因为大量的新城建设,依赖于地方政府的负债,结果导致增加负债的负面效果。
而这样人口流出地又是在什么地方呢?往往又同时是在中国的中西部,特别是一些中西部的中小城市,最后给他带来了巨大的债务负担,又尤其是当当地做新城建设的时候,把新城建设的特别大,远远超过实际需求,还有建设的地方又远离当地所在的地级市的市中心的时候,这样的新城建设效率就更加低,推动经济发展的作用就更小,带来的债务负担就更大。
在我今天举的例子里面我都提醒大家,做经济分析,特别是实证的研究的时候,要注重做一些异质性的分析,也就是说政策的效果往往是取决于其他的条件的,而在现实生活当中我们往往发现,一些自上而下推进的政策往往都有一刀切的嫌疑,往往会忽略政策实施的有效性的条件。而地方政府在学习其他地方经验的时候,也往往会照搬其他地方的政策,也会忽略自己恐怕缺乏其他地方获得成功的条件。这些现实情况就提醒我们,在做政策的应用分析的时候,特别是要多做一点思考。
首先要做一些理论机制的分析和思考,来想一想是不是有可能在不同的样本里,不同的地区会产生同样政策效果的差异性。但是我这样说,也同时提醒大家,在做实证研究的时候,不要过于机械的分组,比如说你看现在有关区域经济的一些研究,都会对自己的样本进行沿海、内地或者东中西部的分组,可是你要进一步的问自己,在你的研究当中东中西到底代表了什么,到底它代表的是一个地理的条件、气候的条件,或者说它代表了到沿海大港口的距离,还是说它代表了人口流入还是人口流出,为什么会有这样的政策分析的差异性呢?这些问题不能不回答,不能只是简单的分分组结束了,否则你根本不知道自己这样的分组可以带来什么样的含义,以及为什么会这样。
同样,我还会提到另外一个我们在实证研究当中碰到的情况,特别是对于很多的初学者来讲,在做研究的时候,会在起步的时候碰到自己想要的解释变量对被解释变量的影响在统计上不够显著的问题,这个时候很多人会着急。但是我想大家有的时候要冷静一下,你看到一个因素对一个被解释的因素的影响在统计上不显著,可能只是因为你看到的是一个平均效应,是所有样本的平均效应,但是其实可能你的X对于Y的影响其实只是在某一个子样本里面存在显著性,那么当你看总体上的平均效应的时候,它就可能不显著了。甚至有可能在第一个子样本里它的效应是正的,而到了另外一个样本里它的效应是负的,这个时候当你在加总的样本里去看平均效应的时候,正效应和负效应就会相互的抵消,以使得你看到的总体效应不显著。
所以我特别提醒年轻的学生和刚刚起步的青年学者,在你们做实证研究的时候,特别是当碰到效应不显著的情况的时候,不妨看一看在不同子样本里面情况的差异,当然不要忘记事先做一些理论、逻辑的分析,为什么会可能存在这样的差异性。
好的,我用一句话来总结,那就是不要去相信会有普适的政策,尤其是在中国这样地域辽阔的大国家。
经验集锦

9.洪永淼教授, 可以为计量经济学代言,10.计量工具让经济学科学化了吗,11.商学院教授们, 别躲在象牙塔里,12.计量经济模型实证分析的正确打开方式,13.美国经济学教育体系和对中国的启示,14.经济学实证研究中的误区,全部是经验,15.计量经济学中的7大误区, 你踩雷了吗?16.邹恒甫教授对年轻学者四句学术箴言,17.你为什么发不了AER和经济研究?18.与AER齐名的期刊主编亲笔信,19.AER, JHR告诉你, 如何在期刊上发论文,20.教授、主编和博士们的文献阅读指南,21.芝大学教授, 自科与社科的真正区别,22.芝大学教授的博士生论文写作指南,23.模型在微观实证研究中到底重不重要,24.萧政:新鲜课题是中国经济学研究的优势,25.好的经济学研究怎么开展,LSE指导文书,26.教授指点计量经济学迷津,27.邹志庄教授计量研究汇结,总结研究经验,28.学术论文写作的碧血剑谱,29.写论文的初期-中期-晚期, 模型-思想权衡,30.顶尖期刊论文的写作策略, 不看后悔终生,31.在顶尖期刊发论文投稿, 拒稿和修改策略,32.经济学论文写作的28条军规,33.如何读英语论文, 怎样读懂英语论文,34."经济研究"规定论文写作规范与编辑标准,35.史上最全博士论文撰写指导手册,36.SSCI论文写作和投稿技巧指南针,37.顶级经济学期刊发表论文计量方法分析,38.你的论文写作一塌糊涂,我想撕了它,39.权威编辑教你怎样写好学术论文,40.如何写好计量经济学实证分析论文,41.优秀论文写作全攻略,熟读一篇,42.全国“百篇优博”论文的分析,43.一个完整的实证分析框架: 从数据, 模型到结果检验,44.搞实证研究的该如何选题? 一些宝贵经验,45.选择实证研究问题的六个维度, 大有可为,46.实证研究的诀窍, 因果识别,因果识别,47.经济学实证研究中的误区,全部是经验,48.把实证研究进行到底,献给学术路上的人,49.如何正确用计量经济模型实证分析?50.实证经济学走过的三十年,数据、模型和工具的力量,51."实证研究13篇"功夫秘笈, 中青年学者研究必备锦囊!52.TOP5的QJE主编就顶刊的写作, 投稿, 审稿, 修改和青年学者的顶级期刊成长之道的建议!

喜欢一种互帮互助互相交流的科研氛围(社群日常):

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |

干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验


计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存