查看原文
其他

横截面和面板数据可用来干什么? 如何在他们里面秀技术?

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

Author:陆铭,上海交通大学安泰经济与管理学院特聘教授、博士生导师、中国发展研究院执行院长。

背景知识:0.教授给搞实证研究学者的经验建议,1.现实·理论·证据──谈如何做研究和写论文,2.教授以审稿人的身份谈论文写作和审稿,3.把实证研究进行到底,献给学术路上的人,4.评《如何把实证研究进行到底》,5.为什么你不能发《经济研究》?,6.经济学是科学吗?季刊主编如是说,7.如何写出一篇高质量的论文,8.计量经济学实证论文写作全解析

正文

1. 横截面数据可以用来干什么?一大堆问题,来不及秀技术

我先从我自己的一项研究开始说起,这项研究是我和陈斌开、钟宁桦一起做的。

大家知道一段时间以来,中国经济有一个非常重要的现象,那就是消费占GDP的比率一直不高,而且在相当长的一段时间里,这个比率或者说消费率还持续下降。这个现象非常重要,因为它表明了中国经济存在一些结构性失衡的一种现象,如果经济增长当中靠消费来拉动的比率不高,并且持续下降的话,那么经济增长就更多的依赖投资和出口来拉动。这不仅是一种中国经济国内结构失衡的一种表现,甚至成为中美贸易争端的一个非常重要的背景,因为中国经济一直在大量出口,形成了国际贸易的一些失衡的现象。

那么对于这样一个非常重要的现象,如何进行解释呢?如何中国经济的消费率一直低,甚至有些年份还在下降呢?于是就需要找一些解释。那么我们自己的研究是怎么解释的呢?我们就从户籍身份和消费的关系开始入手。我们观察到,在城市里,有大量的外来人口,这些外来人口没有本地的户籍身份,他们的消费如果比一般的城市居民要来得少的话,那么,由于外来人口在持续的增长,就可以解释为什么中国经济的消费率比较低,而且持续在下降了。

根据我们的研究,我们的确发现,在所有其他的因素都一样的情况下,一个城市的外来移民由于缺乏本地城镇户籍,他的消费就会比同样是生活在一个城市的城市本地居民要低17%-21%。而这样的人口数量有多少?大约有2.6亿左右,平均每6个中国人,就有一个属于我们今天所讲的,在城市里生活和居住,但是却没有本地城镇户籍的这样一个人群。

这样我们就解释了中国的消费率一直很低,并且持续下降的现象。在政策上这个研究就有非常重要的意义,它成为推进中国户籍制度改革的一个非常重要的实证依据,尤其是当中国经济的内需一直不足时,我们的研究说明,如果在未来的城镇化过程中,能够持续不断的给外来人口本地户籍身份和平等的待遇,那么就可以利用这样的城镇化进程,来启动内需。在当前的国际环境日益有些恶化,中国和其他的以美国为代表的国家之间的经贸关系出现了一些争端的时候,启动内需对于未来得中国经济发展来讲,可谓意义重大。

我讲了我们自己研究的重要性,我们的研究有没有缺陷呢?有的,其中最为重要的一点,我们的研究用了所谓的叫截面数据,截面数据的意思就是说,给定一个既定的时间点,我们所用的数据是在同样的时间点里的不同的人之间的差异,来看一个变量和另外一个变量之间的关系。但是这里就会碰到一个问题,我们想说的故事是说,没有城镇户籍的外来人口的消费要比城镇居民来得低,但是这里的户籍身份到底代表着什么呢?我们想说的是,户籍身份代表的是制度歧视,但是从逻辑上来讲,其实当一个人没有城镇户籍的时候,他很可能在其他方面,也有一些跟城镇居民之间的差异。比如说消费的偏好,这一点就很难观察到,当你观察到一个农民工朋友,他不大到饭店里吃饭的时候,也很可能是因为这个农民工他不喜欢到外面吃饭,而不是因为他想省钱。也就是说,如果我们所看到的户籍身份带来的消费差异,仅仅是因为偏好和文化的差异的话,那么即便你把户籍给了这个农民工朋友,他的消费行为也不会发生变化,那么相应来说政策的改革就没有效果。

那么既然存在这样的问题,我们怎么办呢?如果说从技术上来解决类似这样的问题,当然有一些办法,我们学过计量经济学的人都知道,有一些办法的确可以克服截面数据模型所存在的那些问题,比如说我举两个例子。

第一例子是用面板数据,所谓面板数据就是我们持续去跟踪一个个体,在不同的时间点里,我们能够看到同样一群人他的行为变化,具体到今天我们讲的户籍和消费的关系里,如果我们能够看到有些人今天没有户籍,而明天他就有了,我们来观察同样这个人,在其他一些因素,比如说偏好、习惯、文化都没有发生变化的时候,仅仅因为户籍身份发生了变化,我们来看一下他的消费有没有发生变化。这个时候这种户籍对于消费的影响就不是因为类似于偏好或者习惯和文化这样的因素了。但是遗憾的是,理想当中的数据在实际研究的生活当中,其实是没有的,即使有这样的面板数据,在这个面板数据里,发生了户籍身份变化的样本,也非常少,而且即便是那些发生了户籍身份变化的样本,他们的户籍身份的变化也不是随机的,而有可能是一些其他的因素导致的,这个时候你看到的户籍身份的变化,对于消费的影响恐怕也不仅仅是因为户籍发生了变化,而可能是因为其他的原因导致的,这就很遗憾了。

还有一种可能想到的办法就是利用实验的办法,我们的文章投稿到一些杂志上的时候,的确就有审稿人建议我们用实验的方法,这里我想吐个槽。什么叫实验方法?就是如果我们有办法对一群人进行一个随机的实验,改变这个人群当中一部分人的特征,我们来看这个特征的改变以后,对我们所关心的一些现象,比如说消费,产生什么样的影响,那么这个时候由于这个实验是可控的、随机的,我们就能够识别出来我们想看到的这个因素会产生什么样的影响。

但是我们所研究的问题,是户籍身份对于消费的影响,请大家想想看,在我们实际生活当中,存在着这样的随机的实验来改变人们的户籍身份吗?恐怕没有。那么我们可以自己去做这样一个随机实验吗?不要开玩笑了,如果我真有本事这样做的话,我就发财了,那意味着我可以随机的给一部分外来农民工发户籍,而且就算我有这样的本事,这样的研究根本过不了所谓的道德审查。我凭什么动用一个个人的权利,就给一部分人户籍身份,而另外一部分人没有这样的户籍身份,而且这个户籍身份的给和不给,要关系到一大群人一辈子的福利。

所以我通过刚刚讲的这两个看上去能够解决问题的办法,说明了,对于一个特定的研究问题来讲,恐怕在这个问题仍然是一个非常重要的问题的时候,能够使用的数据真的就只是截面的数据。

当然在实证研究当中,也存在一些其他的高科技手段,比如说非常流行的双差分模型,断点估计,这些东西都是非常依赖于数据所生成的制度背景。往往在一些特定的问题里也没法使用。

那么既然这些高科技手段都没法使用,我们是不是就不要去做那些重要的问题?我认为是不行的,对于一些重要的政策问题,或者说应用问题,如果我们能够用截面的数据来做出变量之间的关系,总比我们对这样的一些重要的问题毫无认识要来得好得多。

当然我这样说我也不希望给大家造成一种误解,那就是在做研究的时候,永远强调我做的研究非常重要,所以你不要管,我就用截面数据,我随便报告几个方程就OK了,我觉得也不是这样。如果大家有机会去看一下我们发表的户籍和消费之间的关系的文章,我们这个文章有早期版本和晚期版本两个版本。比较早期的中文版本我们发表在《经济研究》2010年,后来我们有一个用了新的数据和新的估计方法的一个版本,发表在英文的World Development上面,大家如果有机会去看一下我们的文章就会发现,我们虽然是用的截面回归的一个分析,但是我们仍然做了很大的努力,来尽量的排除是不是有可能因为其他的机制来影响我们的结果。

我这里也举一两个例子,比如说大家都会关心,是不是我们看到的外来人口少消费的现象,是因为文化的差异?换句话说,是因为外来移民不喜欢多消费,因为他们跟城镇居民的文化不一样。如果这个逻辑是对的,我们可以想两个办法来解决,第一我们在拿外来人口跟本地城镇人口做比较的时候,我们不去比较那些出生在城市的城市居民,而去比较那些出生在农村,但是现在已经是城里户籍的这样一些居民,如果我们相信出生在很大程度上是决定了一个人的文化和习惯的话,那么将外来人口跟出生在农村,并且已经获得城镇户籍的居民进行比较,就更加可以相信这种差异是来自于户籍制度造成的差异,而不是文化差异。

另外一个办法,我们就去观察一下那些在城市里居住时间比较长的人,如果真的是因为没有本地城镇户籍的人在文化上有差异的话,你应该相信随着时间的推移,他在城市里居住的时间越长,他越会像一个城市居民。但是我可以告诉大家,这一点在数据里是看不出来的,不管你在城市里居住多长时间,只要你是一个没有本地城镇户籍的外来人口,你的消费就是要比本地的城镇居民要来得更低。通过这样的一种比较,我们也基本上可以排除这是因为文化差异所导致的。

所以通过今天我讲的这个例子,我给大家讲了在有一些非常重要的实证的应用研究当中,不要过于片面的追求高科技,有一大堆非常重要的问题,来不及秀技术。类似像这样的问题实在是太多了,比如说在我长期关注的其他问题,包括留守儿童的问题,包括一段时间以来,由于我们的超大城市抬高了外来孩子进入本地公立学校的门槛,造成了一些返乡的儿童。这样重要的问题,具有很强的政策含义,但是如果我们要想研究留守儿童和城市孩子之间有什么差别,我们想看一看返乡的儿童,是不是跟那些留在城市的儿童形成了一些差异,这些问题,恐怕当我们去研究它的时候,能够收集到的数据,在很大程度上就是一个截面的数据。

在这个意义上,我觉得中国真的是有一大堆的重要的政策问题,来不及等到数据已经完全完备了再去研究,也来不及去秀我们高科技的技术。但是同时非常遗憾的是,现在我们的学术界,特别是一些年轻的学生,恐怕很多时候都首先看到了一篇文章的技术,却忽略了重要的问题。


2. 面板数据到底何用?有时候,重要的就是“固定不变”的

今天的话题是面板数据不能解决什么问题?我们先从一个例子开始讲起,现在大家都非常关心城市的经济增长,特别是对于那些欠发达地区,很多人出了很多的主意,希望对欠发达地区的发展能够起到一些促进作用。

比如说有人提出要促进欠发达地区的投资,要给予他们优惠的政策。还有人认为领导人的能力非常重要,所以要把比较有能力的领导人安排到欠发达地区,去当当地的行政长官。还有人认为一个地方的行政级别如果高的话,可以带来很多的资源,所以把一些原来属于县的地区,如果提升为城市的话,也可以促进当地的经济发展。

但是所有这些因素讲完了之后,大家可能忽略了一个非常重要的,决定一个地区或者一个城市经济发展潜力的重要因素,那就是地理。在我之前做过的研究里,我从两个维度来捕捉了影响一个地方经济发展的地理因素,一个就是到沿海大港口的距离,另外一个就是到区域性的中心大城市的距离。在我的研究当中,如果我们把各种影响经济发展的因素全部都放在模型例如的话,那么在影响一个地方经济的那些因素当中,大概到港口的距离和到大城市的距离,可以解释城市与城市经济增长差异的大约25%左右。而所有的解释经济增长因素全部放在一起,大概可以解释城市之间经济增长差异的50%,而剩下的一半我们就不知道是什么样的因素导致的了,也有可能是因为一些随机的度量误差的因素都是有可能的,反正我们不知道。

那么,在我们已经可以知道的可以解释城市间增长差异的因素当中,到港口的距离和到大城市的距离这两个地理因素,解释了大约一半。这样就足以证明地理这个因素在决定一个城市的经济增长当中所起到的作用,几乎是决定性的,当然我们也不是说它是唯一决定性的,只是说它的重要性要远远远远的超过那些其他影响经济增长的因素。

举了这个例子之后,我们再来讨论一下面板数据到底可以用来解释什么问题。首先要解释一下什么是面板数据,面板数据同时有截面的维度,也有时间的维度,比如说我们观察一些城市,如果只在一年当中去观察这些城市的话,他所形成的数据就是截面数据。但是如果我们在若干年当中,对同一群城市反复的进行观察,那么这个时候它就具有了时间的维度,就构成了一个叫“面板数据”的数据集。

通常来讲,如果我们想在截面上看解释变量对于被解释变量的影响,可能就不能很好的去分析一个经济问题,比如说我们想知道投资对于经济增长的影响,我们看到了投资能够促进经济增长,这个时候我们是不是就能够把投资对于经济增长影响的系数,当作投资对于增长影响大小的度量呢?恐怕不一定的,因为一个地方投资多的时候,往往是由一些其他因素导致的,这个时候你就不能把投资这个变量之前的系数,完成理解为是投资对于增长的影响的大小。

这个例子就是非常著名的所谓叫“遗漏变量的偏误”,那么如果我们要是有一个面板数据的话,我们就可以去看解释变量的变化如何影响了被解释变量的变化。仍然拿投资对于经济增长的影响作为例子,我们可以在面板数据里去看,同样的地方的投资的变化如何影响当地增长的变化,这个时候我们假设那些影响投资的因素是不随时间变化的,比如说像地理这样的因素,那么给定地理这样的因素以后,如果一个地方投资增长的快,它的经济增长率就会更高的话,那么我们就大概可以把这样的一个影响的程度,当作是投资对于经济增长的影响了。

但是在我刚刚举的这个例子里,请千万注意一个问题,如果我们的研究问题本身是想知道类似于像地理这样的因素,对于经济增长有多少影响的时候,面板数据恐怕就无能为力了,因为地理这样的因素,通常是不随时间变化的,由于它没有变化,所以你就很难通过解释变量的变化,来看被解释变量相应发生什么样的改变。

用经济学的术语来讲,那就是类似于像地理这样的因素,其实是不随时间变化的固定效应,而面板数据的长处,恰恰是控制住那些固定效应之后,看其他可变的因素对于被解释变量的影响。

在这个例子当中,我提醒我的朋友们,特别是年轻的学生,不要盲目的相信某种特定的方法,而是要看到这个特定的方法是不是有助于你回答你想关心的这些问题,甚至有没有可能当你去使用一个方法的时候,你可以看到一个变量对另外一个变量的影响,但是,是不是有可能当你这样做的时候,遗漏掉了更为重要的影响因素,而那个影响因素可能在面板数据里就是不随时间变化的。

我们再举一个例子,在经济学文献当中有一个问题叫“资源诅咒”,它的意思就是说在不同的国家,有一些国家的经济增长恐怕在长期里是不可持续的,有一类国家就有这样的情况,那就是一些资源非常丰富的国家,由于这些国家有丰富的资源,比如说石油,于是这些国家的制度建设就不是很完善,往往到现在他们仍然都是一些威权国家,还有这些国家可能腐败也非常严重。同时,由于资源实在太丰富了,大家很容易挣钱,结果这样的国家就不太重视教育和科技的发展。所以,从长期来看,这样一些国家的经济发展的表现也不太好,这就叫“资源诅咒”,表面上看起来拥有资源是件好事,但是从比较长的时间来看,这似乎又成了一件坏事。

那么为了研究资源诅咒这样的一个故事是不是存在,于是就有人用中国年度的省级或市级面板数据来研究资源诅咒。但是请大家注意一下,在资源诅咒的这组文献当中,其实他研究的本身就是一个长期的问题,他不是要研究今年跟去年相比较而言,我这里多了一些石油资源,于是今年是不是就会比去年的制度更差,腐败更严重,更加不重视教育和科技。而是说资源诅咒这个问题,本身就是一个长期的经济发展问题,是要看至少10年,甚至几十年的时间跨度里,有些国家有比较丰富的自然资源,是不是会导致这些国家制度不好、腐败严重,以及不重视教育和科技。

所以对于这样一个特定的经济学研究的问题来讲,恐怕面板数据也不是一个好的研究这个问题的数据来源,而是说它可能比较适合在比较长的时间里,用截面的方式来看国家和国家之间的差异,是不是资源的丰腴程度,导致了这些国家的制度差异、腐败差异等等。

在今天我举的这两个例子里,我想告诉大家,面板数据可以解决一些问题,但是它不能解决所有的问题。我建议大家在做研究的时候,还是要回到你所要研究的问题本身。有的时候对于一些特定的问题来讲,它的重要的问题本身就是截面的差异,比如说今天所举到的资源诅咒的例子。而另外一些问题,本身重要的问题就是那些固定不变的因素,到底怎样影响到了我们关心的被解释变量,比如说地理因素如何影响到了城市的经济发展。

所以我最后就用一句话来结束这一节,那就是,我们在研究一个问题的时候,首先要多想想,多想想,再多想想,要把自己想关心的问题和什么是重要的问题想清楚,然后再去想用什么样的数据和方法来研究我们的问题,而不是反过来让研究的方法和数据束缚我们的思想。

经验集锦

9.洪永淼教授, 可以为计量经济学代言,10.计量工具让经济学科学化了吗,11.商学院教授们, 别躲在象牙塔里,12.计量经济模型实证分析的正确打开方式,13.美国经济学教育体系和对中国的启示,14.经济学实证研究中的误区,全部是经验,15.计量经济学中的7大误区, 你踩雷了吗?16.邹恒甫教授对年轻学者四句学术箴言,17.你为什么发不了AER和经济研究?18.与AER齐名的期刊主编亲笔信,19.AER, JHR告诉你, 如何在期刊上发论文,20.教授、主编和博士们的文献阅读指南,21.芝大学教授, 自科与社科的真正区别,22.芝大学教授的博士生论文写作指南,23.模型在微观实证研究中到底重不重要,24.萧政:新鲜课题是中国经济学研究的优势,25.好的经济学研究怎么开展,LSE指导文书,26.教授指点计量经济学迷津,27.邹志庄教授计量研究汇结,总结研究经验,28.学术论文写作的碧血剑谱,29.写论文的初期-中期-晚期, 模型-思想权衡,30.顶尖期刊论文的写作策略, 不看后悔终生,31.在顶尖期刊发论文投稿, 拒稿和修改策略,32.经济学论文写作的28条军规,33.如何读英语论文, 怎样读懂英语论文,34."经济研究"规定论文写作规范与编辑标准,35.史上最全博士论文撰写指导手册,36.SSCI论文写作和投稿技巧指南针,37.顶级经济学期刊发表论文计量方法分析,38.你的论文写作一塌糊涂,我想撕了它,39.权威编辑教你怎样写好学术论文,40.如何写好计量经济学实证分析论文,41.优秀论文写作全攻略,熟读一篇,42.全国“百篇优博”论文的分析,43.一个完整的实证分析框架: 从数据, 模型到结果检验,44.搞实证研究的该如何选题? 一些宝贵经验,45.选择实证研究问题的六个维度, 大有可为,46.实证研究的诀窍, 因果识别,因果识别,47.经济学实证研究中的误区,全部是经验,48.把实证研究进行到底,献给学术路上的人,49.如何正确用计量经济模型实证分析?50.实证经济学走过的三十年,数据、模型和工具的力量,51."实证研究13篇"功夫秘笈, 中青年学者研究必备锦囊!52.TOP5的QJE主编就顶刊的写作, 投稿, 审稿, 修改和青年学者的顶级期刊成长之道的建议!

喜欢一种互帮互助互相交流的科研氛围(社群日常)

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |

干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验


计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存