查看原文
其他

CHARLS数据的前世今生(附8个大型数据库)

2万计量学者 计量经济圈 2019-06-30

中国健康与养老追踪调查(China Health and Retirement Longitudinal Survey, CHARLS)是由北大国发院主持、北大中国社会科学调查中心与北大团委共同执行的大型跨学科调查项目,旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,CHARLS问卷内容包括:个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消费、资产,以及社区基本情况等。用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究,为制定和完善我国相关政策提供更加科学的基础。


接受采访的赵耀辉老师现担任北京大学国家发展研究院经济学教授。长期专注劳动经济学和老年经济学的研究与教学,作为CHARLS项目的主要创始人,她负责这一项目已有十年。


摘要内容来自北大国发院官网和“中国健康与养老追踪调查”公众号。


与CHARLS相伴的十年


C=《此间》

Z=赵耀辉

路漫漫兮:十年追踪

C:当初创立CHARLS项目是您的想法吗?

Z:CHARLS的创立,其实是很多人长期共同努力的结果。因为最开始我是研究劳动经济学的,尤其是用微观数据研究人对教育的决策、收入的不平等、人们的迁移决策这些,这就对我后面做CHARLS有些影响。一方面的影响是从学术研究的方向来讲,人们的退休是劳动经济学里一个很重要的内容。当初我就想研究退休这件事情,但是国内的数据严重不足,尤其是微观数据,而外国的数据又很难获取,所以我一直觉得受到很大限制,想研究什么题目都很难。不光是我一个研究者,整个科学界也是面临数据缺乏的问题,每个人想要进行某项研究都得要自己去收集数据,但是这种收集成本巨大,于是就很想有一个能够自己去控制的一套微观数据。后来就遇上了一个机会,美国的NIH(National Institutes of Health)从92年开始资助了美国的一个类似CHARLS的研究项目,叫做 Health and Retirement Study(HRS),因为他们很早就意识到美国的老龄化是一个问题。从92年至今这么多年,每隔一年进行一次调查,他们做得非常成功,数据出来后很快就成为学界使用的一个非常重要的数据。大概是在2002年吧,英国等欧洲十几个国家也都开展了这样的调查,它们觉得这对于研究人口老龄化特别重要。

我们国家从2000年以来也正式进入了老龄化社会,也就是Aging,因为7%的人口已经超过了65岁。而且根据预测,很快地、也就是到2020年时,我们就会进入一个65岁以上人口达到14%的老龄社会,这是一个速度很快的过程,而且是发生在人们收入比较低的情况下,而我们对老年人的社会保障非常少,还面临着计划生育政策和经济增长带来的子女数量大幅减少的问题,并且子女要大量外出,老年人问题面临着经济上和照料上的双重压力。所以我们国家迫切需要开展这方面研究。在2007年的时候,NIA以及美国、欧洲做健康养老调查的这些人都很想在中国也能够看到这么一个研究,这样的话大家可以做一些跨国的比较,所以我们就借此机会去申请他们的研究资助。
 

C:我看过一篇对您的访谈文章,里面提到刚创建这个项目时你们团队只有四个人,您可以描述一下吗?

Z:是的,我们就在这个办公室。(以手指)这儿有一个桌子,现在拿走了,那儿一个桌子,然后我旁边有个桌子,边上就是我们四个人。一个写程序的,一个是管实地的,叫项目执行主任,然后一个秘书,加上我,就我们四个(笑)。我们从07年开始做设计,半年后开始调查。


赵耀辉教授办公室

C:CHARLS是如何从四个人的小团队成长起来的?

Z:我们最开始做这个事情的时候不知道调查有多麻烦,因为我们之前没有做过这么大规模的调查,有些小规模调查参加过一点。于是我想这么几个人就够了,当年就用了一百多位访员,在浙江和甘肃开展实地调查,每个省是三个队伍,然后发现管理起来是非常麻烦,把每个人都累得要吐血(笑)。所以就觉得这个人手实在不够,想要保证研究质量,并且不让大家累得要倒下,就要有一个关于执行团队的更好设计。所以08年我们做完以后就“休息”了,“休息”了三年,到11年才把这个推到全国。11年呢我们找到了更多的钱,又雇来了更多的人,走正规军的路,后来就开始做了。


C:也就是说这三年相当于一个缓冲期?

Z:是一个缓冲。因为我们要分析数据、总结经验,还要去寻找资金。我们08年做的是个小调查,只在浙江、甘肃两个省,样本只有两千多人,我们要做全国的调查,就要近两万个人的样本。这项研究规模很大,所以需要大量的资金,所以我们在那期间呢又到美国NIA和国家自然科学基金会筹钱,因为08年调查蛮成功的(所以再次得到了支持),筹好了以后我们才开始去做11年的这件事情。


C:在这个项目开展之前,您有到美国以及其他开展类似项目的国家进行学习吗?

Z:我们没有去学习,但是他们会过来讲授经验。我们成立了一个顾问委员会,成员包括刚才提到的其他国家的这个项目的负责人。我们在08年3月份的时候,开了第一次顾问委员会会议。在我们之前韩国已经开展了,韩国是跟我们最近的并且最像的一个国家,所以我们第一次设计问卷就用他们的作为蓝本涉及,尽量保持一致,这样的话可以做跨国比较,但是中国有自己特色的地方,我们就要再去重新做设计,设计了以后还请这些人一起来开会,把每个模块的问卷、实地的执行方式和总结方式报告给他们,听取建议。因为他们经验比较丰富,所以对我们帮助非常大。


C:您认为项目面临最大的困难是什么呢?

Z:有很多方面,资金并不是最大的困难,最大的困难还是实地的执行。从我的层面来讲是交涉的问题。比如说我们到了一个地方,地方政府可能会拒绝我们。有可能我们抽中了这个县,然后又抽中了这个县的这个村,结果这个地方表示不欢迎、不许你们来,进村就很困难,很多时候是我要来解决这个问题。至于原因呢,有的是他们面临着内部矛盾,比如说职工面临安置的问题,或者是有拆迁、征地补偿方面的一些困难,还有些地方是出现了传染病,所以我就把我的朋友骚扰了一个遍,进行各种协调。而访员层面呢(笑),他们面临着拒访等问题,还面临各种的困难,我们经常会非常地担心,因为每年都会出各种状况,有时候会遇到什么泥石流啊发洪水啊。不过,他们也会遇到一些很让人感动的故事。我们的访员同学挺可爱,他们非常地认真。


C:您刚开始的时候有没有设想到今天CHARLS的发展状况?

Z:这是没法去想的。我们今年夏天的时候有20位左右的员工,现在是十六七位吧,也把大家累得要命。我们人多的时候大概30个人,用到了800个访员,非常大规模地开展项目。这些都是最开始根本预计不到的,都是走一步看一步。

 


赵耀辉教授

上下求索:实践与思考

C:您在项目中主要是担任一个怎样的角色?

Z:我的角色,也是慢慢在变化,最开始的时候是一个项目经理的角色(笑)。其实做了很多很细的事情,最开始问卷设计所有的环节我都是亲自做的,然后包括培训访员、招聘方面,以及实地的督导,第一年我也跟着队伍去了实地,所以全程的所有环节都参与了。到现在呢,陈老师他们就可以把所有事情基本搞定,我就非常宏观地把握了。我就把握一下进度,对人事和问卷方面有些过问,但具体的问卷怎么样写出来和编程,我就已经不管了。所以我现在很多的时间是花在数据研究上面,我会跟我的学生们一起分析数据和写论文。
 

C:您一般利用这些数据做一些什么样的研究?

Z:我们的研究还蛮多的。比如今天我跟我的一个博士后在讨论我国医疗费用上涨的事情。医疗费用在全世界的发达国家非常快地上涨,增长率远远高于GDP的增长率,我们国家也是这样。这件事情怎么解释,我们就用我们的数据在看,还有就是医疗保险对于医疗费用上涨起到了什么样的刺激作用。我今年秋天带了一个班的学生,他们都是今年夏天当过访员的,每个人都在做一篇论文,通常是三个同学一组,每个人看一年的数据,论文题目涉及我们问卷各个模块的东西。有的人研究家庭关系——父母和子女之间的经济往来、父母跟谁居住,以及父母生活不能够自理了,哪个子女会来照料他;有些医学部的同学在看健康模块,什么东西在影响老年人的认知衰退,以及他的抑郁等等;也有一些同学在看经济方面,他的支出水平、生活财富水平和收入水平等等。非常广泛的题目,反映了我们问卷跨学科的性质。


C:您觉得以前的工作有没有留下什么遗憾?

Z:还是有很多的,调查这件事情,很多事后才能够知道什么地方做得不好。其实对于第一个样本,我觉得在质量控制方面,怎么样管理同学方面,以及实地方面等等可以做得更好,但在什么地方可能出问题,好多我们事先是不知道的。


C:质量控制方面主要是指什么?

Z:质量控制有几个层面。从样本的层面,抽样一定要完备,你不能够舍掉一些人,你舍掉的人有可能就是一些特殊的人群,所以如何保证样本框的完备是一件挺难的事情。比如绘图阶段,一定要保证被抽到的村所有的村民都在这里,都有可能被抽到,如果绘图的时候切掉了,这些人永远就进不了样本框。这个图还要准确,不能回头又找不到了。另外,抽样结束访员去的时候他有可能找错了地址,也有可能访员找不到这个人,就换到另外一个人,这些都是我们不允许的。因为追访的时候你是不是追到了同一个人,追访的应答率等,都是非常重要的问题,也是我们每年都花很大的力气让同学们坚持去实现的。再就是这个问卷调查过程提问要准确,不能够换题目,问法可以稍微有点不同,但是不能够偏离这个问题。


C:您觉得CHARLS给同学带来了什么?

Z:我觉得对同学们而言这是很正面的一个经历。我们的学生,尤其是北大的同学,成长到现在都是很受呵护的,很少接触真实的社会,所以他们对于家以外的环境,比如所在的社区、城市以外中国的人民到底是什么样子,其实是没有感觉的,是不知道的。所以让他们在实地呆上一个月,做一些很深入的访问,可以增加实感,这个的重要性其实我觉得自己也不一定完全能够体会。我们的同学都是一直被哄着上来的,成长到现在都没有经历过那么强烈的、别人不接受你拒绝你的态度,所以在这种情况下怎么样达到目的,这需要很多方面的能力。同学们要去理解他,他不愿意接受访问,到底是为什么,这就需要有一种同理心,后再有针对性的去克服这件事情,你不能够见到困难就退。很多时候困难不只是生理上的困或热,而是心理层面的。我们同学蛮缺乏和人打交道以及其他一些能力。可能有些同学写东西、计算东西很好,但是到了大街上,能够做成他想做的事、知道跟谁说什么话,就不一定能达到。(笑)有时到了一个小区,我们同学文质彬彬的“请问能不能让我们进去,我们是干什么的”为什么不管用?因为好多时候你要用一些技巧,这是一个挺重要的训练,你们将来到了工作单位上也会碰到很多这样的事情。还有一个方面,就是我们同学回来以后再去做研究就会很好,他已经有很多的体会,知道这数据怎么样收集。看到数据有不完美的地方,他知道是数据的问题还是真正的现象,那他们在选题以及怎么样去解释这些东西就可以有些不大一样。很多人都觉得这个经历对他们的人生会产生重要的影响。


C:那么CHARLS对您的影响如何?

Z:对我而言满足就更多了。因为我们从一个十年以前还是一个很缺乏数据的阶段,到现在的数据变得很充足的一个阶段,这可真是一个实质性的变化。当年我开始做的时候说:“哎呀,再过十年,我们整个就是革命性的变化。”真的就发生了。而且我们的学生做论文再也不用为缺数据发愁了。我们现在的用户也是一直在涨,呈直线式地上涨,已经两万多人了,这对于学界的贡献是不可估量的,对于国际知名的学者、国际上想研究中国的人而言,这个数据对于理解中国各种事情都很有重要。而且,很多访员现在都跟我保持联系,能够看到他们的成长是一个很欣慰的事情。

从学术的角度来讲,我觉得很多社会科学研究的是人、人的行为,研究人的时候他得能够站到人家的这个鞋里头去看事情。如果你脑子里头没有一些真实的人在那的话,你想不出来。比如说你想研究贫困,你可以拿到很多贫困的数据,但是这个其实数据背后是什么故事,你看到一些关系以后你能不能理解它到底什么情况。如果你到过实地,你就会想到:哦,这个就是我访问过的那个人(出现的状况)。


C:从CHARLS的数据来看,您觉得老年人的困境主要是什么呢,物质上的还是精神上的?

Z:两方面都有。从物质上面来讲,城市里的老人应该不是什么大问题,但在农村里的话还是蛮多的。很多时候咱们的同学特别受触动,比如进到了一个那么穷的一庭,感慨他到底怎么生活。我们实地的样本很多都是在高山上的、要爬很长时间才能够到的那种地方。有很多很穷的,他们就是几十块养老钱,对他们来说非常非常重要,很老了还得去干活,这只是我们从数据上面看到的。农村户口的这些人,他们很多到了70多岁甚至80岁还参与劳动,没钱就得干活,这是一个很大的问题。我们的研究发现,如果一个人是60岁,十年以后他利用十年所攒的钱能够生活在贫困线以上的,这样的人只有2/3,其余1/3的人如果不再干活的话,他就只能在贫困线以下,所以他必须自己干活或者靠孩子。但其实越穷的地方的孩子也穷,所以这是一个很严重的问题。

在贫困以外,在精神上面的孤独抑郁这种问题,在城市里头就会见到很多。我们老年人的抑郁情况挺严重的,高程度抑郁的大概有1/3,而且这个程度是随着年龄上涨而加深。抑郁原因可能是病没有希望,但很多时候是跟子女的关系不好,也有一些就是经济情况,老年人的自杀情况在中国一直是特别严重的问题。中国老年人的生活健康状况其实也是很不好的,疼痛很厉害,大概有1/4吧,(这些都是从)数据里头看出来的。


注:本文刊于“此间INSIDEPKU”微信公众号

微观数据(CHIP、CHARLS、CFPS、CHNS等)下载链接


目录

(一)UHS (Urban Household Survey)

(二)CHIP(Chinese Household Income Project Survey)

(三)Census

(四)CHNS(China Health and Nutrition Survey

(五)RHS(Rural Household Survey)

(六)中国老年健康调查项目

(七)CHARLS(China Health and Retirement Longitudinal Study)

(八)其它的数据

(一)   UHS  (Urban Household Survey)

简介:中国城镇住户调查数据。它是国家统计局城调总队负责调查的。现在可以拿到1986年至2006年的数据。如果可能的话,我们可以拿到全部省份的数据,但现在大家使用的是六个省份的数据(北京、广东、浙江、辽宁、陕西、四川)。每年大约有3500-4000户的数据。

(内附1992年调查问卷)

包含变量:(1)个人层次上的变量。与户主关系,性别、年龄、文化程度、行业、职业、就业状况、工资、总收入、工作小时数、参加工作年份、退休金、财产性收入。(2)家庭层次上的变量。家庭总收入、家庭人口数、居住面积、房间个数、家庭财产、现金支出、现金流入、储蓄、借款、家庭消费。

可做的研究:
(1)教育回报率问题。
(2)收入不平等问题。
(3)劳动力供给问题。家庭财产、孩子(老人)、退休金。
(4)行业的分布及变化。
(5)职业的分布及变化。人力资源管理。
(6)就业问题。失业率和劳动参与率。
(7)教育决定因素及教育不平等问题。
(8)社会保障方面的研究(退休金)。
(9)财产性收入研究。
(10)房地产需求问题。它与人口结构的关系。
(11)非正规金融问题(借款)。
(12)家庭消费的决定因素及模式变化。


(二)   CHIP (Chinese Household Income Project Survey)

简介:中国家庭收入项目调查。它是由国家统计局农调总队和中国社会科学院经济研究所共同开展此项专门调查。调查内容主要包括:收入、消费、就业、生产等有关方面的情况。现在做了三轮,分别是1988,1995,2002,可能2006的也正在进行中。这个数据是全部省份。这个数据的好处是,农村及城镇的数据都有。城镇每年家庭的数据大约有6800户,人数大约为20000人。农村每年家庭的数据大约有9200户,人数大约有38000人。

(内附2002年调查问卷)

包含变量:(1)个人层次上的变量。与户主关系,性别、年龄、受教育年限、行业、所有制、职业、就业状况、工资、总收入、工作小时数、参加工作年份、是否中共党员、是否当过兵、是否当过干部、吸烟花多少钱、喝酒花多少钱、是否残疾、医药支出额多少、生病的时间、从事家务劳动的时间、照顾家里其它病人的时间、工资收入总额、退休金、股票红利、工作天数、工作小时数、找工作的渠道、居住条件、开始非农就业的年份。(2)家庭层次上的变量。家庭总收入、家庭人口数、居住面积、房屋所有权、贷款的数量、借钱的途径、自己及配偶父母的家庭成分、家庭收入、老人补助金、现金支出、家庭消费、家庭财产。

可做的研究:
(1)教育回报率问题。
(2)收入不平等问题。
(3)劳动力供给问题。家庭财产、孩子(老人)、退休金、家务劳动时间。
(4)找工作的方式问题。
(5)行业的分布及变化。
(6)职业的分布及变化。人力资源管理。
(7)就业问题。失业率和劳动参与率。
(8)教育决定因素及教育不平等问题。
(9)社会保障方面的研究(退休金)。
(10)财产性收入研究(股票)。
(11)房地产需求问题。它与人口结构的关系。
(12)住房解决方式问题。
(13)农村非正规金融问题(借款)。
(14)家庭消费的决定因素及模式变化。
(15)党员、当兵、当干部、父母家庭成分对收入和就业的影响
(16)吸烟、喝酒等支出的决定因素及变化趋势
(17)农村老人补助金问题。
(18)老人养老安排问题。
(19)老年人劳动供给问题(退休年龄的提高)。



(三)Census

简介:中国人口普查数据。现在经常用到的人口普查数据是1982年、1990年、2000年的人口普查数据。一般的研究机构拿的数据是0.1%抽样的,但有的研究部门能够拿到1%抽样的。对做宏观变量的趋势(如性别比例的变化,离婚率的变化等),这种大样本的数据非常合适,非常有说服力。要想使用这种大型的数据库,对硬件的设备要求很高。要想使用1%抽样的数据,我们的电脑一般都不能承担。人口普查的一个缺陷是没有收入方面的数据,但是2005的中期普查,是有收入方面的数据的。

(内附1990年,2000年调查问卷)

包含的变量:在不同的年份,包含的变量不一样。这里说的是比较全的。个人层次上的变量:年龄、性别、民族、婚姻状态、初婚年龄、行业、职业、工作单位的性质、不参加工作的原因、与户主的关系、户口、居住地、出生地、文化程度、何时迁入本地、迁来本地的原因、从何地迁来、迁出地的类型、五年前常住地、为什么现在住在本地、工作时间。家庭层次上的变量:家庭人口数、调查期内死亡人数、住房面积、住房用途、住房间数、住房来源、购入住房的成本,购入住房的时间、租房的成本、自来水与厕所的情况。如果是女性,还有总共生育了几个孩子,存活了几个孩子的信息。


可做的研究:
(1)人口预测、人口构成问题。
(2)性别比例问题。
(3)计划生育效果问题。
(4)人口老龄化问题。
(5)劳动力迁移问题。
(6)孩子的质量数量权衡问题。
(4)农村留守老人和孩子问题。
(5)房地产价格决定因素及变化趋势。
(6)老人居住问题(跟儿子还是跟女儿)。
(7)少数民族问题。


(四)CHNS (China Health and Nutrition Survey)

简介:中国健康与营养调查。由美国北卡罗莱纳大学教堂山校区的罗莱纳州人口中心(the Carolina Population Center at the University of North Carolina at Chapel Hill)和中国疾病控制和预防中心的国家营养和食品安全所(the National Institute of Nutrition and Food Safety, and the Chinese Center for Disease Control and Prevention)合作建立的一个数据。这个数据最大的好处是,它是一个面板数据。而且,农村和城镇的数据都有。现有的数据有:1989, 1991, 1993, 1997, 2000, 2004,2006等年份。包括的省份:辽宁、黑龙江、江苏、山东、河南、湖北、湖北、湖南、广西、贵州。这些数据可以在网上下载。现在,国际一些好的刊物很多文章也是用这个数据做的。这个数据库涉及的变量较多,处理起来比较困难。以后年份的数据缺失可能比较严重。

(内附2000年调查问卷)

包含变量:(1)个人层次上的变量。与户主关系,性别、年龄、出生日期、民族、身高、体重、血压、病史、吸烟史、受教育年限(水平)、户口、是否干部、行业、职业、第二职业、工作单位的性质及人数、就业状况、工作时间(非常细致)工资、总收入、参加农业生产的情况。(2)家庭层次上的变量。农业生产、农作物价值、家庭总收入、家庭人口数、家庭支出(较详细)、家庭收入(较详细)、居住情况(详细)、交通工具、家庭消费、家庭财产、医疗费用(详细)、家庭成员生病(较详细)、食物消费(详细)。(3)社区层次变量。村人数、村户数、是否实行医疗保险、医院情况、消费结构、学校情况、计划生育情况、食品价格。

可做的研究:
(1)身高体重与食物结构的关系。
(2)劳动力市场上是否在身高等存在歧视。
(3)吸烟对健康的影响。
(4)健康对劳动力供给的影响。
(5)就业问题。
(6)劳动力供给时间问题。
(7)医疗保险对健康的影响。
(8)社区医疗结构(医院的多少)对健康的影响
(9)某些疾病的发病趋势。
(10)收入不平等问题。
(11)社会保障方面的研究。
(12)家庭消费的决定因素及模式变化。

数据来源:公开。



(五)RHS (Rural Household Survey)

简介:中国农村住户调查数据。它是国家统计局农调总队负责调查的。它是与城镇调查相对应的一个数据,也是每年做一次,但因为涉及到的问题比较敏感,这一套数据比较难拿。

(内附2004年调查问卷)

包含变量:(1)个人层次上的变量。与户主关系,性别、年龄、文化程度、当年在家居住的时间、是否在校学生、是否接受过技能培训、是否丧失劳动能力、从事、行业、从事农业生产的时间、从事非农行业的时间、是否乡镇企业职工、在乡镇企业工作的时间、外出方式、外出地区、在外务工时间、在外务工总收入
生活消费总支出。(2)家庭层次上的变量。家庭总收入、家庭人口数、家庭财产、现金支出、现金流入、家庭消费、缴纳的税费。

可做的研究:
(1)农村税费问题。
(2)农民工迁移问题,包括地区、迁移方式。
(3)农民工收入对家庭总收入的影响。
(4)研究乡镇企业问题。
(5)农村基础设施问题,电话、公路等等。
(6)农村地区财产性收入问题。
(7)农产品价格及农民收入问题。
(8)农业机械与农业产量。
(9)各种农作物种植面积的变化趋势。
(10)农村家庭消费的决定因素及模式变化。

数据来源:国家统计局。



(六)中国老年健康调查项目

简介:全国老年人口健康状况调查项目(又名中国老人健康长寿影响因素研究)的项目主持人为北京大学中国经济研究中心教授与杜克大学教授及北大老龄健康与家庭研究中心主任曾毅。这一数据库主要是为有关老年人的研究服务。现有的数据包括:1998 2000 2002 2005年。

(内附2005年的调查问卷)


包含变量:性别、年龄、属相、出生日期、出生地、婚姻、受教育程度、以前所从事行业、生活能力、疾病、看病花费等信息

可做的研究:
(1)       老年人的居住安排(跟儿子住,还是跟女儿住)
(2)       老年人的疾病状况。
(3)       老年人医疗支出结构分析。
(4)       所从事行业对以后健康的影响。


(七)CHARLS(China Health and Retirement Longitudinal Study)

简介:中国健康退休跟踪调查。这个数据库是由北京大学中国经济研究中心赵耀辉教授负责的一个项目。这个项目实际是跟美国的HRS数据库并行的,主要是为了研究健康和退休行为。这个数据选取的样本是,年龄大于等于45岁。这个数据库的质量非常好,为了得到血样的数据,专门对相关的数据采集员做了培训。这个数据库最快明年春天就能用,并且它是对所有的研究者公开的。这个数据另外的一个好处是,它是一个面板数据。

(内附调查问卷)

包含的变量:包含的变量非常丰富。基本在劳动经济学研究中,能用到的变量都考虑到了。举几个例子。教育水平,细分到了硕士和博士;英语水平细分到了过了国家几级;大学是同等学历还是正规毕业;村干部细分到了村书记还是村会计。

可做的研究:
(1)       社会保障方面的研究;
(2)       老龄化问题方面的研究;
(3)       其它劳动经济学方面的研究;
(4)       人口经济学方面的研究;
(5)       卫生经济学方面的研究;

(八)其它的数据

(1)       第一次经济普查数据
工业普查
农业普查

(2)       第一次、第二次妇女社会地位调查数据

(3)       CSMAR (China Stock Market & Accouting Reseach)。这是一个关于上市公司的数据。

(4)       关于全世界股票指数的数据库。

(5)       中国社会科学院劳动与人口研究所五个城市(上海、福州、沈阳、武汉和西安)的劳动力市场数据。


CHIP数据,是中国社会科学院经济研究所收入分配课题组(李实、赵人伟老师主持,福特基金赞助)于1988年、1995年和2002年,进行的全国调查中的中国农村和城市居民家庭收入分配调查得到的。1995年的调查覆盖19个省(市、自治区),调查了6931户城镇家庭和7998户农村家庭,分别涉及21696位城镇居民和34739位农村居民;2002年的调查覆盖22个省(市、自治区),调查了6835户城镇家庭和9200户农村家庭,分别涉及20632位城镇居民和37969位农村居民。刚开始CHIP(中国家庭收入项目)数据是在海外公开的,前几年我的老师用的时候还是花了好几千买的,而我们现在都已经能共享了,是由美国密西根大学校际政治及社会研究联盟(ICPSR)公布的,里面还有很多其他数据。(经济研究上有很多文章都是用的这个数据)
http://bbs.pinggu.org/thread-1275080-1-1.html

http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/9836;jsessionid=5C778733263D9AE441544F58422017E2?classification=ICPSR.IV.B

最近学微观计量,要用到许多数据,如CHIP、CHARLS、CFPS、CHNS等。刚开始也很被动,老向老师抱怨找不到数据,结果被批评了一番。狠下心来在Google和baidu里畅游了N久,终于功夫不负有心人,找到了很多有用的数据。
       其中应用最广的CHIP数据,是中国社会科学院经济研究所收入分配课题组(李实、赵人伟老师主持,福特基金赞助)于1988年、1995年和2002年,进行的全国调查中的中国农村和城市居民家庭收入分配调查得到的。1995年的调查覆盖19个省(市、自治区),调查了6931户城镇家庭和7998户农村家庭,分别涉及21696位城镇居民和34739位农村居民;2002年的调查覆盖22个省(市、自治区),调查了6835户城镇家庭和9200户农村家庭,分别涉及20632位城镇居民和37969位农村居民。刚开始CHIP(中国家庭收入项目)数据是在海外公开的,前几年我的老师用的时候还是花了好几千买的,而我们现在都已经能共享了,是由美国密西根大学校际政治及社会研究联盟(ICPSR)公布的,里面还有很多其他数据。(经济研究上有很多文章都是用的这个数据)
        而CHNS(中国健康与营养调查)、CHARLS(中国健康与养老追踪调查)、CFPS(中国家庭动态调查)、CHFS(China Health and Fertility Survey )等则是在老师上课时所给的链接中下的,大部分的数据下载页面都是英文界面的,而且需要先注册,通过邮件获得密码、ID之类的才能继续下载,所以可能需要点耐心。其中CFPS还需要寄信函到北京才能取得密码和ID,所以我暂时只下到它的Codebook和问卷!
PS:数据格式大部分是.dta格式的(Stata支持),也有SPSS等支持的数据。(压缩后有近300m)
        因为部分数据文件较大,上传比较麻烦,所以现在暂时将这些数据的下载链接跟大家共享,另外还附带了学习Stata的比较好的网站,尤其是UCLA的那个,很受用!!希望大家合理利用这些数据,写出高质量的文章来!!

CHIP数据的链接:
http://www.icpsr.org/icpsrweb/ICPSR/studies/9836;jsessionid=5C778733263D9AE441544F58422017E2?classification=ICPSR.IV.B.
 
http://www.icpsr.org/icpsrweb/ICPSR/studies/3012;jsessionid=5C778733263D9AE441544F58422017E2?classification=ICPSR.IV.B.
 
http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/21741

劳动经济学数据库

本帖最后由 xfc2010 于 2012-3-17 15:18 编辑


A。免费的大型数据库
 
两个比较著名的免费的大型数据库是:
1.中国营养和健康调查(CHNS):
http://www.cpc.unc.edu/projects/china
调查由美国北卡罗来纳大学教堂山校区的卡罗莱纳人口中心(the Carolina Population Center at the University of North Carolina at Chapel Hill )和中国疾病预防和控制中心的营养和食品安全局联合主持展开。调查涉及9个有代表性的省份,涉及了4400个家庭和20000个左右的个人。
从1989年开始,现在完成了七轮调查,分别是1989年、1991年、1995年、1997年、2000年、2004年和2006年。根据其主页信息,2009年的调查将在近期启动。
这个数据库是完全免费的,只要注册提供自己的一些信息就可以下载相关数据了。调查问卷提供中英文两种版本。
 
2.中国综合社会调查(CGSS)
http://www.cssod.org/index.php
这个是由中国人民大学社会学系和香港科技大学社会学系联合主持完成的。使用者需要申请提供自己的详细信息并签订一份使用协议。
目前进行了三轮,分别是2003年、2005年和2006年。
 
B.有偿使用的数据库
1.中国家庭收入调查(CHIP)
这个应该是目前最有影响中国微观数据库吧。调查覆盖面很广调查涉及了中国22个省、122个县和960多个行政村,缺省数据极少。
这个数据目前进行了3论,分别是1988年、1995年和2002年。最新一轮的调查应该会在今年展开吧(7年一轮)。
在此对李实老师等人的辛劳表示衷心的感谢,他们对中国应用微观经济研究的贡献无疑是相当巨大的。

2.中国国家统计局的1%调查样本
在读文献中看到不少论文使用国家统计局的城市调查和农村调查。
C。CHARLS——China Health and Retirement Longitudinal Study
这是CCER对中国经济学研究的有一个贡献。具体介绍看网站首页:http://charls.ccer.edu.cn/charls/index.asp
D。其他
还有许多根据各地调查的数据库,比如CCER赵耀辉教授曾经使用过的1995年的关于四川省的一个调查,以及Heckman使用过的中国城市家庭收入和支出调查(China Urban Household Income and Expending Survey, CUHIES),以及其他关于各个省份或者个别省份的调查,这些调查都有一定程度的适用性,只是使用的不是很广泛。


《计量经济圈Membership》


最新获计量经济圈Membership成员:

周潮;微笑生活,珍爱现;在王一出;张超

恭喜新晋入圈友们。


在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭戳这里),进去之后一定要看“群公告”,不然接收不了群信息。






    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存