实证研究中交叉项的使用和解读策略指南案例

计量经济圈计量经济圈 2019-06-30

可有偿投稿计量经济圈，计量相关则可

邮箱：econometrics666@sina.cn

编辑:计量经济圈; 来源:社会学研究; 作者: 彭大松.

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到研究小组交流访问.计量经济圈招募金融计量和时间序列研究小组组长.文末有推荐电影.picture:@静溪

今天，我们微观计量研究小组将为计量经济圈的圈友引荐一篇“关于交叉项使用和解读策略指南案例”。我们已经推送过相关的交互项(计量回归中的交互项到底什么鬼? 捎一本书给你)，但是对于圈友们深入理解实证中的交互项操作还是远远不足的。这篇文章最精彩的地方，就是连续不断的使用各种交互项，然后区分主效应和交互效应，并且对这些效应的解读是非常清晰易懂的。只要你记得各个虚拟变量的参照组是什么，然后你就可以解读你的各个交互效应了。

注意，我们研究小组主要有选择地展示文中值得学习和借鉴的实证研究策略策略。因此，我们把一些对于我们理解这些实证方法而言不那么重要的部分省略了。下面，我们之所也把文章使用的变量和定义列出来，是因为这会对我们理解交叉项的解释提供依据。

数据、变量与方法

(一)数据来源与变量操作化

本研究采用北京大学中国社会科学调查中心主持的中国家庭追踪调查数据(CFPS 2010)。①该数据有婚姻史方面的问项，为再婚研究提供了极大的便利。

在样本选取上，我们考虑如下三点：

一是考虑到经历多次再婚的个体与初次再婚个体的影响因素可能有所差异，因此只抽取个体初次再婚信息进行分析，而对个体的二次再婚信息不再纳入分析；

二是尽管丧偶也是再婚的重要来源之一，但考虑到离婚再婚个体和丧偶再婚个体在再婚动机、再婚需求等方面有着很大区别，从而可能使得两类样本在再婚影响因素上也不大相同，因此本研究样本只保留离婚再婚样本；

三是CFPS2010数据是基于家庭的调查数据，有少数家有1个以上再婚被访者情况，考虑到家庭背景相似性可能对系数估计带来的影响，本文借鉴李建新 (2014)的做法，只保留其中1个被访者的信息。结合问卷问项，我们从数据库中获取分析样本 1257个，剔除信息不全样本，最后获得有效样本 1033个。

根据本文的研究目的，本文将因变量操作化为再婚发生比(或再婚风险率，hazard rate of remarriage)。再婚发生比是指个体离婚后一段时间内发生再婚的概率比。④本研究的风险期起点设定为初婚解体时间(单位为“月”)，终点设定为被访者再婚时点，未发生再婚的被访者以调查时点为终点(2O1O年 7月)。在这段时间内仍然没有再婚的个体视为删失样本

本研究的自变量分为两个部分，包括反映个体因素的变量和反映家庭影响的变量。前者主要包括受教育程度、收入、工作、是否有未成年子女同住、住房条件等变量。后者主要包括家庭规模、父母是否健在、亲属网络规模、是否隶属于大家族等变量。另外，我们将户籍、婚姻解体时的年龄、性别、民族、地区等作为控制变量纳入分析。

变量具体操作化方法如下：

(1)婚姻解体年龄通过出生年龄和初婚解体发生时间来计算。考虑到初婚发生时个体所处的年龄段不同，其再婚愿望和动机可能有差异，本文借鉴兰帕德和派格 (Lampard& Pegg，1999)的做法，将年龄分为4组，即25岁以下年龄组(参照组 )、25—34岁年龄组，35—45岁年龄组，以及 45岁以上年龄组。

(2)受教育程度根据个人问卷中详细的教育史调查信息，可以十分方便地操作化为 4个类别，即未受正规教育 (参照组 )、接受义务阶段教育 (小学、初中)、接受中等教育 (高中、中专 )以及接受高等教育(大专及以上教育)。

(3)收入操作化为年收入对数。工作指个体是否从事非农工作，以农业工作为参照组。性别、民族也处理为二分变量，分别以女性、汉族作为参照组。

(4)地域操作化为分类变量，根据中国地理区划将其划分为西部地区(参照组 )、中部地区和东部地区。

(5)住房情况用两个变量来测量，分别是 “住房条件评价”、“是否存在居住困难”。住房条件评价是由访问员根据受访者所在地的住房情况做出的一种评价，赋值 1—7，分别代表了住房条件从差到好的等级水平，在实际分析时做连续变量处理。是否存在住房困难操作化为二分变量 (住房困难为参照组 )。

(6)家庭因素通过 4个变量来测量：家庭规模操作化为连续变量；父母是否健在操作化为二分变量，以父母双方均去世为参照组；家庭亲属网络规模操作化为连续变量，以春节走亲戚人数来测量；是否隶属于大家族操作化为二分变量，以是否有完整的族谱来测量。一般而言，完整的族谱通常和较大的宗族或家族相联系。我们认为有完整族谱的家庭隶属于大家族的可能性较大。因此，将有完整族谱的家庭视为隶属于大家族的家庭，而没有完整族谱的家庭则成为参照组。

(7)未成年孩子，即是否有18岁以下子女同住、这里操作化为三分类变量，即无未成年子女 (参照组 )、有未成年子女但不同住、有未成年子女目．同住。

(二 )分析方法与策略

本文运用事件史分析中常用的COX比例风险模型来探索中国人再婚行为及其影响机制。事件史方法的优点是可以同时考虑删失样本及时变变量提供的信息。COX比例风险模型的优势是无需参照任何理论分布，且系数估计稳定。

数据分析将分为两个部分。首先是针对全样本进行描述性分析，以获得初婚解体后再婚样本的分布特征。其次，针对文中假设进行推断统计分析。

四、结果与分析

(一)生存数据的描述性分析

本研究运用先将数据转换成适合事件史分析数据，然后对有关变量进行描述性统计分析。结果表明，被访对象平均再婚历时为 6.4年，平均再婚发生比为 0.63。农村被访者平均再婚历时为 5.5年，城市为 6.9年。农村平均再婚发生率 0.73，城市则为 0.57。性别上也有差异，男性再婚历时平均为6.8年，女性为 5.8年，这表明相比男性而言，女性会更快地再婚。再婚发生率也存在地区差异，西部地区平均再婚历时要比中部和东部地区短1年以上。住房条件也是影响再婚的重要因素，有住房困难的个体要比无住房困难的个体延迟0.6年。有未成年孩子且同住的被访者在一定程度上加速了其再婚步伐，缩短了再婚的等待时间。

具体而言，无未成年孩子的个体再婚历时平均为 7.3年，有未成年孩子但不同住的个体再婚历时平均为 5.8年，有未成年孩子且同住的个体，再婚历时平均则缩短为 3.4年。这些描述性统计分析，可以让我们从整体上了解单个变量对个体再婚行为的影响。此外，我们通过 K—M生存函数估计发现，在婚姻解体的最初阶段 (0—5年)，生存率急剧下降，而到了一定阶段以后趋于平缓。这就表明，婚姻解体的最初几年是再婚的高发阶段，而后再婚发生相对缓慢甚至停止。再婚在整体上所表现出来的这种规律性与我们实际情况大体一致。

(二 )再婚的影响因素的检验

1．家庭因素的影响效应估计

考虑到本文一个重要的任务是检验家庭因素对再婚行为的影响。我们将采取两步分析策略。首先在模型 1中只纳入控制变量和家庭相关变量进行估计。然后在模型 1的基础上纳入对再婚有潜在影响的个人变量，形成模型 2。最后，通过比较模型 1和模型 2的估计结果，以确定家庭因素影响再婚行为的效应是否具有稳定性 (见表 1)。

模型 1只纳入了家庭变量和年龄、性别、地域、民族等控制变量。从分析结果可以看出，衡量家庭对再婚影响的 4个变量中，除了“父母是否健在”这一变量统计不显著之外，其他 3个关键变量均有统计显著性。而且，3个统计显著的变量对再婚行为也都具有正向影响。这一结果基本上证实了假设 1。模型 2在模型 1的基础上纳入全部的个人影响变量，结果发现家庭因素的 4个变量的估计值几乎没有发生变化，而且依然具有统计显著性。这表明家庭变量对再婚的影响相当稳定。

我们以模型 1的系数估计来说明家庭对再婚的影响效应。首先，家庭规模每增加 1人，其家庭成员再婚发生比平均提高 17％ (e ^(0.16)-1=0.17)。这一结果验证了假设 1b，即家庭成员越多、规模越大的家庭中，个体再婚的可能性越大。其次，家庭亲属交往网络规模也有助于家庭成员再婚。家庭亲属交往网络规模每增加 1家，将会让再婚发生比平均提高 2％ (e^(0.02)-1= 0.02)。这一结果证实了假设 1c，即亲属交往频繁，亲属网络规模越大的家庭中，个体再婚的可能性增加。第三，隶属于大家族的家庭成员再婚概率会显著提高。相比没有族谱的家庭而言，有族谱的家庭成员再婚概率比将会提高 22％(e^(0.20)-1= 0.22)，假设1d得到证实。

在假设 1中设置的4个分假设中，惟有假设 1a没有获得数据的支持。笔者认为这其中的原因可能是父母对离婚子女再婚的影响具有两面性。一方面，父母积极为子女寻找新的配偶，但通过父母的途径为再婚子女寻找配偶的效率不高。另一方面，父母健在可以为子女提供力所能及的帮助，例如照看孩子、帮做家务等。这在一定程度上大大削减了子女离婚后为生活所迫而草率再婚的行为 (下文模型 9的交互项分析证实了这种推测)。

2．个人资源的影响效应估计

模型 2也估计了个人资源对再婚的影响。总体而言，除了“教育” 之外，其余的测量个人资源的相关变量均对再婚有着正向影响。其中，年收入对数尽管对再婚影响微弱，但结论仍具有统计意义。参加非农工作也将显著提高个体的再婚发生概率，即与没有非农工作的离婚者相比，有非农工作的人再婚发生比平均提高 16％ (e^(0.15)-1= 0.16)。住房条件在再婚中的正向作用尤为显著。代表住房情况的变量中，无一例外地都具有统计显著性。具体来说，住房条件评价值每增加 1个单位，再婚发生比平均提升 6％(e^(0.61)-1= 0.06)。与有住房困难的离婚者相比，无住房困难的离婚者再婚发生比平均提高了 22％ (e^(0.20)-1= 0.22)。这充分说明了“住房”对于中国人再婚有重要意义。

为了检验个体资源因素对再婚的影响是否因为性别不同而有所差异，笔者在模型 2的基础上，纳入了性别与个体资源交互项进行验证 (见表 2)。在交互项分析中，除了“工作”、“收人 ”的交互项不显著之外，其他各项交互项均具有统计显著性。这一结果暗示，个体资源因素对两性再婚作用存在显著差异。

模型 3中，工作主效应估计值为 0.20(P<0.05)，说明女性参加非农工作将有利于其再婚。具体来说，与未参加非农工作的女性离异者相比，有非农工作的个体再婚发生比将提高 22％(e^(0.20)-1= 0.22)。性别主效应的估计值为一0.29(P<0.05)，表明未参加非农工作的男性将比未参加非农工作的女性再婚更困难，其再婚发生比相应下降 25％ (e^(-0.29)-1=- 0.25)。性别与非农工作的交互项并没有统计显著性，这表明参加非农工作对再婚的促进作用不存在性别差异，即无论男性还是女性，参加非农工作对再婚都有相似的促进作用。这一结果证实了假设 4。

模型 4纳入了性别与收入的交互项，结果显示：性别主效应为一 0．53(P<0.01)，这表示与女性相比，收入低对男性再婚的负面影响更大。低收入女性比低收入男性再婚发生比要平均高出 4l％ (e^(-0.53)-1= -0.41)。收入主效应估计值为一0.01(P<0.1)，表明收入对女性的再婚有微弱的负向影响，性别与收入的交互效应为 0.03，尽管这一估计值不具有统计显著性，但收入对男性再婚的正向影响大于女性的趋势是明确的。由此我们认为，收入对女性再婚具有两面性，一方面对再婚有促进作用，但随着收人的增长，其对婚姻的依赖程度却出现了下降趋势，进而延缓了再婚进程。

模型 5纳入了住房条件和性别的交互项。模型 5估计结果显示，性别主效应为一1．25(P<0.001)，这表示在控制其他变量的前提下，住房条件差的男性平均比同等条件的女性再婚发生比下降 7l％ (e ^(-1.25)-1= -0.71)。住房条件主效应的估计值为一0.06，说明住房条件的改善对女性再婚有负向影响。这种负向作用机制，同样可解释为女性对婚姻依赖程度下降以及找寻合适再婚对象的时间延长所致。交互项效应值为 0．22(P<0.001)，这说明住房条件的改善对于提高男性再婚比的作用更显著，在控制其他变量的情况下，住房对男性再婚的促进作用比女性高出 18．8％[(e^(0.22)-1+(e^(-0.06)-1= 0.188]。

模型 6纳入了教育和性别的交互项，性别主效应为一0．51(P< 0.00)，表示其他条件不变的前提下，未受正规教育的男性与同等条件的女性相比，再婚发生比相应下降 40％(e^(-0.51)-1= -0.40)。教育的 3个估计值均小于 0，说明随着教育程度的提高，女性再婚发生比将呈现下降趋势。与未受正规教育的女性相比，受过中等教育的女性再婚发生比将下降 37％(e^(-0.47)-1=-0.37)，受过高等教育的女性再婚发生比将下降 56％ (e^(-0.82)-1= -0.56)。3个交互项中有 2项具有统计意义，这表明接受中等教育和高等教育对再婚的作用存在性别差异。具体而言，与未受正规教育的女性相比，受中等教育的男性再婚发生比平均下降 19％[e^(0.46)-1+e ^(-0.47)-1+e^(-0.51)-1= -0.19]，受过高等教育的男性再婚发生比则平均下降 7％。

除了教育因素外，模型 4至模型 6的分析结果基本上验证了假设 3的推断。即个体资源优势对再婚的影响存在性别差异。对于男性而言，较好的经济收入、良好的住房条件、参与非农工作都有利于再婚。但对于女性而言，则因资源类型不同而有不同的影响。具体来说，除了工作这个变量对女性再婚有积极影响之外，其余个人资源因素均对其再婚构成负向影响。

3．城乡差异、未成年子女及年龄的影响

再婚的性别差异不仅体现在个体资源对再婚影响方面，也体现在 “城乡”、“是否有未成年子女 ”以及“年龄”这样的因素上。为了检验城乡、子女因素是否因为性别不同而对再婚产生不同的影响，我们分别设置了性别与城乡、未成年子女以及年龄等变量的交互项进行验证 (见表 4)。

模型 7中加人了性别与户籍交互项。结果显示，性别主效应为一 0．76(P<0.001)，这说明在控制其他条件的情况下，与农村女性相比，农村男性的再婚发生比平均要低 53％ (e^(-0.76)-1= -0.53)。这也就意味着农村男性再婚将比农村女性更加困难。户籍主效应估计值为一 0．57(P<0.001)，说明在控制其他条件不变的情况下，城市女性相比农村女性而言，再婚发生比平均下降 43％ (e^(-0.57)-1= -0.43)。交互项系数估计值为 0.77(P<0.001)，表明城市男性再婚发生率明显高于农村女性 19％[e^(0.76)-1+e^(-0.57)-1+e^(-0.76)-1= -0.19]，更明显高于城市女性。这一分析结果基本证实了假设 2的推断，即与城市女性相比，城市男性再婚的可能性相对较高。与农村女性相比，农村男性再婚的可能性相对较低。

模型 8将性别与未成年子女变量的交互项纳入模型进行估计。结果显示，性别主效应为一0.46(P<0.001)，这表明在无未成年子女的情况下，男性再婚发生比比女f生低 37％(e^(-0.46)-1= -0.37)。有未成年子女但不同住的主效应估计值为 0．64(P<0.001)，表明与没有未成年子女的女陛相比，有未成年子女的女性再婚发生比将提高 90％ (e^(0.64)-1= 0.90)。有未成年子女且同住的主效应估计值为 0.96(P<0．001)，表明一旦未成年子女与其同住，再婚发生比将成倍增加。交互项的效应值分别为 1．02(P<0.01)和 0.30(P<0.01)，这表明未成年子女对再婚的影响存在性别差异。具体而言，有未成年子女的男性再婚发生比是无未成年子女的女性的 2.3倍 [e^(1.02)-1+e^(0.64)-1+e^(-0.46)-1=2.30]，有未成年子女且同住的男性再婚发生比则是其 1．69倍。这一结果基本验证了假设 5以及假设 5a的推断。

模型 9将未成年子女变量与父母是否健在变量的交互项纳入分析，旨在检验隔代抚养对再婚带来的影响。父母健在这一变量的主效应估计值为一0.16，但并不显著。这表明在没有未成年子女的前提下，父母是否健在对个体的再婚并不构成实质性影响。未成年子女的两个主效应值分别为 1．27(P<0.001)和 0．96(P<0.001)。这表明父母都不在世的情况下，未成年子女因素都对再婚具有促进作用。两个交互项估计系数均小于 0，并且未成年子女同住与父母健在交互项系数估计值为一0．35(P<0.O1)。这表明父母健在会削弱未成年子女对再婚的影响。这一分析结果证实了假设 5b。

模型 10纳入了年龄与性别交互项，旨在检验年龄因素对再婚影响是否存在性别差异。结果显示，性别主效应系数为一0.25，且没有统计显著性。这表明对于 25岁以下年龄组而言，年龄对再婚的影响没有性别差异。三个年龄组主效应值均小于 0，这表明女性随着年龄的增长，年龄对再婚的影响具有负向效应。除了25—34岁年龄组不显著外，其他两组均有统计显著性。这说明，年龄越大对女性再婚的负向影响也越强。具体来说，与 25岁以下女性相比较，35—44岁年龄组女性再婚发生比下降 27％ (P<0.05)，45岁以上年龄组女性再婚发生比下降 52％。三个交互项中只有“45岁以上年龄组 ”与性别的交互项有统计意义。从三项估计系数来看，尽管男性再婚也受到年龄增长带来的负向影响，但其影响程度比女性小得多。由此可见，年龄作为一种特殊资源对于女性的意义远远超过了男性。这一结果也验证了假设 6。

参考文献：

彭大松，个人资源、家庭因素与再婚行为——基于CFPS2010数据的分析[J].社会学研究.2015,(4).

计量经济圈推荐

2.RDD断点回归, Stata程序百科全书式的宝典
3.Generalized分位数回归, 新的前沿因果推断方法
4.Heckman模型out了,内生转换模型掌控大局
5.PSM倾向匹配Stata操作详细步骤和代码，干货
6.条件Logit绝对不输多项Logit,而混合模型最给力
7.广义PSM,连续政策变量因果识别的不二利器
8.自回归VAR模型操作指南针,为微观面板VAR铺基石
9.有限混合模型FMM,异质性分组分析的新筹码
10.政策评估中"中介效应"因果分析, 有趣的前沿方法
11.多期三重差分法和双重差分法的操作指南
12.多期双重差分法,政策实施时间不同的处理方法
13.随机前沿分析和包络数据分析 SFA,DEA 及操作
14.你的内生性解决方式out, ERM已一统天下而独领风骚
15.多期DID的经典文献big bad banks数据和do文件
16.面板数据里处理多重高维固定效应的神器
17.双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁
18.面板数据计量方法全局脉络和程序使用指南篇

所有计量经济圈方法论丛的do文件都放在社群里,可以直接取出使用运行,也欢迎到研究小组交流访问.感谢咱们计量经济圈社群伙伴们的理解，愿这个社区陪你走过一段难忘的路途。

计量经济圈是中国计量第一大社区，我们致力于推动中国计量理论和实证技能的提升，圈子以海内外高校研究生和教师为主。计量经济圈六多精神：计量资料多，社会科学数据多，科研牛人多，名校人物多，热情互助多，前沿趋势多。如果你热爱计量并希望长见识，那欢迎你加入到咱们这个大家庭(戳这里)，要不然你只能去其他那些Open access圈子了。注意：进去之后一定要看小鹅社群“群公告”，不然接收不了群息，也不知道怎么进入咱们独一无二的微信群和QQ群。

进去之后就能够看见这个群公告了

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言