始终如一 | 虚拟变量与美丽的“虚拟变量陷阱”

Original 江河JH 功夫计量经济学 2022-03-15

在研究过程中，我们通常会遇到定性信息，如性别、民族、婚姻状况等。这个时候，就该我们的虚拟变量“粉墨登场”了。虚拟变量可谓是计量经济学中浓墨重彩的一笔，伍老头子《计量经济学导论》专门有一章讲解虚拟变量，微观计量中的 DID、RD 和 PSM 等方法也都是建立在虚拟变量的基础上，其重要性不言而喻。

虚拟变量的引入

方法其实都是次要的，有时一个简单的虚拟变量就能帮助我们解决大问题。例如，我们想要研究劳动力市场中是否存在性别歧视，那么就可以建立如下的线性模型：

其中，表示工资；是表示是否是女性的二值虚拟变量，对于女性，而对于男性；表示一系列控制变量。参数 具有如下含义：在控制其他变量不变的情况的下， 是女性与男性在工资上的差异。如果，那么就说明在其他因素相同的情况下，女性总体上挣得要比男性少，也就说明了劳动力市场上存在对女性的性别歧视。

女性工资

男性工资

虚拟变量陷阱

本来问题就是如此简单，但是很多人可能都会在这里犯迷糊，落入所谓的“虚拟变量陷阱”：在模型中加入了一个表示女性的虚拟变量后，“手贱”又在模型中加入了一个表示男性的虚拟变量。

	female	male	female+male
男性	0	1	1
女性	1	0	1

由于 （始终如一）， 是 的一个完全线性函数，这就会导致完全共线性问题。完全共线性问题违背了我们的高斯-马尔科夫假定中的 MLR.3，会导致无法估计的“灾难性后果”。

假定 MLR.3 （不存在完全共线性）
在样本（因而在总体中），没有一个自变量是常数，自变量之间也不存在严格的线性关系。

至于完全共线性为什么会导致无法使用 OLS 进行估计，伍老头子那本书也没说清楚，如果大家学的是使用矩阵推导的计量教材，那么就会清楚很多。

多元线性回归的 OLS 估计量
其中，表示数据矩阵，表示数据矩阵的转置。

如果存在完全共线性问题，那么就会导致数据矩阵中某一列会被消零，从而不满足列满秩条件，无法求逆，不存在，无法计算 OLS 估计量。

有序变量 or 多个二值虚拟？

越漂亮收入越高吗？这是一个很有意思的话题。Hamermesh 和 Biddle（1994）研究了相貌吸引力对工资的影响，国内的郭继强、费舒澜和林平（2017）也有做过类似的研究。在这项研究中，一个关键的问题就是相貌如何度量，相貌难以通过一个连续型变量刻画，但是容易分类，为了简便起见，我们可以将其分为不好看、一般水平和好看三类。

原文信息
[1]Hamermesh D S , Biddle J E . Beauty and the Labor Market[J]. American Economic Review, 1994, 84.
[2]郭继强,费舒澜,林平.越漂亮,收入越高吗?——兼论相貌与收入的“高跟鞋曲线”[J].经济学(季刊),2017,16(01):147-172.

一种思路就是使用一个序数变量来表示相貌（不好看=1，一般=2，好看=3）。但是这么做有一个问题就是，我们很难解释一个单位的变化，因为从 1（不好看）到 2（一般）所带来的工资的变化和从 2（一般）到 3（好看）所带来的工资的变化是一样的吗？

一种更好的做法就是使用多个二值虚拟变量，我们只需要设定一个基准组，其他组都和它进行比较就行了。例如，我们设定相貌一般为基准组，接下来只需要使用和两个虚拟变量就好了（个组只需个虚拟变量。否则就又落入“虚拟变量陷阱”了）。

其中，是表示不好看的虚拟变量（不好看=1，其他=0），是表示好看的虚拟变量（好看=1，其他=0）。

参数 的含义：在控制其他变量不变的情况下， 是相貌不好看的人与相貌一般的人之间的工资差异。

参数 的含义：在控制其他变量不变的情况下， 是相貌好看的人与相貌一般的人之间的工资差异。

参考资料
[1]陈强.高级计量经济学及 Stata 应用[M].北京:高等教育出版社,2014.
[2]杰费里·M·伍德里奇.计量经济学导论：现代观点[M].北京:中国人民大学出版社,2015.

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

始终如一 | 虚拟变量与美丽的“虚拟变量陷阱”

虚拟变量的引入

虚拟变量陷阱

有序变量 or 多个二值虚拟？

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

生成图片，分享到微信朋友圈

始终如一 | 虚拟变量与美丽的“虚拟变量陷阱”

虚拟变量的引入

虚拟变量陷阱

有序变量 or 多个二值虚拟？

您可能也对以下帖子感兴趣