查看原文
其他

始终如一 | 虚拟变量与美丽的“虚拟变量陷阱”

江河JH 功夫计量经济学 2022-03-15
在研究过程中,我们通常会遇到定性信息,如性别、民族、婚姻状况等。这个时候,就该我们的虚拟变量“粉墨登场”了。虚拟变量可谓是计量经济学中浓墨重彩的一笔,伍老头子《计量经济学导论》专门有一章讲解虚拟变量,微观计量中的 DID、RD 和 PSM 等方法也都是建立在虚拟变量的基础上,其重要性不言而喻。

虚拟变量的引入

方法其实都是次要的,有时一个简单的虚拟变量就能帮助我们解决大问题。例如,我们想要研究劳动力市场中是否存在性别歧视,那么就可以建立如下的线性模型:
其中, 表示工资; 是表示是否是女性的二值虚拟变量,对于女性 ,而对于男性 表示一系列控制变量。参数 具有如下含义:在控制其他变量不变的情况的下, 是女性与男性在工资上的差异。如果 ,那么就说明在其他因素相同的情况下,女性总体上挣得要比男性少,也就说明了劳动力市场上存在对女性的性别歧视。
  • 女性工资
  • 男性工资

虚拟变量陷阱

本来问题就是如此简单,但是很多人可能都会在这里犯迷糊,落入所谓的“虚拟变量陷阱”:在模型中加入了一个表示女性的虚拟变量 后,“手贱”又在模型中加入了一个表示男性的虚拟变量

femalemalefemale+male
男性011
女性101
由于 (始终如一), 的一个完全线性函数,这就会导致完全共线性问题。完全共线性问题违背了我们的高斯-马尔科夫假定中的 MLR.3,会导致无法估计的“灾难性后果”。

假定 MLR.3 (不存在完全共线性)

在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系。

至于完全共线性为什么会导致无法使用 OLS 进行估计,伍老头子那本书也没说清楚,如果大家学的是使用矩阵推导的计量教材,那么就会清楚很多。

多元线性回归的 OLS 估计量

其中, 表示数据矩阵, 表示数据矩阵的转置。

如果存在完全共线性问题,那么就会导致数据矩阵 中某一列会被消零,从而 不满足列满秩条件, 无法求逆, 不存在,无法计算 OLS 估计量

有序变量 or 多个二值虚拟?

越漂亮收入越高吗?这是一个很有意思的话题。Hamermesh 和 Biddle(1994)研究了相貌吸引力对工资的影响,国内的郭继强、费舒澜和林平(2017)也有做过类似的研究。在这项研究中,一个关键的问题就是相貌如何度量,相貌难以通过一个连续型变量刻画,但是容易分类,为了简便起见,我们可以将其分为不好看、一般水平和好看三类。

原文信息

[1]Hamermesh D S , Biddle J E . Beauty and the Labor Market[J]. American Economic Review, 1994, 84.

[2]郭继强,费舒澜,林平.越漂亮,收入越高吗?——兼论相貌与收入的“高跟鞋曲线”[J].经济学(季刊),2017,16(01):147-172.

一种思路就是使用一个序数变量 来表示相貌(不好看=1,一般=2,好看=3)。但是这么做有一个问题就是,我们很难解释 一个单位的变化,因为从 1(不好看)到 2(一般)所带来的工资的变化和从 2(一般)到 3(好看)所带来的工资的变化是一样的吗?
一种更好的做法就是使用多个二值虚拟变量,我们只需要设定一个基准组,其他组都和它进行比较就行了。例如,我们设定相貌一般为基准组,接下来只需要使用 两个虚拟变量就好了( 个组只需 个虚拟变量。否则就又落入“虚拟变量陷阱”了)。
其中, 是表示不好看的虚拟变量(不好看=1,其他=0), 是表示好看的虚拟变量(好看=1,其他=0)。

参数 的含义:在控制其他变量不变的情况下, 是相貌不好看的人与相貌一般的人之间的工资差异
参数 的含义:在控制其他变量不变的情况下, 是相貌好看的人与相貌一般的人之间的工资差异

参考资料

[1]陈强.高级计量经济学及 Stata 应用[M].北京:高等教育出版社,2014.

[2]杰费里·M·伍德里奇.计量经济学导论:现代观点[M].北京:中国人民大学出版社,2015.


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存