查看原文
其他

广义分位数回归和分位数处理效应, 用数据, 代码和code进行操作

计量圈社群 计量经济圈 2022-05-11


凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

*群友@老王 供稿

1.广义分位数回归, 新的前沿因果推断方法

在经济学研究中,参与一个培训项目会对不同的收入群体产生不同的影响,那我们该怎么去测度这个异质性呢?(这只是一个简单二值政策变量,后面我们还要说到多值政策效应的问题。)当然,我们会想到分位数回归,因为传统的mean回归就是分位数回归的一个特例。


那如果我们参与一个培训项目是具有内生性或者自选择性,因为高收入群体有时候更有可能参与一个培训项目,那这种heckman类型的自选择性问题就出现了。当然,我们会想到使用工具变量分位数回归,可以给这个内生的政策虚拟变量找到一个工具变量。你可以使用ivqreg


可有个问题是,我们传统的分位数回归实际上是条件期望回归,就是说我们需要基于在模型中的协变量这个条件来解释我们的系数。一旦我们改变协变量,比如增加或减少某个协变量,那我们对这个回归方程的系数解释就需要发生变化。尽管在实证中很多人用条件分位数进行回归,但解释仍然用无条件期望那一套进行解释。


理解一下这个slide说的道理:

看看下面的Table 3,上面是通过条件IVQR估计的政策效应,而下面是通过GQR估计的政策效应,是不是有很大的区别。


还有很多圈友问了,那如果我的政策变量不止一个,比如培训项目是一个政策变量,那失业保险金也是一个政策变量,二个政策变量同时对一个人的收入产生影响,该怎么去评估这些政策效应呢?又或者我的政策变量不是一个二元虚拟变量,它可能是一个有序变量或者干脆是连续变量,那咋办呢?


这些问题在因果推断或政策评估中都是需要解决的。下面将要引入的这个generalized quantile regression就是对上面问题提出一般化解决思路。它是一个无条件期望回归,就是说不管你的协变量增加了多少,我得到的依然是无条件的政策处理效应。它还可以去处理你的政策变量是有序的或者连续的情形,也可以处理你的多个政策变量的情形。毕竟这是广义分位数回归,它还可以处理面板分位数回归。广义分位数回归压根就不太理会你是把协变量当成政策变量,还是把政策变量当成协变量。


看看这个论文的解释:genqreg can be used to fit the generalized quantile regression estimator developed in Powell (2016).  The generalized quantile estimator addresses a fundamental problem posed by traditional quantile estimators: inclusion of additional covariates alters the interpretation of the estimated coefficient on the treatment variable.


As detailed in Powell (2016), the generalized quantile estimator implemented by genqreg addresses this problem and produces unconditional quantile treatment effects even in the presence of additional control variables. A special case of generalized quantile regression is quantile regression with panel data (see Powell (2015)); quantile regression with panel data can also be estimated using genqreg.


Numerical optimization proceeds via a Nelder-Mead algorithm. As estimation and calculation of standard errors can sometimes pose numerical challenges, the user can estimate generalized quantile regressions using Markov Chain Monte Carlo methods or grid-search methods.


下面我们来执行一下这个命令,看到底是什么样子的结果。


**安装一下这个命令

ssc install genqreg  //如果这种方式不行,那就使用这个链接:https://ideas.repec.org/c/boc/bocode/s458158.html


**获得数据

use "http://fmwww.bc.edu/repec/bocode/j/jtpa.dta"

keep if sex==1  // 性别男性


**主要是看参与培训项目是不是对不同区间的人造成了不同的收入效应

qreg earnings training hsorged black hispanic married wkless13 class_tr ojt_jsa ///

age2225 age2629 age3035 age3644 age4554 f2sms, q(85) vce(robust) //第85分位数的回归


**用了MCMC优化方法求解

genqreg earnings training hsorged black hispanic married wkless13 class_tr ojt_jsa ///

age2225 age2629 age3035 age3644 age4554 f2sms, q(85) optimize(mcmc) noisy draws(10000) burn(3000) arate(.5)


**这里使用了工具变量assignment来处理training的内生性问题,注意所有的协变量也放到了instrument,这与ivregress原理一样

genqreg earnings training hsorged black hispanic married wkless13 class_tr ///

ojt_jsa age2225 age2629 age3035 age3644 age4554 f2sms, q(85)instruments(assignmt hsorged black ///

hispanic married wkless13 class_tr ojt_jsa age2225 age2629 age3035 age3644 age4554 f2sms)


比较一下条件分位数回归和广义分位数回归的结果:

可以把后面这几段话读一下,再领会一下“广义分位数回归”的一般化到底体现在哪些地方。

We introduce a new flexible framework for estimation of unconditional quantile treatment effects and a corresponding generalized quantile regression estimator. The estimator provides consistent estimates of quantile treatment effects, even in the presence of covariates, for one of more treatment variables, which may be discrete or continuous. These properties distinguish the estimator from alternatives found in the literature. Conditional quantile estimators require altering the structural quantile function to include additional covariates. 


The GQR estimator allows one to condition on a separate set of covariates without altering the quantile function. Conditional quantile models assume that the relationship between the treatment variables and the outcome varies based only on unobserved factors and,consequently, the interpretation of the parameters changes as some of these factors become observed (i.e., covariates are added to the quantile function). This paper’s model assumes

that the treatment effects vary based on a nonseparable term which is a function of both  observed and unobserved factors. Similar to mean regression, adding covariates when using GQR does not drastically alter the interpretation of the estimates (beyond their effect on

the plausibility of the identification assumptions).


Typically, researchers include control variables for the purposes of identification and do not necessarily want the interpretation of the estimates to change. In fact, much empirical work interprets conditional QTEs as the impact of the treatment variables on the unconditional outcome distribution. GQR provides a straightforward method to estimate unconditional QTEs when the treatments or instruments are conditionally exogenous. QR and IVQR are special cases of the estimator introduced in this paper. Furthermore, distri-

bution regression can also be nested in the framework.


Simulation results illustrate the usefulness of the GQR estimator given simple data generating processes with properties that likely resonate with applied researchers. I also apply the estimator to study the effect of temporary and direct-hire job placement on labor earnings. Given that the quantile function includes two endogenous variables, existing methods estimating unconditional QTEs for a single binary treatment are not applicable (or potentially difficult to apply). The literature has estimated conditional QTEs for this application, but the unconditional QTEs suggest that these understate the positive effects

of direct-hire placements on the lower part of the earnings distribution.


Many economic models imply heterogeneous effects of policies, motivating analysis which permits the treatment effects to vary throughout the outcome distribution. GQR provides an appropriate method to estimate quantile treatment effects and counterfactual distributions under different policies and should be useful broadly to estimate such heterogeneity.


面板数据分位数回归qregpd主要是解决了additive fixed effect带来的问题,在这里不进行详细介绍了。


2.分位数处理效应模型

我们想要研究是否接受大学教育对工资的影响这个政策效应。一般而言,我们的结论都是建立比如在性别、种族、城乡和外貌相同的情况下,上大学对工资的影响。

而且这篇文章里引荐的程序可以将无条件分位数里的每一个quantile的结果展示在一列中,这样我们就可以直接看出处理变量X对于结果变量Y的异质性影响。最传统的KB的条件分位数回归并不能有效应对异方差和Cov(x, residual)≠0的情况,但今天引荐的这个分位数处理效应模型却能够通过解析标准误(analytical SE)去应对上面所出现的情形。

首先区分一下条件分位数和无条件分位数回归(来自于文后的文章的一部分)


分位数处理效应模型与传统的分位数模型,最主要的区别在于两者分析的框架不一样,前者是在潜在结果框架下去进行研究处理效应。这为我们的结论提供了更多的因果支撑,部分保证了处理组与控制组之间的assignment机制的随机性,依据在于倾向得分是以“可观测变量基础上的选择”而得到的且满足共同支撑假设。

今天的这个分位数处理效应模型的估计分别对应着四篇文章:有条件的外生分位数(这个与传统的KB分位数回归差不多一样),无条件的外生分位数(这个与广义分位数差不多一样),有条件的内生分位数(这就是工具变量分位数回归),无条件的内生分位数(广义分位数回归也能够通过工具变量得到类似结果)。


下面来运行一下这个模型的程序,看看分位数处理效应模型到底与之前的回归有何异同。案例的背景:研究在控制工作经验、种族、母亲教育程度和地域时,上大学对于将来工资收入的政策影响。程序、数据和注释放在社群里可以参考使用。

**有条件的外生分位数处理效应

qreg lwage college exper black motheduc reg662 reg663 reg664 reg665 reg666 reg667 reg668 reg669, quantile(0.1) 

传统的KB分位数回归模型,系数这些与上面的都一模一样了,唯一一点差别就是标准误差,因为一个使用解析标准误一个使用常见的标准误。

**有条件的内生分位数处理效应,即需要使用工具变量

无条件的分位数处理效应展示出来的结果主要是上大学对于不同收入阶层的影响程度,这个情况是适用于全体人群而非某一特定群体。


**无条件的外生分位数处理效应

可以与generalized广义一般分位数的回归结果进行比较,看是不是也存在上面这个会根据收入的不同所出现的异质性。


forvalues i=5(10)95 {

 genqreg lwage college proneness(exper black motheduc reg662 reg663 reg664 reg665 reg666 reg667 reg668 reg669), q(`i') optimize(mcmc) noisy draws(1000) burn(300) arate(.5)

}


**无条件的内生分位数处理效应,即需要使用工具变量


可以与generalized广义一般分位数的回归结果进行比较,看是不是也存在上面这个会根据收入的不同所出现的异质性。

forvalues i=5(10)95 {

  genqreg lwage college, q(`i') optimize(mcmc) noisy draws(1000) burn(300) arate(.5) instruments(nearc4) proneness(college exper black motheduc reg662 reg663 reg664 reg665 reg666 reg667 reg668 reg669)

}

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存