查看原文
其他

回归中各变量的数值相差过大有事, 又有什么问题?

计量经济圈社群 计量经济圈 2022-05-11


凡是搞计量经济的,都关注这个号了

箱:econometrics666@sina.cn

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

感谢@tafuman @Jessie小鑫 @Windcity 等群友的探讨,可以到计量社群交流计量发展的最前沿(连Harvard Business school的都过来了)。

Question: 求教各位大神,请问被解释变量和大部分解释变量都是不超过10,但是有重要的核心解释变量是上万,请问需要进行单位变换么,如果不变换的话会造成什么后果呢?

Question: 也就是说单纯从数据模型角度考虑,不考虑变量意义的情况下,ln是不改变数据的一些重要特征的方法是么?


Answer: 如果不介意,我建议要小心一些。因为不知道你的数据具体情况,也不知道你的理论模型和计量模型设定,我大概说几点(微信的自然属性使然,彼此都是次优决策)。不介意的话。

7b 如果取对数,有百分之3的样本为缺失值,如果全部加某个值,如加1,有百分之1的样本为0,那么,是LHS还是RHS?LHS为零和RHS某个核心解释变量为零同样重要,左侧简单的说是需要考虑关于离散、递归和非线性估计的MLE问题,右侧简单的说是需要考虑referencing point或基准的问题。因为,以上的这种处理无一例外都改变了样本及扰动项的方差,变量之间的协方差。证明过程我等下如果有时间的话,可以敲出来。


7c 变量内value的dispersion本身具有极强的经济学意义或统计学意义或分布意义或条件意义不明的前提下,我们有时候无法判断。这个时候,比较粗糙的办法是,最差的情形,0值(或很多样本都为某个很小的值,或相对与一定份额的样本而言,一些样本相对过小)可能意味着这就是缺失值。这种情形,可能没有一个特别简单的识别策略来处理这些极小值或零值。如工业企业数据库,产值的单位是千元,而且是五百万规模以上企业,这个时候,产值如果有10,20, 30的样本(占全样本的5%的话),有些样本的产值是50000等,这个时候,可能是一种缺失值或某种“坏数据”。请先不要在这里挑刺,我说是如果。


7d 个人而言,LHS(左侧)变量尽量不要乱动。要碰的话,OLS需要考虑cubic root条件。要碰的话,各种方法在排队,分位数,离散大世界(tobit,truncated, censored,possion,zip,nbreg,等等)我们也不知道你的理论和计量设定到底要干嘛了。


7e 个人而言,RHS(右侧) 如果非常非常skwed and dispersed,且是连续的,且还有一堆零值,我建议对RHS的key variable(s)进行分类,如搞个4分位或10分位啥的。优点是没有新的假定或数据转换,让零值的点估计也有效(最起码置信区间得到了)。缺点是:凭啥啊?你要给个说法。那么问题来了,你的说法是数据上的还是理论上的还是经验上的。经验上的话,小于多少是0,小于多少是1,需要给个认同的说法(这个说法必须是外生的,可以控制系统性或结构性,而不是内生的)。即你的cutpoint是多少gen 产量=irecode(产量0,100,10000,1000000,10000000,.),必须有个说法。如果是统计上的,例如,25%quantile之类的,这也太DGP(data generating process)了。很多人会说TFP或一些变量不是都这么干的吗?但如果你的数据呈现出较强的离散且连续特征,我不建议你这么干。显著或不显著都有操纵之嫌。


7f RHS ln(0+很小的值)或ln(x+很小的值)这种处理方法,很多时候认为是对数处理的近似表达。恰恰相反,这暗示这一个极其巨大的反向变化(尤其对一些观测值的statistic power而言),这造成了很大的负向异常值估计的出现(大家可以试试看)。大家可以使试试10的负六次方和负20次方。那么1呢?唯一的好处是没有缺失值,坏处有三个:增加了不必要的收敛条件(0值),增加了统计学二类错误的可能,改变了样本估计方差的扰动。但是加1和加10的区别有吗?有!加10的负六次方和负20次方的对数差异巨大,加10也是一样。回到7e,需要解决7e。因为 ln(0+很小的值)或ln(x+很小的值)的系统性,与x是否在0-1之间有关,也与outliers有关。


7g 如果regressor有一定的意义,建议看看pre sample mean estimator。这个想法可以仔细考虑变量对数化与LHS之间的关系。


7h rank order还是特殊分布?样本内的离散特征在国际贸易实证估计中可以大量见到。如Feenstra(大量论文和他的课本的附录),如Manova等2017。异质性理论下,考虑Pareto distribution和Frechet distribution,这可以追溯很久,如EK(2002),根据对key variable进行排序,并对排序进行回归,恰恰是他们需要进行检验的。


7i 关于extreme value,关于outlier,首先需要进行分布检验,最起码你需要summ x, detail瞅一眼。之后来个kdensity x, normal,才会有进一步的直觉(可能还是假的,原因在伪回归里有很多分类说法)。但是,不是第七点要讨论的内容了。


Question: 牛!感觉每次老师的回答都要消化半天呢,受益匪浅,现在脑子里好多个为什么。感觉这似乎是个很基础的问题,但是竟然能拓展的这么深呢,果然有积累和沉淀就是不一样呢?


Question: 这个问题本身对我就很有难度,能不能就我现在浅薄的认识提几个问题呢,老师休息过后能不能稍微指点一下


Question: 首先,对于7a,因为我没有想过造成数据量级的差距是什么原因,以及如何识别这些差别,现实中为什么需要考虑这一层原因呢?7c我也觉得直觉不考虑数据代表的意义的话,估计方法感觉基本都更加珍惜和重视数据分布的离散性和差异性特征,如果贸然线性或者ln无疑改变了数据分布的特征,具体证明我害怕自己能力有限,但是大神不愧是大神呢,指点一下这个问题的参考文献也可以哒。7d和7f对比看的话,就是LHS要变形更需谨慎,最好是基于模型需求的变化,而不是数据本身的变化,RHS变化的话,需要注意选取的变量数值分布和Ln函数本身在0点和1点的一些特性可能会存在不良结合,这样理解对么? 


Answer: 大概说下,就是如果其它都不考虑,如已经有文献做了和您相关或类似的研究,如方程右侧的一些核心变量他们都这么或那么处理了,最粗暴的办法是,您也这么干!

Qeustion: 大概就这么多,具体研究问题而言,我们并不比专门研究这个问题的诸位,例如您理解或懂的更多。这也是学术研究的应有之义,在某个经济问题上,我们只是听众。

可以到计量社群交流计量发展的最前沿。

推荐阅读:

1.工企数据库匹配160大步骤的完整程序和相应数据

2.1998-2016年中国地级市年均PM2.5数据release

3.1997-2014中国市场化指数权威版本release

4.2005-2015中国分省分行业CO2数据circulation

5.中国所有地级市各类空间权重矩阵数据release

6.中国省级三大空间权重矩阵(相邻, 距离和经济)数据

5.实证研究中用到的135篇文章, 社科学者常用toolkit

可以到计量经济圈社群进一步访问交流各种学术问题,这年头,我们不能强调一个人的英雄主义,需要多多汲取他人的经验教训来让自己少走弯路。

计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈绝对六多精神:社科资料最多、社科数据最多、科研牛人最多、海外名校最多、热情互助最多、前沿趋势最多如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群在规则框架下社群交流讨论无时间限制。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存