查看原文
其他

对数vs线性vs二次vs指数形式,到底选择哪种进行计量建模?

计量经济圈社群 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

投稿:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于各种最新计量方法,各位学者可以参阅如下文章:实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。

最近,我们引荐了如何选择正确的自变量(控制变量),让你的计量模型不再肮脏忽略交互效应后果很严重,审稿人很生气!过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图空间双重差分法(spatial DID)最新实证papers合辑!等,在学者间引起了广泛的讨论。今天,我们讨论“对数vs线性vs二次vs指数形式,到底选择哪种进行计量建模?”

正文

在实证研究中,学者们经常用到的三种模型形式:线性,log-log,以及log-linear。

为什么需要取对数呢?

一些学者主要考虑到某些变量有长尾现象,即存在左偏或右偏的情形。不过,无论是因变量还是自变量,OLS回归都没有对其(正态)分布做要求,而只是要求Residual符合正态分布。
通常有两种方法告诉你,是否需要对因变量取对数。第一,分别用Y和logY对自变量做回归,然后看两个模型中的residuals是否符合正态分布。此时,若logY模型中的residual更符合正态分布,我们就需要对Y取对数。第二,分别画Y与X,以及logY与X的二维图,从图形上谁看起来更像一条直线。
对log-log,  linear-log, log-linear等模型形式的解释:

建立模型:让数据帮助你决定何时应该根据经济学逻辑选择模型。就是经济学理论并未告诉我们该使用何种形式的模型,此时可以借助图形来做初次识别。

是线性还是log形式,我们首先可以对Y和核心解释变量X的log或线性形式做二维图,看哪种形式下二者间存在线性关系。例如,若logY与logX呈现线性形式,那这个模型就是log-log形式的,此时logX前面的系数就是弹性的意思。

Box-Cox转换及检验

除了上面提到的图形检验,有更为精确的统计检验来帮助我们建立各种模型形式,比如,线性,semi-log,倒数。
当θ=-1/0/1三种情况下,代表的三种模型形式:
Box-Cox检验的Stata执行程序如下:boxcox sales3 + 所有自变量(控制变量)
Box-Cox检验的结果输出
Box-Cox检验拒绝了θ=-1/1,但不能拒绝θ=0,而能够得到最大的likelihood score的θ=-0.05
关于方程右边是选择变量的对数还是线性形式,此时只需要关注R2的变化,哪个模型所得到的R2越大就选择他。

总结选择对数或线性模型的方法:

  1. 从根本的经济逻辑开始考虑用线性还是百分比形式?
  2. 如果没有主导性的经济逻辑,就让数据告诉你。
  3. 当选择方程右边变量时,确保在进一步构建模型时你不太可能继续改进R2
  4. 使用Box-Cox检验确定是否通过log形式来转换方程左边的变量。
  5. 既然你已经确定了方程左边的变量,建立你模型的右边变量。可以使用R2来确定是使用对数变量还是线性变量。(请记住,我们很少使用线性对-数形式(linear-log),因为它很难解释。)你可以在方程右边添加一些变量、对他们取对数或再次取出它们三者间来回切换。这样的实验是正常的,因为你可以让稳健性成为你包含一个变量的指南。
  6. 一旦你有了最终的模型,重新进行Box-Cox检验来确认模型。不过,不要觉得每一步都需要做Box-Cox。这是浪费时间,如果你从一个好的核心模型开始,完全没有必要做Box-Cox检验。

对数vs线性vs二次vs指数形式,具体模型设定形式以及系数解释总结如下:

拓展性阅读

之前,咱们圈子引荐过1.PSM倾向匹配详细步骤和程序, 让Match进行到底2.执行PSM的标准操作步骤, 不要再被误导了3.PSM,RDD,Heckman,Panel模型的操作程序4.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器5.PSM-DID, DID实证完整程序百科全书式的宝典6.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例7.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王8.广义PSM,连续政策变量因果识别的不二利器等,9.PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢?10.匹配方法(matching)操作指南, 值得收藏的16篇文章

2月21日,给各位学者引荐了二个数据库的使用指南疫情期Wind资讯金融终端操作指南CEIC数据库操作指南参考一下“清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨!”。2月22日,引荐了“估计具有两个高维固定效应的泊松回归模型”,里面包括面板泊松回归、面板负二项回归、控制函数法CF、受限三次样条等等。2月27日,引荐了“哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code!”和“最清晰的内生性问题详解及软件操作方案!实证研究必备工具!
之前,咱们圈子引荐过一些数据库(当然,社群里的数据库远不止这些),如下:1.这40个微观数据库够你博士毕业了2.中国工业企业数据库匹配160大步骤的完整程序和相应数据3.中国省/地级市夜间灯光数据4.1997-2014中国市场化指数权威版本5.1998-2016年中国地级市年均PM2.56.计量经济圈经济社会等数据库合集7.中国方言,官员, 行政审批和省长数据库开放8.2005-2015中国分省分行业CO2数据9.国际贸易研究中的数据演进与当代问题10.经济学研究常用中国微观数据手册

之前,咱们圈子引荐了“1.断点回归和读者的提问解答2.RDD断点回归, 实证完整程序百科全书式的宝典3.2卷RDD断点回归使用手册, 含Stata和R软件操作流程4.政策评估里的断点回归设计是什么, 如何做?5.断点回归设计RDD全面讲解, 教育领域用者众多6.断点回归设计RDD分类与操作案例7.断点回归设计什么鬼?且听哈佛客解析8.断点回归设计的前沿研究现状, RDD9.PSM,RDD,Heckman,Panel模型的操作程序10.伊斯兰政府到底对妇女友不友好?RDD经典文献11.RDD经典文献, RDD模型有效性稳健性检验12.在教育领域使用IV, RDD, DID, PSM多吗? 使用具体References13.RDD slides资料公开分享

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2年,计量经济圈公众号近1000篇文章,

Econometrics Circle




数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 |

计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 

数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |


干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |

计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存