查看原文
其他

单因素分析到底有没有必要做?

Editor's Note

单因素和多因素分析第4篇!!

The following article is from 小白学统计 Author 冯国双

前一篇文章通过一个例子提到了,在筛选危险因素中,如果先做单因素分析,然后以一定的统计学水准(如P<0.1、P<0.2等),将有统计学意义的变量纳入多因素分析,单因素分析中没有统计学意义的变量则不纳入多因素分析。这种思路有时会有问题,上一篇文章已经非常清楚地显示了这一点,即使在单因素分析中P值大于0.3,在多因素分析中仍有可能出现P值小于0.05的情形。

首先必须明确一点,这绝不是数字游戏。一位朋友开玩笑说,统计分析就像玩游戏,有各种玩法。然而,即使玩游戏,想把游戏玩好也不是这么容易的。

看了上一篇文章,有的人的世界观已经彻底崩塌了:原来说好的“先做单因素,单因素分析中有统计学意义的变量再纳入多因素分析”这种思路,怎么就不灵了。我还能相信什么?到底要不要做单因素分析了?

首先声明:本文仅代表作者个人观点,有不同意见纯属正常。


我个人的建议是:单因素分析要做,但是,不能死板地根据单因素分析中P值小于0.1(或0.2、0.3等)而决定把变量纳入多因素分析。是否把一个变量纳入多因素分析,单因素分析的P值只是一个提示,还需要考虑其它因素。

下面逐一解释这句话什么意思。

首先,要做单因素分析。但目的绝不是简单地为了初筛变量,我认为目的至少有二:

第一,初步探索自变量与因变量的关系,因为不管是线性回归还是logistic回归、Poisson回归等,其本质都是线性模型。不管你的自变量与因变量(或因变量的变换)是不是线性,分析结果只会给出有没有线性关系。所以必须保证自变量与因变量(或因变量的变换)之间是线性的,而这一点就可以通过单因素分析来实现。单因素分析中可以很方便地显示每个自变量与因变量(或因变量的变换)之间的大致关系。

虽然很多人都认为图形过于主观,但我个人还是非常喜欢图示的。图形可以告诉我们很多信息,不管是散点图还是其它图形,既直观又方便,比单纯的P值要好。

第二,如果自变量太多(相对例数而言),单因素分析确实也可以做一些初筛,否则因素太多时,一股脑把所有变量都纳入模型执行多因素分析未必现实。比如你有30个变量,但例数只有60例,无论如何不可能直接把30个变量一起纳入,否则每个变量的标准误都会太大,没个变量都不会有统计学意义。

有的人咨询我的时候会说:我这些变量都很重要,都不能删,都想保留在模型中。但是,如果你的例数不足够,你的变量再重要,也无法纳入模型。我见过太多的理想与现实矛盾的情况,你想的很好,但是例数不够,必须让你做出让步。所以有时单因素分析可以做一些初筛。

但是,有一点一定要注意:单因素分析的初筛决不能只看P值。不是说P值大于0.1(或0.2、0.3等)就直接舍弃了,而应该结合其参数估计值、标准误以及专业的重要性,综合来考虑。另外,还需要观察研究变量与其他变量之间的关系,就像上文例子,如果其它变量与研究变量的关系很不幸的都在一个方向上,那就得仔细看了。这种情况下,什么事情都有可能发生,一定要谨慎。

总之,因素分析是一件细活,有的人说,我有40多个因素,难道我每个因素都得看一下是否跟因变量(或因变量的变换)是否线性关系吗?这多麻烦啊!我的回答是:是不是要看,是不是要做的这么细,取决于你自己。我把如何分析的思路告诉你,但是你是不是按这种思路来做,只能你自己决定。

你当然可以不这么做,可以把所有变量一股脑儿放到软件中跑出结果,也可以按“单因素分析P<0.1的变量再纳入多因素分析,在软件中跑出结果”,这都可以出结果。然而结果是否可靠,也许只有天知道。统计软件是一个双刃剑,你无论把什么数据扔进去,它都会给出你一个结果,但它不会告诉你的结果是否准确可靠。

很多人来咨询我问题的时候,往往都希望得到一个很直接的答案,比如:你就告诉我这个变量有没有意义就行了。可惜的是,往往数据没有这么听话,不一定是像你想象的那么简单。就像患者咨询医生一样,患者想听到一个最直接的答案:你就告诉我这是个什么病(或者,你就告诉我这个病能不能治好)。同样可惜的是,往往医生也无法做出这个直接的回答。其实这是一回事。

所以,如果你觉得患者问你你直接告诉我这是什么病这样的问题让你无法回答,那你也应该体会到,如果你问一名统计学家你就告诉我这个变量有没有意义这样的问题,同样也让统计学家难以回答。你觉得确诊一种疾病很难,同样,统计学家分析你的数据也不是这么容易。

对于一份数据的分析,如果你实在拿不准,我的建议是,直接请教统计学家。毕竟他们经验更为丰富一些,就像一般人也喜欢挂老专家的号一个道理,因为他们经验多。

我也曾帮助不少人解决过一些问题,比如,他们自己确实分析不出来,但是可能我从其它角度重新分析,或者换种思路重新分析,结果会跟他们原来做的不同。这让他们很欢欣鼓舞,也觉得好像统计学很神奇,本来没有意义的,做出有意义结果了。

但其实并非如此,统计学不能无中生有,如果一个变量真的没有意义,那统计学无论怎么折腾,它最终也还是没有意义。为什么你做的没有意义,而我做的就有意义。这只是因为原来你的思路有问题,我重新换了思路而已,所以发现了本来你没有发现的结果。仅此而已。

所以,也不要对统计学期望太高,也不要觉得统计学无用。统计学只是帮你更加客观地看待数据,更加理智地发现规律,更加有效地利用数据,让你离真实结果更接近。



觉得本公众号有用的朋友,如果想赞助,无需赞赏,帮忙点一下广告即可。只要点开即可,是否购买无所谓。也算是对本人时间和精力付出的一点回报吧。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存