新技能007--傻瓜式临床资料统计软件

查看原文

其他

新技能007--傻瓜式临床资料统计软件

2016-01-31 书剑弗雷赛斯

作为一名临床医师，不管你愿意不愿意，某些时候必须撰写并发表医学论文,职称啦，晋升啦……天啦噜！

这时，大多数人会遇到一个难题，医学论文的数据都必须进行统计学处理，早些年学过的《医学统计学》早已忘得差不多了，重新翻开统计学书本，看得基本上是云里雾里，spss也没学会，sas更加想都不敢想。

今天，我们略去一些高深难懂的统计学原理及计算公式，直奔解决实际问题的方法，高兴不？

另：需要下载一个简明统计学处理软件《临床医师统计学助手 V4.0》（回复007，直接给注册版的软件哦（非注册版有例数限制），不过作者只答应10个，相信如果要的同学多了，他也是应该慷慨的呵呵）。

这是一个全“傻瓜化”的教程，由4个实例组成，只要认真看完这4个实例，将实际中碰到的问题对号入座，就足以解决绝大多数问题了。

接下来我们开始轻松愉快的学习过程，撒花～～

一、关于均数与标准差

【例1】本组105 例，男55例，女50例；平均年龄：62.3±6.1岁，所有入选病例均符合1999年WHO高血压诊断标准。

这里举这个例子是为了说明“均数”与“标准差”的概念。（我实在不愿意多花时间阐述一些概念性的东西，但是由于“标准差”实在太重要了。）【例1】中的数据“62.3±6.1”，“62.3”就是年龄的均数，均数的概念大家都懂，那么后面的“6.1”是什么呢？它就是标准差。有人可能会问，表达一组人的平均年龄，用均数就够了，为什么还要加一个标准差呢？先看下面的一个例子：有两组人，第1组身高（cm）：98、99、100、101、102；第2组身高（cm）：80、90、100、110、120，这两组人虽然身高的均数都是100cm，但是，仔细观察，第1组的身高很接近，第2组的身高差别很大，故仅仅用一个平均数表达一组数据的特征是不完整的，还需要用另一个指标来表达其参差不齐的程度，这就是标准差。统计学上对一组测量结果的数据都要用“均数±标准差”表示，习惯表达代号是：，具体例子如：平均收缩压120±10.2mmHg

现在我想现在大家都已知道标准差是什么东东了，那么，标准差是怎样得到的呢？有一个比较复杂的计算公式，我们不必去深究这个公式是怎么样的，只需知道标准差越小，说明数据越集中，标准差越大，说明数据越分散。

当然撰写医学论文的第一步是收集原始数据，如：

第1组身高（cm）：98、99、100、101、102；

第2组身高（cm）：80、90、100、110、120。

在论文中并不是直接给出原始数据，而是要以方式表示。利用软件《临床医师统计学助手 V3.0》，只要输入原始数据，就能自动计算出均数及标准差，即第1组平均身高：100±1.58cm；第2组平均身高：100±15.81cm，如下图。

二、两样本均数差别T检验　

【例2】目的研究中药板兰根对“非典”疗效。方法将36例“非典”患者随机分为治疗组19例，采用常规治疗+板兰根口服，对照组17例，仅采用常规治疗。结果治疗组平均退热时间3.28±1.51d；对照组平均退热时间5.65±1.96d，两组间对照差别有极显著意义（p＜0.01

）结论中药板兰根对“非典”有显效疗效，实为国之瑰宝。

这是最常见的一种统计学数据处理类型，统计学述语叫做“两样本均数差别T检验”，说得通俗易懂一些，就是检验两组方法所得到的数据到底有没有差异，或者说，差异是否有意义。我们平时的思维习惯是，数据的大小还用得着检验吗？这是小学生都会的问题。可是别忘记了现在是在搞科研，科学方法看问题可不一定这么简单。

也许可能还没有说明白这个问题，下面举一个简单的例子。我们的目的是得出这样一个结论：“北京出产的西瓜比上海出产的西瓜大”。最可靠的方法是把所有北京的西瓜和上海的西瓜都测量重量，得到两个均数，然后比大小即可，可是智商正常的人并不会这样去做，通常的做法是，随机选一部分北京的西瓜和一部分上海的西瓜，先让这两部分西瓜比大小，然后推断到底那里的西瓜大。这种方法是“窥一斑可见全豹”，统计学述语叫做“由样本推断总体”，事实上，我们所做的医学科研都是基于这种方法。

好，再回到上面的例子，假如我们有二种做法：

A、随机选2个北京西瓜，平均重量是5.6±0.3kg；再随机选2个上海西瓜，平均重量是4.3±0.25kg；

B、随机选1000个北京西瓜，平均重量是5.6±0.3kg；再随机选1000个上海西瓜，平均重量是4.3±0.25kg。

凭生活常识，由B推出“北京的西瓜比上海西瓜大”这个结论的把握性就非常的大，而A则基本上推不出这个结论。现在，终于可以引出我们的主题了，统计学处理本质是考查由样本差异推断总体差异的把握性有多大，这种把握性在统计学上由P值表示。如P＜0.05或P＜0.01，可以理解为由样本差异推断总体差异的把握性达95%或99%以上，两组数据差异有显著意义；如P＞0.05，可以理解为这种把握性在95%以下，两组数据差异没有显著意义。

其实上面所讲的实已为统计学之精髓，建议多看几遍，如果天生愚鲁，还是看不太懂，也没有关系，现在进一步“傻瓜化”，即所谓统计学处理，只要求得P值即可。P＜0.05或P＜0.01，表示阳性结果，两组数据差异有显著意义；P>0.05，表示阴性结果，两组数据差异没有显著意义。所以，统计学处理的中心任务是求P值。

下面讲解遇到【例2】这样的问题，如何求P值。【例2】中一共有6个数据：第一组均数（X1）、标准差（S1）、例数（N1）与第二组均数（X2）、标准差（S2）、例数（N2），就是根据这6个数据，先通过复杂计算，求出“T”值（如果没有想成为统计学专家，就不必去理解“T”是什么了，知道“T”是为了求“P”用的就可以了），求出“T”值后，再查“T界值表”，就知道“P值”了。

而具体解法步骤如下：

⑴　通过计算（这里略去计算公式，可由软件求出），T=4.088

⑵　计算自由度：自由度=N1+N2-2=19+17-2=34（计算自由度是为了查T界值表用的，自由度即两组例数之和减去2，不要问我为什么不减去3或减去1这样的问题了。）

⑶ 查T界值表，对应自由度34，T_0.05=2.032，T_0.01=2.728,今T=4.088＞T_0.01，即P＜0.01,差别有高度显著意义。

T=4.088是如何求出的呢？我们再回到软件《临床医师统计学助手 V3.0》，只要把第一组均数（X1）、标准差（S1）、例数（N1）与第二组均数（X2）、标准差（S2）、例数（N2）这6个数据输入对应的框内，该软件就会利用预先存储的公式自动计算T值，并查T界值表，得到P值，如图：

三、配对计量资料T检验

【例3】目的研究音乐胎教对胎儿运动技能培养的效果。方法 10例28～32周孕妇，分别记录听音乐（水浒传主题曲）前每小时的胎动次数及听音乐后

每小时的胎动次数，结果数据如表1所示，音乐胎教后胎动次数增多，差别有显著意义（p＜0.05 ）结论音乐胎教可增强胎儿运动技能，对培养我国运动天才有现实意义。

显然【例3】与【例2】有所不同，主要是【例3】两组间的数据可以前后配对的。我们经常碰到这种情况，即同一个体做两次处理，如治疗前检测某一指标，治疗后再检测某一指标，而后做治疗前后配对比较，以判断疗效，正如【例3】。这种情况如何进行统计学处理呢？同样也是先计算T值，然后按自由度（这时自由度=对子数-1，如本例自由度是9。）查T界值表，求得P值。

但是“配对T检验”计算T值的方法与“两样本均数T检验”有所不同，这里不再作介绍，由软件《临床医师统计学助手 V4.0》自动完成即可，如下图

。本例T=2.47，自由度=10-1=9，查T界值表，对应自由度9，T_0.05=2.26，T_0.01=3.25,今T=2.47＞T_0.05，即P＜0.05,差别有显著意义。

也许可能有人会问,【例3】的情况，也可以把胎教前视为对照组，求得平均胎动次数是：21.8±5.31，胎教后视为治疗组，求得平均胎动次数是：24.0±6.31，然后套用【例2】的方法，用“两样本均数T检验”行不行？这样虽无大错误，但是将会导致检验效率的下降，就是说，如果数据差异较大时，两种方法均可，如果数据差异较小时，用“配对T检验”会显示出差异有意义，而用“两样本均数T检验”时，可能差异无意义。切记，非配对资料误用配对T检验，则是错误的。

四、计数资料卡方检验　

如【例4】目的研究医患关系对重症病人死亡率的影响。方法根据问卷调查对收住重症监护病房的病人分为“医患关系良好组”与“医患关系紧张组”，比较两组间的住院死亡率。结果 “医患关系良好组”25例，住院间死亡3例，死亡率13.6%，“医患关系紧张组”23例，住院间死亡9例，死亡率39.1%，两组间差别有显著意义（p＜0.05 ）结论医患关系紧张增加重症病人的住院死亡率，可能与医师害怕被病人告而治疗方案趋向保守有关。

如【例4】又是一个非常常见的一种统计学数据处理类型。【例4】中所提供的数据是“比例”，或百分数，与前面三个例子不同，前面三个例子所提供的数据则是直接在病人身上测量到的数据，如收缩压120±10.2mmHg、身高100±15.81cm等，我们把【例4】中的数据叫做计数资料，而【例1、2、3】中的数据叫做计量资料。计数资料无法用形式表示，只能用比例表示，如：死

亡率13.6%、30例中显效10例（10/30）等。

显然，对于计数资料，再用T检是不适合了，必须用卡方检验。卡方检验的步骤是：先求出X²（类似于T检验时先求T值）值，然后进行判断：

⑴ 如果X²＜3.84，则P＞0.05；

⑵ 如果X²＞3.84，则P＜0.05；

⑶ 如果X²＞6.63，则P＜0.01。

需要解释一下，上面的两个数字“3.84”与“6.63”是查“X2界值表”得来的，只要记住即可。

所以，卡方检验的关键是求出X2值。为了求出X2值，必须先介绍“四表格”概念。“四表格”的形式如下，关键数据是 a、b、c、d 四个数，X2值就是通过这四个数据计算出来的（这里仍不介绍公式，由软件计算。）。

现在将【例4】中的数据填入“四表格”即如下图。

所以当你学会了填“四表格”数据之后，就能利用软件《临床医师统计学助手 V4.0》非常容易的进行卡方检验了，本软件提供与“四表格”完全相同的界面，把数据填写正确之后，就自动计算X²值并判断结果，【例4】X²=4.702＞3.84，故P＜0.05，如下图：

在此说明一下，大家可能已注意到本软件中出现的“理论数（T）”，在此不解释“理论数（T）”是什么，只要记住，当例数（n）＜40或T＜1时，应采用“精确概率法”，这个方法太复杂，在此不作介绍。

现在已经讲完了4个实例，掌握本教程的诀窍是将实际中碰的的情况，对照实例，“对号入座”即可。而具体计算过程，可由软件去完成。

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半