查看原文
其他

【41计划打卡-09】贝叶斯统计思想

叉烧ZBayes CS的陋室 2022-08-08

感谢帅哥学长王义的推荐,要电话的私我。


前期精彩推荐:

【41计划打卡-05】python爬虫帮你百度“相关”的内容

【41计划打卡-07】《大数据分析的道与术》

【41计划打卡-08】深度学习1-数学基础

【JS. ES5重点笔记】执行环境和作用域


老规矩,原文里面是有道云笔记的浏览。


前言:本文的基本思路来源于汪飞星老师在近代多元课中讲到的贝叶斯分析,于是产生了浓厚兴趣,经过阅读相关文献和专著后,整理思考回味写出的文章,一方面佩服托马斯·贝叶斯先生的智慧,另一方面也佩服敢于直面经典统计学进行斗争和讨论的学者们。

 

贝叶斯统计是在和经典统计的争论中发展起来的,该学派的核心思想由贝叶斯在1763年的《论有关机遇问题的求解》中首次提出,其形成可追溯到 20世纪 30 年代。到5060年代,已发展为一个有影响的学派。时至今日,其仍影响日益扩大。

贝叶斯学派最基本的观点是:任何一个未知量θ都可被看做是一个随机变量,应该用一个概率分布去描述θ的为止状况,这个概率分布应该在抽样就已经有所描述,这就是所谓的先验分布。然而显然,先验分布可能是不准确的,所以需要进行进一步的调查分析,经过调查分析的得到结果,对先验分布进行调整,最终计算得到后验分布,即可对现实有清晰的了解。所以有人说,后验分布是人们用抽样信息对先验分布做出的调整。

这是一个维基百科里面的例子(用小一号的字表示)。

假设一个常规的检测结果的敏感度与可靠度均为99%,即吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?

令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得

P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率。

P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)

P(+|D)代表吸毒者阳性检出率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为0.99

P(+|N)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为0.01,因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1 - 0.99 = 0.01

P(+)代表不考虑其他因素的影响的阳性检出率。该值为0.0149或者1.49%。我们可以通过全概率公式计算得到:此概率 = 吸毒者阳性检出率(0.5%x 99% = 0.495%)+ 不吸毒者阳性检出率(99.5% x 1% = 0.995%)P(+=0.0149是检测呈阳性的先验概率。用数学公式描述为:

根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+)

尽管吸毒检测的准确率高达99%,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。(完)

从中可以发现贝叶斯统计的魅力,先验分布和样本信息结合起来,能够得到一些更加本质的信息,他会对先验分布进行调整,两者结合,得到更加准确的结论。

这只是一个简单的例子,而实际上,在现代,贝叶斯的统计思想已经被放在了很多领域,其中最常见的就是推断和决策,其实两者的计算本质类似,可以广义的看做分类,数学中可以看做是判别,而在目前数据挖掘领域,就是“监督学习”的其中一种高效简单算法。

这里介绍课程中提到的贝叶斯判别法。

假设有两个总体G1G2,由经验和过去的分析得到先验概率为P1P2,显然有P1+P2=1,如今经过最近的样本统计分析,有总体的概率密度f1(x)f2(x),根据贝叶斯公式,得到的后验概率分布为:

其中i=1,2,

上述公式可以描述一个待判别个体xGi的概率,对两个总体,只需要对比大小即可进行对比,于是有:

由于两个概率的分布相同,所以对公式进行简化。

上式就是最终贝叶斯判别的公式。

上面简单的两个个体判别,可以推广到多个个体判别。另外,上述计算可以类比和横向推广,扩展到决策领域,用后验概率的大小判断进行那个决策,这个在博弈论中有广泛的使用;另一方面在机器学习领域,该方法凭借其简单性常用做监督学习,即分类,同样具有较好的效果。

由衷地赞叹贝叶斯先生以及各位在此领域学者的努力,如何将先验和后验信息提取结合,这是很多人都想不到的。如今,贝叶斯统计仍在小样本问题、区间估计的解释、似然原理等方面被人质疑,但也在这种质疑声中发展。

 

后记:感谢汪老师给这次机会让我对贝叶斯思想的学习进行整理和思考。然而,目前的我只是学到皮毛,更层次的问题有待进一步的学习。

 

参考文献:

[1]   张尧庭, 方开泰. 多元统计分析引论[M]. 武汉大学出版社, 2013.

[2]   茆诗松. 贝叶斯统计[M]. 中国统计出版社, 2012.

[3]   Allen B. Downey. 贝叶斯思维[M]. 人民邮电出版社, 2015.

[4]   Wikipedia. Bayes'theorem[EB/OL]. .

[5]   刘志鹏. 数学之美番外篇:平凡而又神奇的贝叶斯方法 [EB/OL].http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/.


微信:zgr950123
QQ:545281848欢迎关注


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存