查看原文
其他

【41计划打卡-07】《大数据分析的道与术》

叉烧ZBayes CS的陋室 2022-08-08


感谢韬哥的推荐,最近看了一本很不错的书,这本书讲的东西很全面,而且满满的干货,充分地告诉你做什么,怎么想,怎么做等等,对大数据这个很浮夸的概念诠释的比较清楚而且有深的见解,先来看看长什么样吧。

先介绍介绍作者,毕然老师是百度资深数据技术专家,在检索、在线广告、商业营销领域有丰富的大数据分析和建模经验;袁晓洁老师是这本书的插画师,曾在百度微软谷歌从事大数据统计分析、算法研究和工程研发工作,涉及搜索、广告、地图等领域,是经验丰富的资深数据控。从两位作者的经验看来,都是在大数据技术下具有丰富经验的大神,写出的东西当然也是非常值得品味的。


总体给一个评价,内容很干,很落地但是讲思路之类的还是很清楚,言而有物,不像一些书讲的东西那么空。


这本书主要分为3个部分,道、术和释。




这部分主要讲解大数据分析的一些应有的思维素养,从数据分析的概念讲起,涉及业务调研、创新思考,逻辑判断,分析之后给出十分中肯的建议。


里面我最喜欢的应该就是逻辑判断的一部分了,本身自己也算是半个逻辑控,看到这里确实是觉得很有意思,以后可能我会专门写一篇关于我对逻辑的理解,而这本书,绝对让我对“逻辑”这个概念有了新的理解。我稍微展开介绍一下这部分吧。


作者将人们常见的逻辑错误分为4种。我主讲前面2种作为例子吧,让大家了解一下这本书的魅力,我本人非常喜欢。



第一个是不谨慎归因,这个其实在现实生活中很常见,其实从专业一些的角度看来,其实并没有严格的因果关系,而是应该说相关关系,从统计学角度,就是A事的发生,B事有x%的贡献度,但是B事的发生和A事不是必然的关系,而是概率关系,在经济学中,就有常见的“后此谬误”,就是B事情发生在A事情之后,其实并不代表A事情导致了B事情,甚至这两者是没关系的。


第二种是比较对象不当。我现在告诉你,我发明了一种感冒药,能杀死5万个感冒病毒,可能在很多人看来,这个是一个十分多的数,然而如果我告诉你,身上的病菌是按照亿计算的,那你还会觉得多吗?有些时候人对事物没有绝对概念,或者概念是变化的,50年前的100块和现在的100块完全不同,所以在进行对比的时候,应该选择合理的、有可比性的对象进行比较,没有比较对象自己想象更加不可取。


第三种是观测维度有误。这个说的有点玄乎,我的通俗理解就是,在进行实物比较的时候,得到的信息必须尽可能依据多而全面,维度不同得到的信息不同,但是进行主观判断必须是有多方面依据的。举个例子,某人A可能会对你说,你看看你多差,现在饭都不会做,我像你这么大的时候,家里的饭都是我做的,家务也是我干的,那我就会说,王健林和你这么大的时候,已经赚很多钱了。人A是想通过说你饭不会做来贬低你的能力,但是,做饭只是一种能力,如果他只拿这点来衡量好坏,是片面的,不会做饭可能是因为没时间学,因为学生的学习压力很大等,他抛开这些信息不谈,简直就是欺骗!


第四种是只信亲身经历。这个很可怕,一般吧,出现在一些亲戚家里,他们可能说,你看谁谁谁,高中都没上,现在赚那么多钱,上学没用,赶紧出来工作吧。按照该亲戚的逻辑就是,这个谁谁谁没高中,赚了很多钱,所以你也别上学,你也会赚很多钱。看出问题了吗?这个谁谁谁没上高中但是赚了很多钱的事是真,所以就成了一个人拿来论断的论据,指因为他不够了解其实上了高中大学的人也能赚很多钱的事例,泽阳当然会导致论断错误。当然这里面还有很多问题,我只是就这点展开说说而已,例如从统计学角度上讲,就会样本太小,不足以支撑你得到的结论,这就是我还没提到的数据信息不足。


还有两种分别是数据信息不足、主观偏见。我这么说道理大家都懂,但是一到生活中,工作中,学习中,就容易犯错。这部分我说到这里,我把这部分展开就是想想让大家了解这本书的魅力,这部分写的很通俗,也很深刻,让你有所想。




这部分主要是给你介绍一些比较比较常用的技术和知识,不过,先用了两章来讨论“统计”这个学科的性质和思维模式,比较熟悉统计的人都知道,统计其实是一个比较严谨的学科,严谨在他几乎不会说一定,肯定,绝对之类的话,他一般会带一个概率,例如我有99%的把握明天下雨,有99%的把握认为商品不合格等,然后分析了这种特质和生活的结合与应用,适时给出了案例。后面部分就讲到了8种统计分析方法,分布分析,趋势分析等,都是很干的干货,是处理实际问题重要的工具,还对一些比较高逼格的技术,如机器学习之类的进行了简单地描述(当然,指望着这本书学会机器学习的童鞋可以放弃这个念头了)。





作者给了一个比较实践化的一篇,这篇讲的是团队、领导、技术发展等方面的内容,解释大数据团队因该如何建立,如何学习等,也包括一些对“大数据”概念的讨论等,篇幅不长,主体还是前两篇。



最后还想说几句,可能有人问这里面有没有关于数学和计算机方面的知识,我想说的是,指望着这本书学是不可能的,最好有一些基础,里面涉及的东西不会太深,但是还是需要一些理解的,这本书提到的都是比较实用的技术和知识而已,看好,我用的是“提到”,大家懂的。


这本书很赞,我估计我会入手或者是认真做一遍笔记变成自己的东西,一遍绝对不够哈哈。



微信:zgr950123
QQ:545281848欢迎关注



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存