查看原文
其他

《吴军.信息论40讲》学习笔记(pdf,mp3)

秋风不度镇南关 码农真经 2023-12-25

↑↑↑关注 码中人

回复 信息论

发刊词:信息时代每个人的必修课

    • 面对不确定性世界的方法论,利用信息消除不确定性(香农)

    • 信息时代的最大特征是不确定性

01:影响世界的三比特信息

    • 对一个未知系统所作出的估计和真实情况的偏离,构成信息损失,偏离越多损失越大

    • 信息量和不确定性有关,大家都知道的事,就没有信息量

    • 信息作用的大小和信息量有关

02:解开世界之谜的三篇诺贝尔论文

    • 信息是我们世界固有的属性

    • 世界上最关键的信息(知识)其实是非常简洁的,信息量与信息长度无关

03:大数据思维的科学基础

    • 发现未知规律:互信息理论

    • 动态调整做事策略:足够多的数据可以帮助我们动态匹配最佳结果

    • 精准服务:从重研究方法到重数据收集的转变

    • 解决人工智能问题:利用数据(信息)消除不确定性

04:信息度量,世界上有稳赚不赔的生意吗?

    • 信息量的大小不在于长短,而在于开创多少新知

    • 复杂交易背后通常都用到了信息的可度量性

    • 充满可能性的系统(信息源),当中的不确定性(信息熵),“信息”是用来消除这些不确定性的,需要的“信息量”就等于黑盒子里的“信息熵”

    • 信息可以衡量,但不是用重要性,而是用信息量,单位是“比特”(香农)

05:信息编码:数字和文字是如何诞生的?

    • 只要编码设计得足够巧妙,就可以找到最短编码(香农第一定律)

    • 由于它们是等价的,因此一个编码系统解决不了的问题,换一个系统同样解决不了

    • 各种编码系统,其实都是在编码复杂性和编码长度之间作平衡,它们在数学上是等价的

    • 数字和文字,都是人类用来消除信息不确定性的编码手段

06:有效编码:10个手指能表示多少个数字?

    • 如何组合信息,保证它高效传递,还不违背第一条原则,需要我们主动思考

    • 有效编码,就是让理论最佳值在应用中落地

    • 采用大量用户反馈信息决定产品的设计和技术方案

    • 信息编码的第二个基本原则——有效性

    • 清晰表达的五个原则——明确、诚实、勇气、责任和同理心

    • 信息编码的第一个基本原则——易辨识

07:最短编码:如何利用哈夫曼编码原理投资?

    • 风险投资的霍夫曼编码应用——分几部分逐步投入,每一次投资呈指数减少,而金额倍增,实现大部分资金集中到最优投资项目上

    • 一条信息编码的长度和出现概率的对数成正比

    • 针对信息组合的信息压缩,会产生更高压缩比

    • 哈夫曼编码原理——MIT教授哈夫曼发明

08:矢量化:象形文字和拼音文字是如何演化的?

    • 象形文字和拼音文字的形成和进化代表了两种不同的信息编码方式

    • 让问题变得简单,但会丢失信息,而平衡便利性和信息的完整性,就成为了艺术

    • 信息的矢量化原理

09:冗余度:《史记》和《圣经》哪个信息量大?

    • 善用“废话”侧面诠释想法,利用冗余便于理解

    • 观点一致性,不要补充可能与主要思想相矛盾或无关的冗余信息

    • 大脑存储信息要压缩,明确主线,过滤细节

    • 信息冗余对沟通的应用

    • 冗余度的问题:信息中混有噪音,过多没用的信息可能导致错误

    • 冗余度的好处——易理解、消歧义、容错性

    • 信息的冗余度——对信息“密集”和“稀疏”程度的描述:(信息的编码长度-一条信息的信息量)/信息的编码长度

10:等价性:信息是如何压缩的?

    • 善用等价信息,是这个时代必须掌握的工作技巧

    • 信息压缩的基本原理:找到周期性信号的等价信息、对等价信息进行压缩、如果要使用原有信号,通过压缩后的等价信息复原原有信号

11:信息增量:信息压缩中的保守主义原则

    • 保守主义(总体原则不变,不断作微调)是由世界渐变的特征决定的

    • 善用信息前后的相关性,对后面的信息做增量编码,达到大幅度压缩信息冗余的目的

12:压缩比和失真率:如何在信息取舍之间作平衡?

    • 没有标准答案和最佳答案,只是针对某个场景好的答案,一切都是妥协的结果

    • 失真率与压缩比直接相关,压缩到哪种程度,通常看具体应用场景

    • 信息的压缩分为有损和无损两种,有损压缩在复原后会出现一定程度的失真

13:信息正交性:在信息很多的情况下如何作决策?

    • 信息处理的两个方法——一是不断叠加,二是不断删除

    • 不同的信息要来自不同的信息源

    • 避免反复使用相互嵌套或者相互包含的信息

    • 看问题要刻意改变一下观察的角度,从不同角度看

    • 如何找到正交的信息

    • 在使用信息上,要选用彼此垂直的正交信息

14:互信息:相关不是因果,那相关是什么?

    • 高手用互信息工具进行预判,而言感觉

    • 世界上大部分相关的信息未必有因果关系,它们之间只是一种动态的相互关联的关系

    • 互信息:衡量两条信息之间相关性的新工具,寻找和利用强相关性

15:条件熵和信息增益:你提供的信息到底值多少钱?

    • 第一个发表意见,以及能够发表与众不同的意见,对提高自己的影响力至关重要

    • 信息增益:定量衡量每一条信息价值的尺度

    • 条件熵:概率分布的信息熵——大众已知的信息对投资和其他决策其实都没有意义

16:置信度:马斯克犯了什么数学错误?

    • 世界上有很多道理其实都很难验证,大到历史事件,由于很难多次重复,总结经验其实是非常难的

    • 提高置信度的办法通常是增加所统计的样本数量

    • 置信度:自己有多么确定这件事也量化地衡量

17:交叉熵:如何避免制订出与事实相反的计划?

    • 猜测和真实情况完全一致,将不损失任何东西,但只是不一致就会或多或少有损失

    • 猜测和真实情况相差越大,损失越大

    • 自大的人非常容易遗漏本应考虑的事情

    • 过分防范各种情况,患得患失,也将存在损失

    • 在信息论中,任何硬性的决定(全力以赴对赌)都要损失信息

    • 库尔贝勒交叉熵:信息误判时的损失

18:复盘:如何识别误导人的错误信息?

    • 以耸人听闻的信息刻意引起你注意——放在更大的时空来考量、看信息的一致性、抽取信息要看失真率

    • 没有出处——信息溯源

    • 缺乏上下文——对信息背景限定条件

    • 误导人的信息有哪些特征及应对?

19:信噪比:历史有真相吗?

    • 历史的细节是不准确的(而且无法准确),但历史的轮廓是可以看清楚的

    • 信号和噪音的相伴存在的——现实中我们不能希望找到全是优点没有缺点的人

    • 信号与噪音的能量叠加,具体到每一个信号点,其置信度是受到干扰的

    • 理解信号和噪音的关系:

    • 信噪比:信号和噪音的比例,决定了我们是否能够有效地获取信息

20:去除噪音:如何获得更多更准确的信息?

    • 利用信息的冗余和比对过滤噪音——最可贵的意见不是所谓客观的而是真正反映自已想法的主观意见

    • 换一个角度看问题——将有噪音的信息分解到不同的维度过滤噪音

    • 如何去除噪音

    • 能够找到噪音来源VS不清楚来源

    • 有规律噪音VS随机噪音、固定频率噪音VS白噪音

    • 噪音分类

21:信道:信息通道的容量有边界吗?

    • 信息的传播是有成本的,其成本就源于信道容量

    • 某一范围内的无线电波,其所能承载的信息也是有限的

    • 量化度量是重要的

    • 信道与生活的关系:

    • 信道容量:当信息传输所用的信道一旦固定,能承载的信息量是有限的,其决定了有效的传输率

22:香农第二定律(一)为什么你的网页总是打不开

    • 在边界内做事情的重要性,如果先天信道容量不足,唯一的方法就是降低速度

    • 香农第二定律:如果谁要试图超越信道容量传输信息,不论怎样编码,出错的概率都是100%(R≤C)

23:香农第二定律(二)到底要不要扁平化管理?

    • 带宽是由通信双方的互信息决定的,这在人际交流中就是信任

    • 拓展带宽是今天我们所有人都需要做的事情

    • 扁平化管理是香农第二定律的应用,保证一定带宽内的沟通效率或者利用科技提高带宽

    • 职级和部门之间的壁垒将人与人通信的带宽变得非常窄,信息传输率非常低

24:纠错码:对待错误的正确态度是什么?

    • 通过增加信息冗余,增强检验甚至纠正错误的能力

    • 考虑到错误的必然存在,通过巧妙的信道编码保证有了错误能够自动纠错

    • 在解决任何问题前,都要考虑世界的不完美和不确定性

    • 不确定性是世界自然的属性,不要高估自己的仔细,以及自己通过努力做到最仔细后,能够达到的效果

25:信息加密:韦小宝说谎的秘诀

    • 如果想让人知道你的观点,就要明确表述

    • 无法减少你传递信息的不确定性

    • 密码的精髓在于,对方拿到你的密文,得不到额外的信息

26:极简通信史:从1G到5G通信,到底经历了什么?

    • 单位能量的信息传输率越来越高

    • 网络不断融合

    • 设备的辐射越来越小

    • 每一代都会有新的主导型公司:1G摩托罗拉;2G诺基亚;3G、4G苹果、谷歌和高通;5G是华为

    • 移动通信的发展要点

    • 一是对信息的发送和接收的描述

    • 二是对信息编码的方式

    • 通信标准的核心:

27:通信趋势:5G和IOT的商机在哪里?

    • 判断的标准是:能否以更少的能量传输来处理更多的信息

    • 每一代互联网都有掌握产业链的龙头公司,未来是由掌握核心芯片、操作系统和通信标准公司占据龙头

    • 第三代互联网是万物互联,会在联网设备、带宽及市场规模上有指数级增长

28:复盘:世界不完美,我们该怎么办?

    • 对世界的态度是,承认噪音的存在,争取在有噪音的情况下,准确传递信息

29:交叉验证:电信诈骗为什么能成功?

    • 跨界的意义 不在于同时做很多不同的事情,而是从另一个领域回望所在领域的问题

    • 交叉验证中,垂直正交信息的组合最有效,因为共同作用能最大程度降低信息熵

    • 大数据的重点不在于数据的体量大,而是数据的多维度

    • 交叉验证:生活中绝大部分时候,一个维度的信息很难消除所有不确定性,解决这个问题的最好办法,不是把那个维度的信息搞得更准确,而是用其他维度的信息进行交叉验证

30:等价性:如何从等价信息里找答案?

    • 等价信息和相关信息不同,后者的要求宽松得多,但是可靠性也差很多

    • 很多时候 无法直接获取某种信息,可使用等价信息解决问题的方法

31:大数据(一):从四个特征把握大数据的本质

    • 有数据、有技术、有应用场景(腾讯、阿里巴巴、今日头条等)

    • 有数据、无技术(移动通讯运营商、银行、零售业等)—需要专业人士

    • 缺乏数据、有技术(数据公司等)—可为第二类企业解决实际问题

    • 大数据时代受益的三类企业:

    • 消除数据间矛盾,亦需要领域知识

    • 在特定应用场景还需要具有实时性

    • 大数据的特征:数据量大、多维度(最好正交)、数据完备性(不是抽样)

32:大数据(二):大数据思维的四个层次

    • 第一层:从大量、混乱的数据中总结出相关性

    • 第二层:不事先作假定,从大数据出发得到结论,再分析原因

    • 第三层:利用大数据准确把控宏观规律的同时,精确到每一个细节

    • 第四层:通过几个维度的强相关性,替代过去的因果关系

    • 大数据思维是一种全新的思维方式和做事情的方法

33:互联网广告:为什么GOOGLE搜索的广告效果好?

    • 使用正交、可叠加信息的作用(如FACKBOOK)

    • 用信息熵来定量衡量个性化服务,但通常喜好上的差异程度比我们通常想的要小很多

    • GOOGLE的广告系统利用的是用户主动输入的信息,它最为有效

34:幸存者偏差:如何避免被已知信息误导?

    • 通识教育的重要性:避免思维习惯带来的盲点

    • 幸存者偏差:要不断淘汰不好的项目,在生活中要止损,将利益最大化

35:奥卡姆剃刀法则:最简单的往往是最有效的

    • 奥卡姆剃刀法则的应用——做减法、不要制造伪需求、可提高判断力(找到基函数)

    • 世界本身的规律在形式上并不复杂

    • 过于复杂的描述常常是骗局

    • 奥卡姆剃刀法则有实践验证

    • 奥卡姆剃刀法则有科学依据——找到这个领域支撑点的关键信息

    • 简洁的往往是正确的,越是复杂,越容易犯错

36:最大熵原理:确定的答案找到之前,我们该做什么?

    • 光滑——不会遇到黑天鹅事件,方方面面都考虑得很周全

    • 不要把鸡蛋放在一个篮子里

    • 一个“光滑”的模型,可以让预测的风险最小

    • 最大熵原理:当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知条件,而对未知的情况不要作任何主观假设

37:麦克斯韦的妖:为什么要保持系统的开放性?

    • 对于个人而言,引入负熵的方法是:行万里路、读万卷书

    • 一种是直接与外界进行人的交换(能量熵)

    • 另一种是接受外面新的思想(信息熵)

    • 任何一个封闭系统都是越变越无序,要想变得有序,就要引入“负熵”,即能量和信息

38:复盘:如何把信息论学以致用?

    • 需要知道如何把自己领域中的问题,描述成一个信息处理的问题

39:控制论:要不要成为变色龙?

    • 要做变色龙(不断应对环境变化作出调整)

    • 不要做恐龙(架子大,很唬人,但适应性差)

    • 控制论三要点:突破牛顿绝对时间观、系统与外界环境刺激有相互影响、通过反馈回路实现自我调节

40:系统论:如何让整体效用大于部分之和?

    • 发展:空间上作整体考虑,时间要还要考虑影响力,最终决策

    • 科学:分析问题要遵循科学方法,而非简单的经验,方可获得可重复成功

    • 综合:参考IPHONE的方法论

    • 整体:任何局部改进,需要放回到整体中去考察

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存