查看原文
其他

吴军《智能时代》读书笔记

码中人 码农真经 2023-12-25


从《浪潮之巅》开始,非常喜欢吴军博士的写作风格和深刻见地。这次读完吴军博士的《智能时代》,也是收获颇丰。
本书的副标题是:大数据与智能革命重新定义未来。而它的副副标题是:2%的人将控制未来,成为他们或被淘汰。
2%这个数值让我很惶恐,1个100人的班级,你要考到前2名,着实是有压力。那2%这个数据是怎么来的呢?
作者没有明确指出2%的出处,我对该书全文搜索:2%,其主要依据如下:
  • 在工业革命开始之后,机械化、电气化和化肥农药的使用,使得发达国家只需要2%~5%(根据美国劳工部的统计,美国农业工人早已经占不到劳动力人口的2%)的人就能提供全部人口所需的食品,因此农民就变成了工人。
  • 2014年,美国收入在前1%的人贡献了美国45%的联邦税收,这要感谢奧巴马总统对富人的各种征税手段,
  • 好的医学院的录取率要远比哈佛大学低,在美国排名前三的医学院(哈佛医学院、约翰·霍普金斯医学院和斯坦福医学院)录取率一般在2%左右,而哈佛大学本科录取率为5%~6%。
  • … …
以下为读书笔记

图名:《智能时代》读书笔记思维导图,点击查看大图:948571.webp (1080×2162)

推荐序:智能时代,未来已来

  • 大数据是解决不确定性的良药
    • “用不确定的眼光看待世界,再用信息来消除这种不确定性”,是大数据解决智能问题的本质。吴军博士在书中提到了世界的不确定性来自两个方面,一是影响世界的变量太多以至于无法用数学模型来描述;二是来自客观世界本身:不确定性是我们所在宇宙的特性。因此,机械论已经完全无法对未来进行预测。香农通过热力学中“熵”的概念引入了“信息熵”,用信息论将世界的不确定信息联系在了一起。这个建立在不确定性上的理论,正是今天人类研究大数据与机器智能的基石。解决智能问题,就是将问题转化为消除不确定性的问题,大数据则是解决不确定性问题的良药。
  • 现有产业 + 新技术 = 新产业
    • 第一次工业革命的核心技术是蒸汽机,第二次工业革命的核心技术是电,信息革命是计算机和半导体芯片,当下的智能革命则是大数据和机器智能。
  • 智能革命带来前所未有的不连续性挑战
    • 本书的一个重要观点是:机器智能革命的发生来自大数据量的积累达到质变的奇点。
—— 李善友,混沌大学创始人

前言 人类的胜利




第一章 数据——人类建设文明的基石




  • 数据和信息之间的关系,在大多数情况下可以混为一谈,信息比数据抽象,数据承载信息。
  • 20世纪70年代,中国政府对外招标,其中有一项是大庆油田石油设备。日本人通过1964年中国的《人民画报》上刊登的铁人王进喜的照片,分析出了关于大庆油田的许多细节信息,提供的设备更具有针对性,从而顺利中标。
  • Google Trends预测流感病毒传播趋势。
  • 乔治·盖洛普预测美国大选失败(杜鲁门当选),间接导致蒋介石与美关系恶化。
  • 数学模型的建立需要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。
    • 地心说和日心说最开始假设行星轨迹的基本模型是最简单的圆,而不是更准确的椭圆。
    • 在工程上,采用多而简单的模型常常比一个精确的模型成本更低,也被使用得更普遍(数据驱动方法)。比如美苏阿在飞机、航天和其他武器上的理念和方法差异(美更胜一筹)。再比如德国的光学仪器设计采用了需要高超加工技艺的非球面镜,日本采用多个球面镜来取代,虽然笨重但方便量产,所以二战后,日本超过德国成为全球光学仪器(包括相机)第一大制造国。

第二章 大数据与机器智能




  • 计算机科学家们认为,如果计算机实现了下面几件事情中的一件,就可以认为它通过了图灵测试:语音识别、机器翻译、文本的自动摘要或者写作、战胜人类的国际象棋冠军、自动回答问题。
  • 鸟飞派:人工智能1.0(传统人工智能) VS. 另辟蹊径:统计 + 数据(数据驱动方法) (现代其他方法,比如数据驱动、知识发现或者机器学习)
    • 传统人工智能方法:首先了解人类是如何产生智能的,然后让计算机按照人的思路去做,而不是机器要像人一样思考才能获得智能。
  • Google机器翻译的发明人,弗朗兹·奥科(Franz Och)
    • 在机器翻译、语音识别和图像识别等领域,依靠技术进步大约每年可以改进0.5%左右。
  • big data中的big和large、vast不一样,vast可以理解为very large,后两者都是用来形容体量的大小,而big更强调相对大小(表明现在的数据量相比过去大了很多,大数据是一种思维方式的改变,而不仅仅是数据量的剧增)。
  • 计算机自动问答研究领域问题归结为7类(WH单词):What、When、Where、Which、Who(简单问题) -> Why、How(复杂问题),Google在前五类问题的工作已经非常完善,吴军在得到上司辛格博士和尤斯塔斯的首肯后,展开了对后两类问题的研究(经过2012~2014年期间的努力,Google能回答30%的负责问题了)。
    • 第一步:根据网页确定哪些用户在Google问过的复杂问题可以回答,而哪些回答不了。
    • 第二步:就是把问题和网页中的每一句话一一匹配,挑出那些可能是答案的片段,至于怎么挑,就要依靠机器学习了。
    • 第三步:就是利用自然语言处理技术,把答案的片段合成为一个完整的段落。

第三章 思维的革命




  • 在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
  • 本章阐述问题的层次:机械思维(17世纪以来) -> 大数据思维,了解人类认识世界方法的演变和发展过程(从“道”的层面了解大数据,而非“术”)。
  • 思维方式和方法远不如方法论对科学的发展至关重要,东方的文明长期以来在技术上领先西方,但是在科学体系的建立上远远落后于西方,关键是输在方法论上。
    • 笛卡尔提出的科学方法论:大胆假设,小心求证。
    • 另一位伟大的方法论大师:牛顿,在数学(微积分)、物理(力学三大定律)、天文学(万有引力定律)和光学(光谱分解)等多个领域的开创性成绩。核心思想:1)世界变化的规律是确定的,这一点从托勒密到牛顿大家都认可。2)因为有确定性作保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。这一点在牛顿之前,大部分人并不认可,而是简单地把规律归结为神的作用。3)这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践,这种认识是在牛顿之后才有的。
    • 牛顿找到了开启工业革命大门的钥匙,而瓦特拿着这把钥匙开启了工业革命的大门。
    • 机械时代
  • 爱因斯坦在与量子力学的发明人波尔等人争论时说过一句话:上帝不掷色子(否认不确定性和不可知性)。事实上,量子力学的出现证明了爱因斯坦是错的。
  • 物理学家张首晟教授喜欢用三个公式概括人类最高的文明成就:
    • 爱因斯坦的质能转换公式E = mc2
    • 量子力学中的测不准原理△t · △p > ε
    • 熵的定义H = -ΣiPi · logPi
  • 医学核心方法论:研究病理找到真正致病的原因,然后针对这个原因找到解决方案。
  • 用不确定的眼光看待世界,再用信息来消除这种不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化成信息处理的问题,具体说,就是利用信息来消除不确定性的问题。
  • 香农三大信息定律 + 最大熵原理,互信息 + 交叉熵。
  • 黑天鹅效应。
  • 从因果关系到强相关关系:青霉素的发现与合成,其他新药的研制过程,美国烟草诉讼案件(证明吸烟有害健康),Google AdSense。
    • 著名的机器智能专家,前Google研究院院长诺威格博士接受母校(加州大学伯克利分校)授予他的荣誉证书时,曾经这样讲述他为什么要加入Google:2001年,当全球互联网泡沫破碎后,大家都在逃离这个领域,很多人从互联网行业回到了学术界。人们问我为什么在这样一个时候离开NASA(美国国家航空航天局),加入Google这家不大的互联网公司。我和他们讲了大蕭条时期(1929-1933年)的一个故事。在大萧条时,有些人买了银行的股票,后来都发了财。事后人们问那些买了银行股票的人为什么在银行如此糟糕时敢买它们的股票,那些投资人讲,因为金世界的钱都在它们那里。”所以,加入Google的决定并不难做,因为全世界的数据都在Google那里。
  • 在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系。

    第四章 大数据与商业




    • 警察局通过智能电表收集到的数据查处隐蔽的大麻种植场所。
    • 税务局通过分类分析企业纳税情况避免逃税漏税。
    • 塔吉特通过分析信用卡号和接收发票的邮箱等能把某些顾客与其所购买的商品联系起来,比如通过分析一位女性顾客是否怀孕从而进行刚需商品促销推送。
    • 亚马逊的电商推荐系统。
    • Netflix(网飞)的电视推荐系统。
    • Google搜索关键词补全和联想。
    • 利用贴在酒上的RFID收集数据分析实现酒吧管理;分析营业额异常升降的原因,分析各种酒随季节的销售趋势等。
    • 普拉达(Prada)通过在专卖店商品标签中嵌入RFID、智能试衣间收集用户各个环节的数据进行分析,改进销售策略,促进营业额。
    • 中国金风公司(全球市场占有率第二的风能发电设备公司),通过大数据分析,一方面全面了解全球的风能分布情况、各地的风力利用情况等宏观信息,有利于公司有针对性地做市场推广。另一方面,他们可以了解每一台发电机的日常运行的每一个细节,不仅发电机有了问题可以及时发现并解决,而且如何进一步改进也有了数据依据。脱离中间商,走近客户。
    • Google搜索中的关键词匹配(如computer和computers,都是comput-词根):将用户多年来搜索过的关键词搭配全都整理出来(大数据完备性),对每一个关键词的搭配做了特殊处理(新关键词组合只能在第二次搜索时生效)。
    • Google无人自动驾驶。
    • 新技术(蒸汽机、电、摩尔定律、大数据、机器智能) + 现有产业 = 新产业。
    • 在信息时代,商业模式的变化更加明显,它突出地表现在两方面,一是产业链从一种产品扩展到整个IT行业,二是服务业的重要性突显出来。
    • 摩尔定律 + 安迪-比尔定律,IT行业产业链的两条重要定律。
    • 通过对历次技术革命中商业模式变迁的分析,我们可以得到这样三个结论:
      • 首先,技术革命导致商业模式的变化,尤其是新的商业模式的诞生。
      • 其次,生产越来越过剩,需求拉动经济增长的模式变得不可逆转。同时,单纯制造业的利润越来越低,那些行业越来越没有出路。相反,人们对服务的需求越来越强烈。IBM、DEC、爱立信、诺基亚和惠普 -> MS、甲骨文、Google。
      • 最后,商业模式的变化既有继承性,又有创新性。工业革命导致了产品需要靠推销才能卖出去,第二次工业革命导致了广告业的兴起,推销的方式从展示变成了做广告,而这两者之间是有联系的。作为创新的一方面,第二次工业革命导致了商业链的出现;到了信息时代,商业链得到了发展,这是继承性的一面;而服务业的重要突显,这是其创新性的一面。

    第五章 大数据和智能革命的技术挑战




    • 可以从数据的产生、存储、传输和处理四个角度来分析一下大数据形成的技术条件。
      • 数据的产生
        • 电脑本身
        • 传感器
        • 将那些过去已经存在的、以非数字化形式存储的信息数字化,这个过程开始于2000年左右。
      • 信息的存储
      • 传输的技术
      • 信息的处理
        • 并行计算(Google云计算,2002年)
    • Protocol Buffer:Google开源的标准数据存储格式。
    • 并行计算和实时处理:并非增加机器那么简单
      • 即便是只有5%的计算不能并行,那么无论使用多少台服务器,实际的加速也不会超过20倍。
        • 并行比例(Parallel Portion),度量在一个任务中有多少是可以并行计算的,有多少不能。
      • 另一个影响并行计算效率的因素在于无法保证每个小任务的计算量是相同的,而最终的计算速度取决于最后完成的子任务,甚至一些子任务会因为系统不稳定出现计算错误需要重新计算,并行计算的效率还会进一步降低。
      • 由于早期的大数据都是存储在硬盘上的,而且并行计算工具比如MapReduce或Hadoop都是基于批处理形式的,难以应对实时计算任务。
        • Google针对日志、数据库等结构化或者半结构化数据,专门设计了一个叫做Dremel(即以前的BigTable)的工具,解决实时访问和简单的数据处理问题。它是基于内存而非硬盘,列优先存储而非行存储的。
    • 如何在大数据时代保护个人隐私【P265】
      • 从收集信息的一开始就对数据进行一些预处理,预处理后的数据保留了原来的特性,使得数据科学家和数据工程师能够处理数据,却“读不懂”数据的内容。
      • 双向监视,让侵犯隐私的人必须以自己的隐私来做交换。
    1. 电子商务平台中,商家会通过掌握的用户数据分析用户性格,选择性给性格比较软弱、不擅长维权的软柿子发假货,给睚眦必报的刺头发真货。
    2. 航空公司票务系统中,平台会对某个机票的询票者进行分析,如果对方过去对票价不是很敏感,它给出的报价就会比其他人的高很多。

    第六章 未来智能化产业




    • 未来的农业
      • 以色列发明了滴灌技术——装有滴头的管线直接将水和肥料送达植物的根系,所有的灌溉方式都采用计算机进行自动化控制,在本国年降水只有200毫米,大半国土都是沙漠的条件下,许多农产品的单产量领先于世界先进水平,典型的科技兴农。
      • 2013年7月的《时代》周刊报道的Droplet家庭院落自动喷水机器人。
    • 未来的体育
      • 2015~2016年的NBA赛季,位于硅谷地区的金州勇士队创造了NBA历史上常规赛获胜率最高的记录,73 / 82场,主场54连胜,并夺得了NBA总冠军,而在2009年时金州勇士队还是一支NBA成绩排名倒数第二的球队。硅谷投资人低价买入球队后,改变了以往弱队崛起必须依靠球星和大牌教练的方式(反而把球星卖掉了),聘请史蒂夫·科尔(乔丹时期的公牛球员,投篮命中率45.4%位居当时NBA球员之首,没有任何执教NBA的经验)担任主教练,重点培养了一名三分球命中率很高的球员——斯蒂芬·库里,因为身体条件出色的球星的打法虽然酷炫但是效率很低,需要全队集中力量输送助攻,并且每次命中只得两分,灵活的库里(1.91m)用自己独特的赛场表现在NBA大放异彩,单赛季投进三分球403个,命中率50%(三分球命中率45%)。即便是后来库里被其他NBA球队重点防守的情况下,勇士队还有一位出色的二号三分球投手汤普森,汤普森单赛季三分球记录是270个,而在此之前的单赛季三分球记录是雷·阿伦的269个。
      • 美国女排。
      • 通过在高尔夫球运动员和网球运动员身上安装各种传感器,测定动作,然后和优秀选手的动作作对比,纠正自己的动作。
      • 训练棋牌选手。
    • 未来的制造业
      • 特斯拉的汽车装配流水线
      • 富士康的工业机器人计划(取代生产线工人,解放低技能人力,降低企业运营成本)
    • 未来的医疗
      • 降低医疗成本
        • 药品的研制周期太长、费用太高(新药专利受保护年限少),医院人员培养的成本太高(培养过程太漫长且易淘汰,薪资很高,专科医生培养年限均值是13年,薪资是50w美元)。
        • 通过模式识别技术进行医学影像识别与分析,可以比有经验的放射科医生更好地诊断病情,降低医疗成本。
        • 达·芬奇手术系统。
      • 解决医疗资源短缺的问题
        • IBM开发的沃特森(Watson)智能系统,差不多能达到中等医生的水平。
      • 制药业的革命
        • 基于大数据对癌症细胞病变、突变进行穷举分析,逐一研制药物控制癌症(2013年,Google成立独资IT医疗公司Calico,聘请时任基因泰克公司CEO、苹果公司董事会主席阿瑟·李文森博士担任CEO)。
        • 加州大学圣迭戈分校教授约翰·克雷格·温特等人创办的人类长寿公司(Home Longevity)可以给予大数据为一些大的制药厂提供与基因技术有关的服务,该公司成立于2013年,首席科学家是原Google翻译的负责人奥科博士。
      • 未来的律师业
        • 英美法系是判例型法律体系(又称海洋法系),打一场打官司,需要将历史上相关的官司法律文件都拿出来分析,工作量巨大,所以诉讼费也巨高。这个情况到了大数据时代,会慢慢得到改变。
      • 未来的记者和编辑
        • 自动撰稿撰评写作机器人。

    第七章 智能革命和未来社会




    • 在历次技术革命中,一个人、一家企业、甚至一个国家,可以选择的道路只有两条:要么加入浪潮,成为前2%的人,要么观望徘徊,被淘汰。
    • “这是最好的时代,也是最坏的时代”——《双城记》开篇,英国文豪狄更斯。
    • 智能化社会
      • 智能交通
        • 2014年跨年夜外滩发生了严重的踩踏事件,随即百度开发了热门城市和景点拥挤情况等相关信息的服务。
        • 美国某初创X团队开发的基于智能手机和其他移动设备规划城市交通和优化个人出行的智能交通系统。

      • 反恐预警
        • 1996年4月21日深夜,俄罗斯在车臣叛军首领杜达耶夫用手机通话时,用A-50空中预警机根据无线电波锁定了他的位置,然后发射导弹将其炸死。
        • 基于上面这个case,斯坦福大学一位不愿意透露姓名的学者开发了一套系统,可以全面追踪一个地区所有手机和电子设备(包括各种移动设备和可穿戴设备)使用者的行踪。每种设备其实都有一个特殊的识别码,可以用一种阅读器来识别(类似RFID),目前这个项目正在和某个国家合作,建立覆盖整个地区的反恐防范系统。
    • 精细化社会
      • 可以利用区块链的思路追踪未来每一件商品从制造出来直到被消费的完整行踪,杜绝假货。
    • 从标准化到个性化的服务
      • 为普通人生病匹配适合的医生,指定针对性的治疗方案。
    • 无隐私的社会
      • 2016年,FBI要求苹果公司交出某些用户数据,以配合反恐调查,苹果公司拒绝。
      • 接【P265】,选择性假货,针对性涨价机票。
      • 保险公司通过医疗数据分析对未来可能患有重大疾病的人拒保或收取天价保费。
      • 大数据对隐私带来的另一个威胁在于,它会在无形中造就出一个老大哥(Big Brother),Big Brother一词来源于英国小说家乔治·奥威尔的政治幻想小说《1984》中的一句话“Big Brother is watching you”。Big Brother指专制政权里的老大。
    • 机器抢掉人的饭碗
      • 历史上影响力可以和正在进行的智能革命相比的,只有19世纪末始于英国的工业革命、20世纪末始于美国和德国的第二次工业革命、“二战”后以摩尔定律为标准的信息革命,一共是三次。这三次技术革命都有一个共同的特点,那就是它们对当时的社会产生了巨大的冲击,都需要经过大约半个世纪甚至更长的时间才能消化掉。
    “资产阶级在它不到100年的阶级统治中所创造的生产力,比过去一切时代创造的全部生产力还要多,还要大。”——《共产党宣言》。
    从工业革命到黄金时代
    • 可以把工业革命对社会的影响分为三个阶段:第一阶段只有发明家和工厂主们受益,普通英国民众并没有受益(甚至产生巨大的贫富差距,后期崛起的美国也是);第二阶段是全体英国民众普遍受益,但是在世界范围内大家未必受益,这两个阶段之间相差半个多世纪;第二个阶段才是整个世界受益,这和第二个阶段又相差了很长时间。
    从第二次工业革命到镀金时代
    • 在人类历史上最富有的75人中,有1/5出生于1830~1840年的美国,其中包括大家熟知的钢铁大王卡耐基和石油大王洛克菲勒等。毫无疑问,这些人都在自己年富力强(30~40岁)时,赶上了美国工业革命的浪潮,这是人类历史上产生实业巨子的高峰年代。同时期欧洲也诞生了工业巨子克虏伯和西门子。
    • 运输业大王范德比尔特通过建立托拉斯(Trust)信托,掌握了上市公司10%的财富。洛克菲勒聚集的财富占全美的1%。经过老罗斯福、塔夫脱和威尔逊三任总统近20年的努力,美国政府强行肢解了洛克菲勒的标准石油公司和JP摩根控制的北方钢铁公司,并且在制度上限制大家族过多控制社会财富,比如征收高额的遗产税。
    • 第二次工业革命代表人物:爱迪生、贝尔、福特、西门子和本茨等人。
    依然没有消化完的信息革命
    • 信息革命的代表人物(美国):苹果公司创始人史蒂夫·乔布斯、微软公司创始人比尔·盖茨和保罗·艾伦、太阳公司创始人安迪·贝托谢姆和比尔·乔伊、戴尔公司创始人迈克尔·戴尔、Google创始人拉里·佩奇和谢尔盖·布林等。
    解决问题只有靠时间
    • 每一次重大的技术革命都需要至少一代人的时间来消除其所带来的负面影响,如使得很多产业消失,或者产生从业人口大量减少等,造成社会动荡。日本和欧美的解决方案是将这些失业且无法通过二次学习去适应新就业环境的人强制塞到公司里,中国则是“耗”,耗上两代,社会问题就解决了。
    智能革命的冲击
    • 首先,信息革命本身带来的影响还没有完全消化完。
    • 其次,今天的世界和200年前已经不同了,消化掉技术革命的影响要比工业革命时难得多。
    • 最后,也是最重要的一点,智能革命所要替代的是人类最值得自豪的部分——大脑。
    现代社会,很多国家都采用“劫富济贫”的方式,征收富人的税养活穷人,社会的进步抛弃了那些没有跟上时代步伐的人,这几十亿的劳工缺口却无法得到很好的解决,只能任由放任。
      • 在历次技术革命中,一个人、一家企业、甚至一个国家,可以选择的道路只有两条:要么加入浪潮,成为前2%的人,要么观望徘徊,被淘汰。抱怨是没有用的。至于当下怎么才能成为2%,其实很简单,就是踏上智能革命的浪潮。
      • 争当2%的人
    参考资料:
    • 《智能时代》吴军这本书如何?– 知乎
    • 一张思维导图看懂《智能时代》(智能时代)书评
    • 《吴军:智能时代》读书笔记 – 简书
    关注 码中人
    点赞、转发、广告,更多优质资源等你来...
    (智能时代)

    往期推荐

    吴军《态度》读书笔记

    《吴军.信息论40讲》学习笔记(pdf,mp3)

    吴军《数学通识50讲》学习笔记 1(mp3,pdf)

    吴军《科技史纲60讲》笔记(pdf,mp3)

    B站视频播放快捷键控制

    继续滑动看下一个

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存