查看原文
其他

苹果和Siri的七年之痒:Siri的落寞之路

2018-03-17 研究语音技术的 AI科技大本营



编译:AI科技大本营

参与:王珂凝 编辑部


【AI科技大本营导读】曾经,我们一度认为 Siri 将会是苹果的下一个重大创新。 但在 Siri 推出七年之后的今天,它却成了苹果的“拖油瓶”。本文讲述了 Siri 的落寞之路。


2011 年,库比蒂诺总部,苹果公司举办了 “Let’s talk iPhone” 新品发布会,那是一个历史性时刻,是新任首席执行官蒂姆·库克的第一次大型发布会。他试图通过这次发布会来续写史蒂夫·乔布斯的产品故事。 但令人失望的是,当时发布的不是一款全新的 iPhone 5,而是 iPhone 4 的更新版 iPhone 4s。


Siri 拯救了这场令人失望的发布会。这款数字语音助理产品在发布会上所展示的对语音指令的响应能力,让评论者惊叹不已。它能够通过指令自动创建提醒、预先设定日程活动或为用户提供有关餐馆或天气的信息。人们一致认为,它会是一种具有革命性意义的产品。这也间接助推了 iPhone 4s 的销量,推出后短短三天内,苹果就销售了四百万部手机,在当时,这是有史以来销量最高的 iPhone。


如今,距离 Siri 发布已经七年了,它饱受诟病。根据分析师的早期推断,Siri 是影响苹果最新产品性能的主要原因——一款售价 349 美元的 HomePod 智能音箱。尽管这款音箱借其时髦设计和完美音质赢得了不少赞誉,但在测试之后,由于总是发出诸如“笨拙”、“烦人”和“尴尬”等词,这让苹果最终放弃了音箱的 Siri 语音功能。


为了弄清苹果在语音助理领域是如何打败亚马逊和谷歌等竞争对手的,The Information采访了十几名苹果的前员工,他们曾在不同的团队中负责开发  Siri 或负责将其整合到苹果系统中,绝大多数人匿名发表了他们的看法。


前员工发表他们的看法并不常见。苹果正努力重塑自我形象,除了硬件设计,也试图致力于创新和提供高质量在线服务。它曾在在线服务业务,尤其是低质量的 iCloud 服务上摔过跟头。随着 iPhone 销售量的逐年走低,在线服务也许会对苹果未来的发展造成伤害。


在 Siri 技术尚未完全成熟之前,苹果就决定要将 Siri 嵌入 iPhone 4s 系统中,上述很多前员工表示,这在内部立刻引发了一场激辩:是否继续修补有缺陷的架构?还是将其推倒重来?这场辩论自 Siri 发布以来愈加热闹。这场辩论只是个开始,Siri 的各个团队更热衷于参与小团体斗争,并就 Siri 的理想版本发表激烈争论——它到底是快速准确的信息获取者?还是善于处理复杂任务的信息助理?


这些团队的勾心斗角在领导者和中层管理人员之间你来我往,他们缺乏乔布斯的远见和影响力。与此同时,噩耗传来,乔布斯在苹果推出 Siri 后的第二天因患胰腺癌去世。这些前员工表示,领导力缺乏和人员不断流动使 Siri 重新陷入了困境。但导致其失败的最主要原因是苹果不对外开放的封闭文化,它未能给外部开发人员提供更多机会开发更多有用的 Siri 应用。


一直以来,Bill Stasior 负责管理 Siri 的开发部门, 他是一名安静而谦逊的工程师,曾是亚马逊杰出的搜索专家,随后于 2012 年末加入苹果。Stasior 负责 Siri 的核心技术——语音识别系统、自然语言处理系统以及苹果的各种搜索功能。 Siri 的前员工们表示,这些部门之间相互竞争是为了获得更多关注和资源,并且部门之间也经常发生冲突。


苹果发言人拒绝了让 Stasior  接受媒体的采访。在一份声明中,他们宣称 Siri 是“全球最受欢迎的语音助理”,并吹捧了它在苹果设备上的强大能力。


“Siri 在性能表现、可扩展性和可靠性等方面已经取得了重大进步,我们采用了最新的机器学习算法使其具有更自然的声音和更强的主动性,”苹果在声明中写道。 “我们将继续加大对机器学习和人工智能领域的投资,不断提高 Siri 所提供答案的质量,也会不断扩大 Siri 回答问题的范围。”


可以肯定的是,没有哪家公司能够拥有像科幻电影里那样完美的数字语音助理,而苹果的产品在某些领域确实领先于亚马逊和谷歌:Siri 支持 21 种语言,而亚马逊的 Alexa 只支持 3 种语言;Google Assistant 则支持 8 种语言(谷歌上个月表示,Google Assistant 不久就会支持超过 30 种语言)。Siri 每个月在超过 5 亿台设备上使用,每周则需要处理 20 亿次问答请求。


和首次推出的 Siri 相比,现在 Siri 对指令的响应速度要快很多。而在用户数量方面,由于 Siri 嵌入在了号称苹果最畅销产品之一 iPhone 中,他们自信宣称,使用 Siri 的用户要远远超过其他语音助理。


尽管如此,与其竞争对手相比,Siri 的能力仍然有限。2016 年,苹果推出了 SiriKit,这是一款能够让外部开发人员有机会为 Siri 开发新功能的工具,但可惜没有极大吸引开发者的兴趣。


与之相比,它的竞争对手亚马逊 Alexa 则拥有 25000 个由第三方开发人员构建的“技能(skills)”。Google Assistant 则拥有 100 多万种“行为(actions)”,其中包括谷歌写入的命令(如通过谷歌地图进行导航)以及由第三方开发的功能(谷歌没有透露第三方开发的数量)。这些竞争平台在使用量上也在迅速赶上苹果:谷歌 1 月份宣称 Assistant 已使用在 4 亿台设备上,而亚马逊也表示仅在节假日期间,就已经卖掉了“数千万”台基于 Alexa 的设备。


“当Alexa 出货时,销量从第一天开始就非常稳定,”一位前 Siri 团队成员说。 “对于 Siri 来说,想要达到这一点,他们几乎要推到重来。”


宇宙中的足迹


Siri 公司成立于 2007 年,由斯坦福研究院——一个位于门洛帕克的非盈利研究组织——负责这项技术的研究 。 Siri 最初的构想是成为一个智能数字语音助理:能对用户请求作出响应并和用户进行交互以获取所需要的回答。例如, 理想情况下,Siri 并不会直接给出一个餐厅的电话号码,而是通过沟通与用户确认清楚细节,如日期、时间和参加派对的人数,然后直接自行预订餐厅。


Siri 的设计者们认为,解决这一问题的唯一途径就是创建一个开放平台,允许外部开发人员参与 Siri 的开发,这样才能使 Siri 的功能数量远远多于“闭门造车”。


“这是一个关于为人工智能开发应用程序的问题,” Siri 的一位高管说, “它应该成为一种通过对话来协调互联网的一种方法。”


Siri 公司创始人兼董事会成员 Norman Winarsky ,认为乔布斯是 Siri 潜力的忠实信徒。2010 年的某一天,乔布斯邀请 Siri 首席执行官 Dag Kittlaus 及该公司的三位联合创始人到他的家中会面。数小时以后,乔布斯最终说服该团队,摒弃其他合作者,全身心投入苹果公司,并让他们相信,他们将会在 Siri 上实现更大的目标。


“乔布斯极大地鼓舞了这个团队,” Winarsky 谈到 Siri 联合创始人。 “他让这个团队所有人都相信,他们可以在宇宙中留下自己的足迹。“


2010 年 4 月,苹果以超过 2 亿美元的价格收购了 Siri 。当时, Siri 只有24名员工,但苹果很快扩充了 Siri 的核心团队人才。18个月后,Siri  和 iPhone 4s 一起推出,Siri 的团队已经发展到近100人。


在收购之后,乔布斯仍然对 Siri 保持密切的关注。该团队的前员工表示,乔布斯每周都会出席一次会议,并就 Siri 即将发布的功能发表自己的意见。当时担任苹果高级副总裁的 Scott Forstall,也很支持 Siri 团队。Forstall 对该产品能够做什么具有很强的洞察力,并且喜欢亲力亲为。一位前雇员表示,他每天都会研究技术,经常在参加团队会议的时候告诉大家:“昨晚我又发现了10件事”。


为确保 Siri 按时发布,该团队在 Siri 的最初构想上做了一些妥协,“人工智能应用商店”计划不得不搁置。乔布斯希望, Siri 专注于一些只有苹果公司才能完全控制的技术,但早期的 Siri 成员表示,乔布斯承诺会在晚些时候开始构建第三方生态系统。


2011年10月4日,Siri 发布的第二天,乔布斯因癌症的长期困扰而去世。Siri 成员表示,乔布斯的去世,基本上标志着 Siri 初始计划破灭。


“当 Siri 发布的第二天,乔布斯去世的时候,Siri的初始计划就泡汤了,”前雇员回忆道, “他们因此也失去了宏观上的大方向”。


混乱的开始


在这以后, Siri 团队仍然有 Forstall 的支持,但 Forstall 的注意力同时也分散在其他主要项目中,包括即将推出的苹果地图( Apple Maps)。 Forstall  任命苹果地图团队中的副手 Richard Williamson 领导 Siri 团队,试图让一切重回正轨 44 42411 44 19053 0 0 5595 0 0:00:07 0:00:03 0:00:04 5595


几名前员工表示,Williamson 做出的很多决策都遭到其他成员的反对,其中包括对 Siri 每年只做一次升级。这是苹果在 iOS 系统升级上的常用策略,而 Williamson 以前的工作就是让软件从后端服务器的更新运行在手机上。 Siri 成员表示,这种模式是错误的, Siri 应该是一个不断改进的在线服务,而不是每年只更新一次。虽然服务器软件在稳定性和性能方面做了很多更新,但在第一年里, Siri 架构并没有做任何改变。


Williamson 在一封应邀采访的电子邮件中写到,他认为 Siri 不持续更新这件事是“完全不符合实际”的,有关“软件和服务器基础设施技术方面”的决策由他的下属员工来决定,而他只负责让团队重回正轨。


“ Siri 发布成了一场灾难,” Williamson  写道, “它运行速度很慢,并且有很多严重的错误,这完全取决于 Siri 以前的团队,而不是我的问题。“


在声明发表后,Kittlaus 回应到:“这个声明简直是满口胡言,是苹果历史上最大的灾难!而这一切都是苹果地图的负责人 Williamson 所导致的。事实上,Siri 在发布时的表现的非常出色,但是和任何一个新平台一样,在意外大规模负载的情况下,都需要进行负载规模的调整和24小时不间断的维护。”


Siri 首次发布时,用户数量的激增超出预期,软件开始崩溃。工程师忙于维持后台的正常运行,但基础架构根本无法应对大量的数据流入。一名被任命到基础架构的员工回忆道,最初需要 500 台服务器处理 Siri 任务,在改进之后,才缩小到 5 台服务器上。


“在当时,这就像一场战争,”另一名前员工回忆道。


上个世纪 90 年代,曾与 Siri 联合创始人 Adam Cheyer 在 SRI 一起工作的 Luc Julia 被任命为 Siri 团队的主管。几位 Siri 前员工很喜欢在 Julia 领导下工作, 但是 Williamson 写道,Julia 与苹果公司的一些人发生冲突,其中也包括 Forstall 。而当 Forstall 施压促使 Julia 离开 Siri 时,Williamson 照办了。在管理 Siri 团队不到一年后,Julia 离职了。


Williamson 在邮件中写道,他试图让团队实施 SiriKit 项目,允许外部开发人员对 Siri 的功能进行改进,但遭到 Siri 团队的抵制,因为 Siri 的“初始软件非常脆弱、死板”。


Williamson 和 Siri 团队之间的分歧,致使联合创始人 Cheyer 于 2012 年 6 月离职,他也是 Siri 团队最忠实的支持者之一。在另一位联合创始人 Kittlaus  离职一年后, Cheyer 很快也离职了,这又导致了 Siri 团队的其他几名创始成员离开了该项目。


也在当年年底,苹果地图 iOS 6 系统中发生灾难性的错误时,苹果解雇了Forstall 和Williamson。Siri 前员工说,失去了这位始终支持他们工作的 Forstall ,他们感到很遗憾。


转向搜索


在苹果收购 Siri 不久,乔布斯发表了他的独特见解。


2010年6月,乔布斯在《华尔街日报》的 All Things Digital 技术大会上表示:“ Siri 无意涉足搜索领域,他们属于人工智能领域......我们并没有进军搜索领域的计划,这并不是我们感兴趣的领域,其他人在这个领域做得更好。“


但是,高质量的搜索设备仍然是数字语音助理的关键。当用户提出问题时,人工智能需要接入知识库并快速做出正确响应。


乔布斯的这一观点表达了 Siri 团队中许多创始成员的想法: Siri 将比搜索更强大。一位 Siri 成员表示,他们对 Siri 最理想的设定与 2013 年 Spike Jonze 电影中的“她”类似,电影中 Joaquin Phoenix 饰演一个孤独的男人,爱上了他所熟悉的操作系统 “Samantha”。


持有同样观点的员工表示,像 Stasior 这样的搜索专家被任命领导 Siri 时,他们立刻表示怀疑。 Stasior 拥有博士学位,并获得麻省理工学院计算机科学学位,自 2006 年至 2012 年担任亚马逊的总裁兼首席执行官,并协助创建了亚马逊搜索部门—— A9.com。


Siri 团队成员认为 Stasior 没有语音或自然语言处理方面的背景,并不能成功的领导这个团队。


“我意识到,尽管他对 Siri 特别感兴趣,但他的最终目标还是要建立一个搜索引擎,” Stasior 底下的一个雇员说道, “ Siri 仅仅是一个跳板。”


当 Stasior 初入苹果公司时,其搜索引擎功能分散在整个公司的各个应用中,并且有大量重复点。当时的在职人员说, Stasior 的主要工作就是将 Siri 和苹果现有的搜索功能整合,来改善 Siri 的核心性能,他还努力加强苹果公司在搜索技术领域的影响力,包括网络搜索、媒体搜索和维基百科的数据分类。


搜索团队员工表示,“ Stasior 的工作就是将搜索作为一项核心资产,并使其成为苹果公司的顶级产品,” 。


Stasior 努力促成了苹果公司一系列的收购,以支持苹果公司内部的搜索人才和技术的发展。根据 TechCrunch 的报告,2013 年 10 月,该团队以超过 4000 万美元的价格收购了 Cue ,该公司建立了一个个人助理应用程序,通过用户的电子邮件即可制定个人日程表。


2013年, Stasior 以超过2亿美元的价格收购了 Topsy 。Topsy 技术被用在 Spotlight 中,它是MacOS 和 iOS 操作系统内置的 Apple 搜索功能,并于2004年首次推出。


“ Bill 一旦发现了一些好东西,他就一定会去掌控,”一位负责收购调查工作的苹果员工说, “他的目标就是尽可能多的获得和巩固更多优秀的搜索人才。”


一位前员工表示,Topsy 团队最终成长为 Stasior 手下一个庞大的组织,其员工数量现在几乎可以和 Siri 团队不相上下。 Topsy 的首席执行官 Vipul Ved Prakash 将继续领导该搜索团队,并直接向 Stasior 做汇报。


将现有的 Siri 团队与 Stasior 的搜索团队组合在一起,结果证明这是错误的决策。 Topsy 团队并不愿意和 Siri 团队合作,他们认为 Siri 团队研究进展缓慢,虽然最初的基础设施已经修补完毕,但自发布以来并没有完全更换。


“我有一种想法就是:为什么我们不重新开始建立我们需要建立的东西?然后再担心二者之间的协调?”搜索小组的前成员提到, “但他们仍然着眼于二者之间的协调工作。”


这位前员工说, Siri 和 Spotlight 的核心技术是由 Topsy 技术和 Siri 数据服务二者组合而成,该服务基于 iTunes 旧的搜索技术,针对 Siri 做了改进,并于 2013 年推出。 Siri 的数据服务处理诸如维基百科、股票和电影放映时间等事项,而 Topsy 则对 Twitter 、新闻和网络搜索结果进行排序。 Prakash 计划将所有的技术集成到一个堆栈中,最终将 Siri 数据服务团队纳入 Topsy 团队中。 但是由于二者基于不同的编程语言,因此很难去协调。


整合搜索团队的困难导致了一些令人尴尬的后果:用户使用 Siri 或 Spotlight 会得到了两种完全不同的答案,而这些答案则是由两种不同的搜索技术支持而分别构建的。


地盘争夺战



Siri 的初始技术是利用自然语言处理来理解用户的意图。语音处理是一款可以检测用户语言的软件,最开始,苹果将该技术外包给了波士顿的 Nuance。后来在 Stasior 的领导下,苹果开始专注于创建自己的语音识别软件。


2013年,苹果还聘请了经验丰富的微软语音识别专家 Alex Acero ,领导一个新的语音识别团队。同年,苹果还收购了语音创业公司——诺瓦瑞斯技术公司,用来积累语音技术方面的专业知识。苹果公司计划将新的语音识别技术与 Acero 的 Siri 核心技术相结合,希望以此来改善 Siri 的会话性能。 Siri 团队认为,这种技术上的结合很重要,并很可能极大的促进 Siri 的发展。


在合作了6个月以后,这个团队于2014年年底解散了。 Acero 继续领导语音识别团队,而自然语言团队则由 Anoop Sinha 领导(曾在全球咨询公司麦肯锡公司工作的管理顾问)。


接受The Information采访的前员工表示,在这之前,高层从未对此解散做出任何解释,倘若真的发生了这种事, Sinha 也会有他自己的管理方式。


由于 Sinha 没有自然语言处理领域的专业背景, Siri 团队的几名成员都对他很反感。 他们认为,Sinha 的决策似乎源于办公室政治,而不是科学研究。


一位前员工回忆了其中一次会议,当时Sinha 和 Acero 公开对峙,双方层在项目分配上争执不休,压迫 Stasior 做出最后的决策。这两个派别间的紧张局势促使了另一批员工的离职,其中包括经验丰富的语音科学家 Gokhan Tur 、 Chuck Wooters 、 Tom Kolla r和 Larry Gillick。


LinkedIn 上 Sinha 的个人资料显示,他已于2016年从苹果离职,现任 Facebook 的工程经理,并且没有对评论做出任何回应。


许多离职多年的 Siri 员工与 Kittlaus 和 Cheyer 联手,组建了一家新公司——Viv Labs,并继续致力于构建更好的数字语音助理。 Stasior 对此感到很愤怒,“他们值得相信吗?”一位前员工回忆道。


在得知 Kittlaus 和 Cheyer 继续来观看苹果与他们的前 Siri 团队的篮球赛之后,Stasior 就开始担心他们会挖人。据当时在场的 Siri 员工回忆,不久之后,这两人便被禁止进入苹果的园区。


强大对手的崛起


为了让 Siri 更强大, Stasior 又继续进行了大手笔的收购。 2015 年 10 月,他主导收购了 VocalIQ——一家致力于研究动态学习系统的英国人工智能初创公司。


一名 VocalIQ 团队的前雇员谈到,他们认为 Siri 其实是一个“手动操作系统”,并相信 VocalIQ 技术对于 Siri 的发展很有帮助。 VocalIQ 的技术可以从语音交互中提取重要信息并对其进行分析,不断的调整系统的准确性。 据相关人士透露,苹果已成功的将 VocalIQ 技术整合到 Siri 日历功能中。


此外,在前雇员 Rushin Shah 的领导下,更多的自动化机器学习技术被整合到了 Siri 的域选择中 , 例如判断请求需要发送还是共享 。LinkedIn 上 Rushin Shah 的个人资料显示,Shah 已于 2017 年从苹果公司离职,目前在 Facebook 自然语言理解团队中但任高级经理。


与此同时,苹果将其在语音助手领域积攒了三年的优势拱手让给了亚马逊和谷歌。 2017 年 6 月,《华尔街日报》在一篇报道里写道, HomePod “在家庭音箱市场上充其量也只能位居第三名”。


两位 Siri 团队员工告诉 The Information,为了应对这场竞争,直到 2015 年, 或者说是 2014 年底亚马逊的 Echo 横空出世时, Siri 团队才知道苹果的 HomePod 项目。据知情人士透露,苹果公司原计划就是要推出一款普通音箱,并不会搭载 Siri。


苹果突然决定将 Siri 纳入音频项目,使得 Siri 语音识别团队不得不疲于应对与 Beats 公司的每周例会。早在前年,苹果公司就以 30 亿美元收购了 Beats。Siri 前员工 Chuck Wooters 提到,在早期的会议中,大约有 25 人参与,其中也包括通过通过视频与会的几名 Beats 员工。


Beats 团队致力于研究麦克风降噪和波束形成算法,以便更好地接收用户的语音命令。在湾区周围的公寓里,苹果公司安装了麦克风用来收集数据,并模拟家庭环境,他们将这些数据称为“室内脉冲响应”。


然而,Siri 的失败之处在于,它仍然没有构建第三方开发生态系统,而这恰恰是 Siri 最初构想的关键要素。曾参与过多个开发者工具包项目的前员工称,该项目搁置多年以后,苹果终于在 2016 年推出了 SiriKit 。然而据多名相关人士消息,从 2012 年以来,苹果就一直致力于构建开发工具包。


苹果最终任命 Siri 团队初创队员 Vineet Khosla 负责管理 SiriKit 项目,通过外来开发者将他们开发的应用程序与 Siri 连接起来。苹果这样做的意图似乎是为了提升 Siri 的功能,使其不再依赖于一些有限的本地应用,比如打电话或者发信息。


但 SiriKit 尚未兑现其承诺。到目前为止,只有 10 项功能与其相关,例如付款、预订游乐设施、设置待办事项和查看照片等。一些 SiriKit 的高级工程师要么已经离职,要么已经离开这个项目。据知情人士透露,虽然 Khosla 仍然任职于苹果,但已经不再领导 SiriKit 团队,该团队目前由 Siri 现任负责人 Robby Walker 领导。


一些 Siri 团队的前员工指出,虽然苹果曾经尝试转型成一家服务型公司,但其核心仍然是产品设计。在公司内部,创建完美的在线服务这一理念,远不及设计具有变革性产品的意愿强烈,而这也可能会像 Stasior 管理的项目那样出现很多棘手的问题。


一前雇员表示:“苹果公司的内部结构与员工的努力背道而驰,Bill 所要竭尽全力解决的一点就是和这种思想抗争。”



作者: Aaron Tilley,Kevin McLaughlin

原文链接:https://www.theinformation.com/articles/the-seven-year-itch-how-apples-marriage-to-siri-turned-sour


招聘

新一年,AI科技大本营的目标更加明确,有更多的想法需要落地,不过目前对于营长来说是“现实跟不上灵魂的脚步”,因为缺人~~


所以,AI科技大本营要壮大队伍了,现招聘AI记者和资深编译,有意者请将简历投至:gulei@csdn.net,期待你的加入!


如果你暂时不能加入营长的队伍,也欢迎与营长分享你的精彩文章,投稿邮箱:suiling@csdn.net


AI科技大本营读者群(计算机视觉、机器学习、深度学习、NLP、Python、AI硬件、AI+金融、AI+PM方向)正在招募中,关注AI科技大本营微信公众号,后台回复:读者群,联系营长,添加营长请备注姓名,研究方向。



☟☟☟点击 | 阅读原文 | 查看更多精彩内容

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存