苹果是如何做到让 Siri 的声音更像真人的？

声波 2017年9月11日 AI, 人工智能, 大公司, 新知快讯留言 2,522 查看

编者按：虚拟助手最先是由Siri带火的，但现在的苹果已经被Amazon和Google拖到后面。不过以追求完美为目标的苹果自然不会就这么让Siri沉寂下去，过去几年的时间了，苹果的团队一直在攻关一个项目，那就是让Siri说话更像人。团队负责人认为，现在Siri已经取得了巨大飞跃，在不久后的iOS 11中，用户就能感受到它的风采了。Siri说话是怎么变得更像人的呢？《连线》杂志的这篇文章为我们揭秘。

Alex Acero第一次看《她》的时候是以一个正常人的方式去观看的。但第二次的时候，他根本就没有看电影。Acero是苹果负责Siri背后技术的主管，这次他就坐在那里，紧闭双眼，倾听Scarlett Johansson（斯嘉丽·约翰逊）是如何给她的人工智能角色Samantha配音的。他注意了她是如何跟Joaquin Phoenix扮演的Theodore Twombly交谈的，以及Twombly是如何回话的。Acero试图弄清楚Samantha是怎么让一个从来都没见过她的人爱上她的。

为什么声音会工作得那么好？当我问到Acero这方面他了解到什么东西时，他笑了，因为答案太明显了。他说：“因为自然！因为那不是机器人！”这对于Acero来说几乎都算不上是启示。这基本上只是确认了他的团队过去几年做的项目是对的：这个项目的目标就是让Siri听起来更像人。

今秋，当全球各地安装iOS 11的iPhone和iPad数量达到数百万的时候，该新软件就会给Siri换一个新的声音。它不会引入很多新功能或者把笑话讲得更好笑，但是你会注意到其中的不同。Siri现在讲话会有更多的停顿，在停顿前先把音节拉长，说起来有一种抑扬顿挫的感觉。字句听起来更加流利，并且Siri也会讲更多语言了。总之，听它讲和跟它讲都感觉更好了。

苹果用了几年的时间来重新构建Siri背后的技术，将它从一个虚拟助手变成了支撑你手机的一切人工智能的一个包罗万象的统称。它已经在不懈地扩张到新的国家和语言（尽管犯过不少错误，但Siri仍然是目前市面上最通俗的个人助理）。苹果也从一开始的慢慢地到现在的迅速地，致力于将Siri普及到每一个地方。而且Siri现在已经归苹果的软件负责人Craig Federighi掌管，这表明Siri对苹果的重要性现在已经跟iOS相提并论。

这项技术好到能让你跟你的虚拟助手坠入爱河还需要一段时间。但Acero和他的团队认为自己已经取得了一次巨大飞跃。他们还坚定地认为，如果自己能让Siri说话不那么像机器人而更像你认识和信任的某人的话，他们就能把Siri做得很棒，哪怕Siri会有失败的时候（注：因为人也会犯错）。而这个在AI和语音技术尚处早期阶段时，可能就是最佳场景了。

Siri长大了

为什么苹果喜欢控制自己产品的一切？如果你想找个好例子的话，只需看看Siri。自从推出6年后，Siri在这场虚拟助理的竞赛中大部分已经落后。Amazon的Alexa得到了更多的开发者支持；Google的Assistant知道更多的东西；这两个在很多不同公司许多类型的设备上都能找到。

苹果说这都是自己的错。Siri刚推出的时候，是另一家公司提供语音识别的后端技术。那家公司是谁？一切迹象均指向了Nuance，尽管苹果和Nuance均从未承认过有合作关系。不管这家公司是谁，苹果都乐于把Siri的早期问题归咎到它的身上。苹果负责产品营销的CP Greg Joswiak说：“这就像是在赛跑，有人在拖我们后腿。” Joswiak说苹果已经给Siri制订了一个大计划：“做你可以在手机上对话的助理，可以用更容易的方式帮你做这些事，”只是技术还不够好。他说：“你懂的，输入不行的话，输出也不行。”

几年前，Acero领导的这支苹果团队控制着Siri的后端以及体验改进。现在Siri的基础已经变成深度学习和AI，因此得到了巨大改进。Siri的裸语音识别可以与任何竞争对手匹敌，可正确识别95%的用户讲话。这款AI工作于两个不同的关键模式：语音转文本，也就是Siri弄清楚你说什么，以及文本转语音，也就是Siri会进行回话。

在众人的声音中（尤其是当这些系统变得愈发个性化时）分辨你的语音是Siri最重要的工作之一。Siri掌握的数据越多，苹果的模型就会越好，它就越能分辨不同的人，甚至能理解很重的口音。这还会变成一个安全问题：研究人员最近发现，他们能够以高到人类无法听见的频率跟Siri沟通，从而使得破解不被发现。Siri需要学会区分人和机器的语音，以及你的和别人的语音。

学会讲话

有一个办法有助于理解这些系统的工作方式，那就是看看苹果是怎么教Siri学习新语言的。在把Siri引入新市场——比如说上海时——团队首先会寻找已有的本地语言数据库。然后通过雇用配音员，让这些人读书、读报以及读网上的文章等来丰富这个库。

苹果的团队会转录那些录音，把单词跟声音对应上——更重要的是，要识别音素，也就是构成所有话语的独立声音（在英语中，“fourteen”是个单词，而“e”这个英就是音素）。他们试图以各种能想象得到的方式来捕捉这些音素：在词尾的时候变弱，在开始的时候加强，停顿前拉长，疑问句末变成升调等。每一种表达都有着略为不同的声波，苹果的算法会对此进行分析，找出任何特定句子的最合适表达方式。Siri说的每一句话都包含了几十或者几百个这样的音素，就像是用不同杂志里面的字母拼凑出来的勒索信。你听到Siri说的话里面可能没有一个字是通过录音出来的。

再给个例子：“You want to watch this？（你想看这个吗？）”和“I like your watch（我喜欢你的手表。）”第一句的情况下，Acero说到“watch”时声音会自然提高，但是在第二句的时候就会变成降调。Acero说：“单词还是一样的单词，但发音就完全不一样了。”在这两个句子中他都无法使用单词“watch”的同一份录音，或者甚至是相同的音素。“one Siiiix NINE fourteenth STREET PhilaDELphia”，发音就像你的老式GPS导航那样的系统是很难听的，尤其是单词数量比较多时。

即便在几年前，计算机和服务器也还不能提供足够的处理能力来遍历一个庞大的数据库，为每一次呼叫和响应找到完美的声音组合。不过现在他们可以了，Acero和他的团队想要到尽可能多的数据。所以在做出了初始模型之后，他们马上就以所谓的“仅收听模式”推出Siri。这种模式下你不能跟Siri对话，但是可以按下麦克风按钮然后下达语音指令或者进行web搜索。这个给苹果的机器提供了很多不同口音、不同品质的麦克风以及各种情况下的输入，这一切都让Siri做得比比人更好。苹果收集（自称是匿名模式下的）和转录这一数据，然后改进算法和训练神经网络。他们还给机器补充了位置相关数据以及说话习惯——比如3:0美国的说法是three-zero，而英国则是three-nil——然后继续调整系统，直到Siri对什么是上海话以及大家是怎么说上海话有着近乎完美的理解。

与此同时，苹果还进行了一场浩大的寻找合适配音员的行动。他们从成百上千人开始，让这些每个人都录一段Siri可能会讲到的话。然后Acero跟苹果的设计师和用户界面团队一起来决定最喜欢哪一个声音。这一块其决定作用的更多的是艺术而不是科学——他们一边听，一边试图找感觉，那种难以言喻的感觉，最好要有帮助感和亲切感，中气十足又不要太尖锐，有快乐感但又不能太卡通。

接下来的部分就是科学了。Acero说：“很多配音员的声音都很好听，但这并不意味着这些声音就适合于语音合成。”他们用自己建立的名为音素变异性的模型来对这些讲话进行测试，看看每一种细微的表达方式的声波左右侧的差异性如何。一个音素的变异性太多会使得把很多音素组合起来的时候很难发出自然的声音，但你在听它们讲的时候是听不出问题来的。只有计算机才能看出不同。Acero说：“这几乎就像在墙上贴墙纸，你得留意接缝才能确保对齐。”

在找到了发音同时令人和计算机感到满意的那个人之后，苹果用了几周的时间去录制声音，然后这就成为了Siri的嗓音。Siri支持的21种语言（针对36个国家进行本地化）都是按照这一流程进行的——这个数量超过了其所有主要竞争对手支持的语言之和。每个月加起来有3.75亿人在使用Siri。这是个很大的数字，对于一个严重瑕疵数不胜数，很多人直摇头的语音助手来说更是如此。

尽管如此，与全球10亿多的苹果设备相比这个数字仍略显苍白。从iPhone到Apple Watch，从Macbook到Apple TV，苹果销售的几乎所有东西都包含有Siri。不过分析师预计，很快就会有超过5亿的iPhone会被同时激活。Siri是一个流行且重要的功能，但还算不上无所不在。对于大多数人来说，这个功能绝对不是必不可少的；你对Siri的功能需求并不像对手机的需要那样。现在苹果已经有了一位自己信任的助理，它必须教会大家怎么去用Siri。

尽管问我吧

苹果推Siri的意图是什么呢？你想知道的一切都可以在这则广告https://36kr.com/p/5084887.html里面找到。影片跟踪了Dwayne Johnson（巨石强森）在伙伴Siri陪伴下一天的生活。强森用Siri查看日程安排，用Siri打Lyft，当然，开车的还是他；他还一边飙车一边查天气；在西斯廷教堂画壁画的时候用Siri收邮件；在两个手没有空的时候用Siri进行单位换算；在太空的时候进行Facetime还拍了个自拍。Siri称他是“Big、Bald和Beautiful先生”，希望这个声音到iOS 11的时候听起来不再那么的不舒服。

Joswiak说，从一开始苹果就希望Siri成为干脏活的机器。大家通过问一些琐碎的问题来比较虚拟助理的方式令他感到发疯，因为这使得Siri看起来很糟糕。他说：“我们设计Siri不是让你打破砂锅问到底的！”

相反，Joswiak仍然专注于帮助大家在一位自动化朋友的帮助下做更多的事。他指出Siri可以在Mac上执行复杂的文件搜索，护着即将推出的HomePad对音乐的深厚知识。另一个例子出自我们见面的几天之后，当时Siri的语音搜索和控制赢得了艾美奖的一项技术性奖项。它可以下达一些非常出色的指令““嘿Siri，回放2分钟，”然后你就能重新听一遍。

Siri不是万能的，甚至大部分事情都不能做。它最有用的地方是可以让你少敲几个字，少滑动几次屏幕，而不是替你解决复杂的琐事或者跟你辩论我们是不是生活在模拟世界里面。但因为Siri展现出了没有限制性——因为你可以问任何事情——用户自然就想什么都试试。Acero说：“用户知道自己可以说什么是很重要的。”他的工作之一就是要帮助Siri改善沟通技巧，同时在失败的时候要表现得优雅。他说：“我们在努力赋予Siri这类能力，也就是知道什么地方自己不知道。但这是个很困难的问题。”苹果网站，甚至包括它的商业广告，都是为了帮助大家更好地理解Siri可以做什么，不可以做什么。

另一个挑战是让大家记得Siri在着呢。Acero说：“大家做事都有自己的习惯。如果习惯敲字，如果突然改变这一习惯的话，适应是需要一段时间的。”所以苹果试图去推动用户朝着正确的方向走。在iOS 11里面，Siri的存在感会强很多，主动性也会大大加强。它会观察你浏览网页然后推荐Apple News故事给你阅读，或者帮助你替刚刚通过Groupon订购的按摩券添加日程安排。新的Siri会变形，在设备兼同步你的设置，所以不管你在使用哪一种设备，Siri一直都会知道你的习惯。

这些年来，苹果在让开发者跟Siri集成的事情上一直动作缓慢。Alexa以及程度略低的Google Assistant都在鼓励开发者替自己的助理开发应用或者把他们的助理纳入进去，但Siri却仍然对开发者紧闭大门。巨石强森能做的一切都只能在苹果自己的应用里面做。它拒绝承认你手机上Google Maps或者Outlook的存在，当然，没有HomeKit的话你也开不了任何的灯。去年，该公司谨慎地开了一道缝，让跟多的开发者进入，使得用户可以用Siri来跟Whatsapp通话，打Uber，或者通过Venmo转账。iOS 11之后大门会开得更大，但只是大一点点。

随着Amazon和Google取得开发者的支持以及在功能竞争中取得领先，这种动作之慢已经让苹果付出了在大家眼里失去领先地位的代价。至少Joswiak是表示出耐心的。他说问题不在于Siri能做多少事情。而在于“你怎么把事情做对？因为我们不想对用户规约过多。” 他对Amazon和Google苛刻的语法要求感到愤怒，比方说你得这么说：“Alexa，问一下Daily Horoscopes有关金牛座的情况。”或者“OK，让我跟Todoist谈谈。”他宁愿等到你想怎么讲就怎么讲，不管你想要什么都能如愿的时候。苹果一如既往的，如果只能做出半成品的话，宁愿什么也不做。

语法问题最终要回到Acerco倾听Samantha和Theodore Twombly在屏幕上谈恋爱时听到的同一样东西上。最好的计算机——即便是科幻小说里面的计算机——听起来也像人。他说：“它会在合适的地方停顿，它会有合适的语调，流畅的发音。而且声音里面只有一点点的金属感。”他希望做点好东西出来，然后提供给每个人。任何时候你想了解进展情况时，只需要看看Siri就行。

苹果是如何做到让 Siri 的声音更像真人的？

关于 声波

检查

发表评论 取消回复

关于声波

发表评论取消回复