【上海GDG】人工智能沙龙活动总结20170107

spenceryang · 发表于 2017-1-23 10:28:10

2017年1月7日，上海GDG在新一年的第一次AI沙龙圆满结束，来自斯坦福的两位美籍嘉宾为大家作了干货十足的分享，让现场100多名观众受益匪浅。

活动总结

语音助手比较分析与展望

语音助手的背后的逻辑大概概括为三个层面：

首先是语音识别，其次是对话的数字模型，第三是任务的执行。

语音识别和理解技术已经有多年发展的历史，其技术发展甚至和电子计算机一样久。

现阶段在人工智能领域领先的大公司开发的语音助手，在语音识别和理解上基础差别并不大，其产品效果的差异主要来自于数据量。

苹果：Siri 在2011年惊艳世界后就一直不温不火，不过近日有消息称Siri将迎来革命性升级，主要是通过整合VocallQ来实现。在被苹果收购之前，VocallQ在语音助理领域就已小有名气，因为其识别语音的正确率达到惊人的 90%以上，而当时无论是Google Now、Cortana 还是 Siri 的正确率只有大约20%。据了解，最快在即将到来的WWDC大会上，苹果就有可能宣布Siri的这一次重大更新。

Siri的优势在于和iOS整个生态系统（特别是原生应用）的整合性强，功能点多。劣势在于其识别的精度相比于业界目前相对最完善的Google Now较低。Google Now已经能够非常好的根据上下文对用户的输入进行自动修正，从而构建有效的问答。但是Siri还无法很好地做到，苹果目前正在试图通过收购来弥补。

Google Assistant：现在，对手机制造商来说，制造一款高端智能手机相比来说是比较容易的，真正的挑战是为它开发出独特的、能够帮助用户做更多事情的软件。

而谷歌新的语音助手Assistant就是一款这样的软件。Siri没有完成的事情，看起来Google Assistant正慢慢变得瞩目。

显然，谷歌Assistant比苹果Siri更聪明、更有能力，这对苹果来说是一件很尴尬的事，因为苹果Siri的起点比Assistant早五年。AI和语音控制被认为是计算领域的下一个重大进步(只要看看Amazon Echo的早期成功就明白了)，谷歌在这方面已经领先了。

谷歌Assistant是如此杰出，因为它渗透了谷歌庞大的产品网络，并把它们整合成为一个单一的、全知的应用程序。用户使用Calendar、Photos和Gmail等谷歌服务的次数越多，Assistant就会变得越聪明。

Assistant比它的竞争对手更能回答用户的问题，因为它能够利用谷歌庞大的知识网络，并为用户提出的问题提供单一的答案。Assistant有那么多令人印象深刻的技能，在这里不可能一一列举。

亚马逊：Echo

Echo 于在2014年11月推出，它的销量已经超过300万台。Echo在推出后并没有立即上市，实际销售时间只有一年左右。考虑到它的销售时长和产品定位，这个销售成绩是很出色的。

数据对话系统的技术发展水平取决于数据量，GoogleAssistant依托于Google海量数据，而微软和苹果至今也没有收集到足够多的数据，Echo则将这个难题给了他的合作伙伴，他本身只有一个语音识别+对话的引擎，至于理解之后要完成什么样的任务，亚马逊找了上千和伙伴来完成。

简单来说，如果用所有已知的概念来描述 Echo：它是一台联网的，可接受语音命令的、并以语音方式输出结果的蓝牙音箱。从产品形态上来说，Echo更加纯粹。相比起 Siri，没有任何的屏幕文字反馈，你就像在和人交谈一样，你和她说话，她用声音回答你。

此外，语音作为交互方式，最让人担心的也是可靠性。想像一下用键盘打错一个字，你可以马上删除，但如果 Siri 理解不了，或者错误理解了你的意思，给出的回复简直让人啼笑不得。时至今日，很多人也经常会吐嘈 Siri 的局限性，而Echo 的解决方案是 Skills。从形态上，它很像是一个语料库的 App Store，第三方开发者可以为 Echo 进行定制开发，让 Echo 掌握和学习某些特定的技能，例如陪你健身、控制任意的家电。

微软：小冰微软在语音助手的反应上似乎慢了半拍，在2014年的微软Build开发者大会上才正式推出了自家的语音助手---Cortana。它“能够了解用户的喜好和习惯”，“帮助用户进行日程安排、问题回答等”。Cortana可以说是微软在机器学习和人工智能领域方面的尝试。微软想实现的事情是，手机用户与小娜的智能交互，不是简单地基于存储式的问答，而是对话。它会记录用户的行为和使用习惯，利用云计算、搜索引擎和“非结构化数据”分析，读取和“学习”包括手机中的文本文件、电子邮件、图片、视频等数据，来理解用户的语义和语境，从而实现人机交互。

发展存在瓶颈

虽然各大厂商纷纷发力，但就目前的现状来看，语音助手本身的应用场景非常有限，想要实现质的突破还面临过很多瓶颈。

当前语音助手发展面临的首要问题就是语音识别率、语义理解力不足。在真实地应用场景中有许多复杂的情况，环境噪音，用户的语气情绪都可能会大大降低语音助手的识别率。另外，系统对于语义的理解力也远远达不到要求，尤其是面对极为复杂的中文，语音、语调、方言、口音等多种因素都可能导致答非所问的情况出现。

另外，当前语音助手的应用场景非常匮乏、效率不高，在现有现的应用场景中在使用中往往给人很生硬的感觉，并不能实质的解决用户的需求。

同时，语音识别会通过云端服务器来返回结果，涉及到云存储如何保障隐私和安全就是绕不开的话题。

语音交互的边界与外延

你看到了，语音作为一种交互方式，不仅是速度，交互边界也发生了外延。从前设备与设备之间是孤立的，随着物联网的大潮，未来每一个物件都会连接在一起，告别那些笨重而丑陋的遥控器和各类按钮，告别那一本本没人阅读的说明书，也告别你需要在手机上分别安装 5 个 App 去控制 5 个不同的家电。你只需要拥有一个 Echo 这样的中央设备，然后对它说话，一切便自然地发生。

即使如此，还是要强调两件事：第一件事就是语音和之前的交互方式，并不是完全的替换关系，就像手机不能完全替代电脑一样，语音作为一种交互方式也并非是万能的。想像一下作为一名小说家，如果全程用语音输入来写作，仅靠口述和聆听，那一旦想修改编辑之前的段落，简直是反人类的体验。

第二件事，之前谈到的很多场景，要用超前的眼光去看待。例如像语音的输入速度，你现在使用 Siri 时，会发现声音被识别需要一段不短的时间，但以发展的眼光来看，在可预期的未来，这个转换的时间一定是可以缩短到，让你觉得是在和设备直接进行流畅的对话。

除了家居领域之外，语音交互另一处可以大放异彩的领域，便是 VR。虽然 VR 本身还在兴起，但是想想目前已经有的应用场景，无论是游戏、教学，VR 都还只是视觉上的模拟，在触觉相对难以实现的前提下，想想你可以在 VR 里和环境发生对话，游戏的 NPC 不再只是头上顶着文字的 NPC，教堂课堂上，你不仅仅是看到 VR 里的历史人物，你还可以和他们对话。VR 可以是视觉和听觉的双重虚拟，你可以用动作和声音与环境发生互动。

未来十年，语音交互的发展蓝图

语音作为一种交互，其潜力远远不止于前文描述的场景。在未来的十年里，关于语音交互，我们至少还可以期待这些。

主动和你说话：现在所有的语音助手，都还是被动地交谈，你必须给出命令，它们才会应答。但想像一下 GoogleNow，深度学习和大数据已经做好了充足的准备，它们能预知你接下来要去哪，要见什么人，甚至在想什么，只需要用语音的方式输出这些信息。想比起 Google Now，你不再需要点亮手机去查看这些智能的提醒，随时随地，会有一个声音和你主动交谈。

集成各类传感器：想像一下，你现在想给朋友转一笔钱。在今天看来，你需要打开支付宝或者某个银行 App，输入金额、验证码、密码，经过一系列复杂的流程，钱才能转出去。而未来，你只需要在家中，对着你的房子说一句把钱转给谁，不出几秒钟就会有语音告诉你已经完成了。借助于一系列传感器，从你的声音纹路、体征指标等一系列数据，语音是最自然的和机器交互的范式。

Inner VoiceOut，Inner Voice In：你在思考的时候，是不是总觉得脑子里有一个声音，仿佛在自言自语，只是没有发出声音而已？这就是Inner Voice。有朝一日，对语音的解析，可以跨过中间步骤：与其对声音解析，不如直接对你的脑电流进行解析。是不是看到了心灵感应的雏形？

十年即未来。

【上海GDG】人工智能沙龙活动总结20170107

浏览过的版块