2017年1月7日,上海GDG在新一年的第一次AI沙龙圆满结束,来自斯坦福的两位美籍嘉宾为大家作了干货十足的分享,让现场100多名观众受益匪浅。
活动总结
语音助手比较分析与展望 语音助手的背后的逻辑大概概括为三个层面: 首先是语音识别,其次是对话的数字模型,第三是任务的执行。 语音识别和理解技术已经有多年发展的历史,其技术发展甚至和电子计算机一样久。 现阶段在人工智能领域领先的大公司开发的语音助手,在语音识别和理解上基础差别并不大,其产品效果的差异主要来自于数据量。 苹果:Siri 在2011年惊艳世界后就一直不温不火,不过近日有消息称Siri将迎来革命性升级,主要是通过整合VocallQ来实现。在被苹果收购之前,VocallQ在语音助理领域就已小有名气,因为其识别语音的正确率达到惊人的 90%以上,而当时无论是Google Now、Cortana 还是 Siri 的正确率只有大约20%。据了解,最快在即将到来的WWDC大会上,苹果就有可能宣布Siri的这一次重大更新。 Siri的优势在于和iOS整个生态系统(特别是原生应用)的整合性强,功能点多。劣势在于其识别的精度相比于业界目前相对最完善的Google Now较低。Google Now已经能够非常好的根据上下文对用户的输入进行自动修正,从而构建有效的问答。但是Siri还无法很好地做到,苹果目前正在试图通过收购来弥补。 Google Assistant:现在,对手机制造商来说,制造一款高端智能手机相比来说是比较容易的,真正的挑战是为它开发出独特的、能够帮助用户做更多事情的软件。 而谷歌新的语音助手Assistant就是一款这样的软件。Siri没有完成的事情,看起来Google Assistant正慢慢变得瞩目。 显然,谷歌Assistant比苹果Siri更聪明、更有能力,这对苹果来说是一件很尴尬的事,因为苹果Siri的起点比Assistant早五年。AI和语音控制被认为是计算领域的下一个重大进步(只要看看Amazon Echo的早期成功就明白了),谷歌在这方面已经领先了。 谷歌Assistant是如此杰出,因为它渗透了谷歌庞大的产品网络,并把它们整合成为一个单一的、全知的应用程序。用户使用Calendar、Photos和Gmail等谷歌服务的次数越多,Assistant就会变得越聪明。 Assistant比它的竞争对手更能回答用户的问题,因为它能够利用谷歌庞大的知识网络,并为用户提出的问题提供单一的答案。Assistant有那么多令人印象深刻的技能,在这里不可能一一列举。 亚马逊:Echo Echo 于在2014年11月推出,它的销量已经超过300万台。Echo在推出后并没有立即上市,实际销售时间只有一年左右。考虑到它的销售时长和产品定位,这个销售成绩是很出色的。 数据对话系统的技术发展水平取决于数据量,GoogleAssistant依托于Google海量数据,而微软和苹果至今也没有收集到足够多的数据,Echo则将这个难题给了他的合作伙伴,他本身只有一个语音识别+对话的引擎,至于理解之后要完成什么样的任务,亚马逊找了上千和伙伴来完成。 简单来说,如果用所有已知的概念来描述 Echo:它是一台联网的,可接受语音命令的、并以语音方式输出结果的蓝牙音箱。从产品形态上来说,Echo更加纯粹。相比起 Siri,没有任何的屏幕文字反馈,你就像在和人交谈一样,你和她说话,她用声音回答你。 此外,语音作为交互方式,最让人担心的也是可靠性。想像一下用键盘打错一个字,你可以马上删除,但如果 Siri 理解不了,或者错误理解了你的意思,给出的回复简直让人啼笑不得。时至今日,很多人也经常会吐嘈 Siri 的局限性,而Echo 的解决方案是 Skills。从形态上,它很像是一个语料库的 App Store,第三方开发者可以为 Echo 进行定制开发,让 Echo 掌握和学习某些特定的技能,例如陪你健身、控制任意的家电。 微软:小冰微软在语音助手的反应上似乎慢了半拍,在2014年的微软Build开发者大会上才正式推出了自家的语音助手---Cortana。它“能够了解用户的喜好和习惯”,“帮助用户进行日程安排、问题回答等”。Cortana可以说是微软在机器学习和人工智能领域方面的尝试。微软想实现的事情是,手机用户与小娜的智能交互,不是简单地基于存储式的问答,而是对话。它会记录用户的行为和使用习惯,利用云计算、搜索引擎和“非结构化数据”分析,读取和“学习”包括手机中的文本文件、电子邮件、图片、视频等数据,来理解用户的语义和语境,从而实现人机交互。
发展存在瓶颈 虽然各大厂商纷纷发力,但就目前的现状来看,语音助手本身的应用场景非常有限,想要实现质的突破还面临过很多瓶颈。 当前语音助手发展面临的首要问题就是语音识别率、语义理解力不足。在真实地应用场景中有许多复杂的情况,环境噪音,用户的语气情绪都可能会大大降低语音助手的识别率。另外,系统对于语义的理解力也远远达不到要求,尤其是面对极为复杂的中文,语音、语调、方言、口音等多种因素都可能导致答非所问的情况出现。 另外,当前语音助手的应用场景非常匮乏、效率不高,在现有现的应用场景中在使用中往往给人很生硬的感觉,并不能实质的解决用户的需求。 同时,语音识别会通过云端服务器来返回结果,涉及到云存储如何保障隐私和安全就是绕不开的话题。
语音交互的边界与外延 你看到了,语音作为一种交互方式,不仅是速度,交互边界也发生了外延。从前设备与设备之间是孤立的,随着物联网的大潮,未来每一个物件都会连接在一起,告别那些笨重而丑陋的遥控器和各类按钮,告别那一本本没人阅读的说明书,也告别你需要在手机上分别安装 5 个 App 去控制 5 个不同的家电。你只需要拥有一个 Echo 这样的中央设备,然后对它说话,一切便自然地发生。 即使如此,还是要强调两件事:第一件事就是语音和之前的交互方式,并不是完全的替换关系,就像手机不能完全替代电脑一样,语音作为一种交互方式也并非是万能的。想像一下作为一名小说家,如果全程用语音输入来写作,仅靠口述和聆听,那一旦想修改编辑之前的段落,简直是反人类的体验。 第二件事,之前谈到的很多场景,要用超前的眼光去看待。例如像语音的输入速度,你现在使用 Siri 时,会发现声音被识别需要一段不短的时间,但以发展的眼光来看,在可预期的未来,这个转换的时间一定是可以缩短到,让你觉得是在和设备直接进行流畅的对话。 除了家居领域之外,语音交互另一处可以大放异彩的领域,便是 VR。虽然 VR 本身还在兴起,但是想想目前已经有的应用场景,无论是游戏、教学,VR 都还只是视觉上的模拟,在触觉相对难以实现的前提下,想想你可以在 VR 里和环境发生对话,游戏的 NPC 不再只是头上顶着文字的 NPC,教堂课堂上,你不仅仅是看到 VR 里的历史人物,你还可以和他们对话。VR 可以是视觉和听觉的双重虚拟,你可以用动作和声音与环境发生互动。
未来十年,语音交互的发展蓝图 语音作为一种交互,其潜力远远不止于前文描述的场景。在未来的十年里,关于语音交互,我们至少还可以期待这些。 主动和你说话:现在所有的语音助手,都还是被动地交谈,你必须给出命令,它们才会应答。但想像一下 GoogleNow,深度学习和大数据已经做好了充足的准备,它们能预知你接下来要去哪,要见什么人,甚至在想什么,只需要用语音的方式输出这些信息。想比起 Google Now,你不再需要点亮手机去查看这些智能的提醒,随时随地,会有一个声音和你主动交谈。 集成各类传感器:想像一下,你现在想给朋友转一笔钱。在今天看来,你需要打开支付宝或者某个银行 App,输入金额、验证码、密码,经过一系列复杂的流程,钱才能转出去。而未来,你只需要在家中,对着你的房子说一句把钱转给谁,不出几秒钟就会有语音告诉你已经完成了。借助于一系列传感器,从你的声音纹路、体征指标等一系列数据,语音是最自然的和机器交互的范式。 Inner VoiceOut,Inner Voice In:你在思考的时候,是不是总觉得脑子里有一个声音,仿佛在自言自语,只是没有发出声音而已?这就是Inner Voice。有朝一日,对语音的解析,可以跨过中间步骤:与其对声音解析,不如直接对你的脑电流进行解析。是不是看到了心灵感应的雏形? 十年即未来。
|