语音合成助手电脑版助手是单个程序还是分程序 就是说语音合成助手电脑版助手是单个存在还是一个程

微软大数据语音助手——“小娜”的10个问题-应用案例-@大数据资讯
你好,游客
微软大数据语音助手——“小娜”的10个问题
来源:新浪博客&
作者:wpphones
  Cortana的大多数功能,以及针对中国的一些定制彩蛋都在人们的意料之中。但是出乎人们意料的是,微软定制了一个只有在中国才能使用的形象。这是一个椭圆形漂浮的面团,上面长着两只小眼睛。她的颜色可以根据用户所选定的主题而变化。她的中文名称叫做&小娜&。
  北京时间7月30日周三下午,微软在北京正式发布了Windows Phone 8.1 Update版本。这个版本基本上只有一个功能是大家关注的,那就是微软的语音助手Cortana。她的大多数功能,以及针对中国的一些定制彩蛋都在人们的意料之中。但是出乎人们意料的是,微软定制了一个只有在中国才能使用的形象。这是一个椭圆形漂浮的面团,上面长着两只小眼睛。她的颜色可以根据用户所选定的主题而变化。她的中文名称叫做&小娜&。
  小娜被官方定义为是小冰的姐姐,小娜&&特指中国版的Cortana&&和小冰都是微软亚洲研究院和必应搜索的共同产物。我觉得最想不到的一点就是,微软针对中国所做的本地化工作是如此彻底,以至于在其他国家当中统一都是来自《光晕》游戏当中的冷艳角色,到了中国却变成了一个温婉可人,知书达理的女秘书形象。
  &我要努力修行,做一只功夫小面团!&小娜形象的发布也随之带来了一些功能上的改进。微软特意强调这当中有很多功能是只对中国开发,全球其他任何地方,包括美国都不能享用。以下我们就大家可能会关心的问题来做一个解答&&这些是我在听完现场演示和工作人员的解读之后,能够告诉大家的内容。
1、小娜这个形象只在中国有吗?
  没错,你需要把其他语言调整为中文(中国),然后在Cortana设置当中,选择是光环形状,还是选择小娜形状。在你做了相应的选择之后,内置的欢迎词也会有变化(之前是&你好,XX,有什么需要帮忙的&,之后是&XX,我还能帮上什么忙?&),因为Cortana的人格发生了改变。
2、小娜和小冰所使用的语料库和后台引擎是一样的吗?
  都不完全一样。两者都包括必应搜索结果的大数据,但小冰额外包括通过微博以及其他聊天工具当中的机器人对话,所产生的大量聊天记录。微软官方认为,小娜的形象偏向认真,而小冰则是比较俏皮。在你提出同样的问题的时候,小娜会直接告诉你正确答案,而小冰会倾向于卖关子,或者是玩文字游戏来逗你玩儿。
  换句话说,小娜延续了bing作为&决策引擎&人格化的色彩,而小冰的使命,是锻炼人机交互过程中的人情味儿。
3、什么功能是Cortana有,而Siri、Google Now没有的?
  读取并分析短信。其他的语音助手都可以读取短信,但Cortana可以读取航空公司发送的航班提醒短信,提取信息并提醒你建立一个日程。
  在说出相邻两个同类命令的时候,不必每次重复。例如:&北京今天的天气是怎样?&完后,可以直接说&那明天呢?&,而不是&北京明天的天气是怎样?&。
  类似豌豆荚应用内搜索的,与第三方应用的更紧密结合。一般语音助手的使命,在打开第三方应用以后就结束了,但Cortana可以在应用打开后,继续执行应用内部的命令,甚至在打开的应用中继续语音交互。比如,先说&去哪儿我要订上海的酒店&,在&去哪儿旅行&打开后,语音会继续提问:&几号到几号?&&具体地点在哪里?&&期待的价位是?&,最后才给出搜索结果。
  4、什么功能是中国独有,其他地方的Cortana没有的?
  首先是&小娜&的图标和名字。微软的解释是,因为中国人特别喜欢个性化和体现与众不同。
  小娜预置了一些中国古诗词和文化历史的彩蛋。在演示过程当中,当说出&飞雪连天射白鹿&的时候,小娜会对出&笑书神侠倚碧鸳&,不仅如此,还会配一段古筝的背景音乐。微软承认这段配乐是一个彩蛋,这就意味着任何人说出上联,都会听到音乐。
  微软聘请了一些娱乐明星&&当然不只有奶茶妹妹一个。他们的目标是未来建立更多的拟人化角色,创建小娜和小冰的家族。目前这里就包括快乐男声的选手严禹豪,他在研究院的职位是实习生。他负责为一些已经定制好的问题说出自己的答案,比如&严禹豪,剑桥是什么样子的&,他会回答:&剑桥的景色非常美丽,整个校园处处如画,偶尔我会划划船,或者在草地上发发呆,都是特别美丽的享受哦!&在说出这些答案的时候,使用的并不是小娜的语音,而是这个明星自己的声音。
5、Cortana 在拟人方面,有没有比 Siri 做得更好一些?
  非常有。Cortana 或者小娜的声音,是我听过的最自然,最像正常人说话的语音。甚至同样是WP,Cortana导向的第三方应用都暂时无法使用她的引擎,所以发音还是单字蹦呢。你可以通过小娜打开去哪儿,然后马上听到对比明显的两个合成音。
  小娜的拟人化还体现在指令和提示都更加口语化。比如她不说&短信已发送&,而是说&短信发出去了&;确定添加新的日程以后,她会说:&太好了,放心好了。我会准时提醒你的。&
  我们再通过一个优化过的对话体会一下:
  Q:明天去上海需要带雨伞吗?
  A:我觉得挺有必要的。上海明天27到33度,多云转阵雨,未雨绸缪总是好的。
6、Cortana需要你预先为她设定什么,她才能个性化的为你服务?
  如果呼出方式是点击开始屏幕的Cortana图标,那么她会显示&今日一览&画面,相当于Google Now和百度手机客户端的卡片。里面的绝大多数内容都是由bing搜索提供的,少数功能有第三方提供商,天气是来自中国天气网(.cn),航班信息是来自飞常准。点击详情会进入移动网页,但在一开始,这些数据都会被格式化,以统一的样式引用。
  这些卡片信息可以在&Cortana的笔记本&中调整,其实就是右上角的菜单键:
  -兴趣:包括可定制的名人新闻,热点资讯,bing的小应用程序如股票等。第三方应用也可以生成&兴趣&,比如在&爱奇艺&当中跟踪某个剧集。这些都会在&今日一览&中看到。
  -提醒我:关联你的日历,航班,追剧等需要提醒的信息。提醒会在通知中心展示。
  -免打扰时间:相当于iOS的&勿扰模式&,只有&密友圈&的人来电话才会响铃。当你设定了一个事件之后,你的时间由&空闲&变为&忙碌&,而你可以设定 &忙碌&的时间都自动开启免打扰,&忙碌&时段结束后再退出免打扰。在演示中,当设定了一个和妻子共进午餐的事件之后,在那个时段你就无法接到老板的电话响铃,因为老板不在你的&密友圈&。
  -密友圈:你可以给设定为密友的联系人设定最多3个昵称,比如你可以用&老婆&或者&晶晶&来称呼一个名叫&傅晶晶&的联系人。
  -地点:跟天气和本地资讯有关。也可以设定是否跟踪你的地理位置。
  -设置:可以定义你的名字(第一次运行时需要你来定义),样式是光环还是小娜,是否跟踪你的短信等隐私信息。
  兴趣,免打扰时间,密友圈,地点都可以通过语音教会Cortana。然而,尽管 Cortana 可以语音执行一些系统命令(比如&打开蓝牙&),但Cortana自己的设置无法通过语音修改。
7、Cortana 对我的隐私会有什么影响?
  请注意读取短信功能是默认开启的。你需要如上叙述,去&Cortana的笔记本 & 设置&手动关闭一切涉及隐私的选项。
8、在中国,小娜对第三方应用的嵌入是什么情况?
  微软中国首批有7个Cortana合作应用,它们都可以通过Cortana执行深度的命令,而不只是打开应用了事。分别是:去哪儿旅行,微信,高德导航,中国国航,爱奇艺视频,微博,酷狗音乐。
  需要注意的是,调用第三方应用要先说出应用的名字。比如&微信,在朋友圈发一条消息:我今天在微软的发布会上&。而很多人不一定记得住应用的名字,所以有容错,比如可以说&去哪儿旅行&或者&去哪儿&,&中国国航&或者&国航&都是可以的。但是不能说&新浪微博&而要说&微博&,尽管不是所有人都认同新浪独占了&微博&这个名词。所以,如果你呼唤一个应用但没反应,你要先去看看 Cortana 给你的示例。
  第三方应用会打架吗?如果你通过去哪儿订购了国航的机票,那么理论上去哪儿会在通知中心提醒你,而国航是通过手机短信提醒你,这个短信则会被 Cortana读取。微软解释称,对同类应用的引用是没有先后次序的。如果你要看视频,必须首先说出用哪一个app看,避免了打架。微软会研究在今后用 bing搜索结果来解决排序问题,这样有些情况就不用先说应用名称了。
  第三方应用会在未来进入&今日一览&卡片,但卡片会受到微软的全程控制,逐个定制实现。
9、Cortana会跨平台吗?
  如果Siri和Google Now都出了WP版本,那还可以考虑考虑。(Google已经在iOS进驻了却至今不搭理WP&&)
  在微软自家系统方面,凡是能运行WP8的都可以运行WP8.1,也不会出现iOS对部分机型提供升级版系统却砍掉Siri的情形,都会支持Cortana的。
  下周起,安装了WP8.1DP(开发者预览版)的可以获得系统推送自动升级。一般用户,首先是诺基亚机器升级,然后其他OEM厂商自行制定升级时间表。
10、除了Cortana,WP8.1还有什么新功能?
  全球新功能:
  支持快速充电;
  支持Smart C
  支持qHD(960&540)分辨率;
  动态锁屏;
  磁贴选择图片做背景;
  磁贴放入文件夹;
  改进的IE渲染;
  新增电子钱包,绑定信用卡(暂不支持银联)
  中国新功能:
  支持双卡双待&&电信版双卡CDMA2000机型今夏会在中国上市;
  手机短信合并和转发;
  短信界面的常用语和祝福语等。
  Cortana本次除在中国外,也在英国发布Beta版;接下来会在加拿大、印度和澳大利亚推出Alpha版,但除中国外,暂时没有对其他任何国家或地区如此深度本地化的情况,小娜在选择其他地区的时候不会出现,微软你对中国这该是多好啊&&
  让我们这样结束对小娜的初体验吧:
  Q:小娜真棒!
  A:我还有很多闪光点,慢慢都会告诉你的。(显示&赞扬&和&赞美&的bing搜索结果)
&原文链接:.cn/s/blog_cduyrt.html
相关新闻 & & &
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款语音接口 我们已站到下一个交互时代的边缘_网易科技
语音接口 我们已站到下一个交互时代的边缘
用微信扫码二维码
分享至好友和朋友圈
虚拟语音助手清楚手机内每一个程序以及每一项功能,你可以通过说话来调用这些功能。同时随着时间的推移,这种人工智能将知晓一切。
网易科技讯6月25日消息,据国外媒体报道,近日美国《连线》杂志撰文指出,随着计算机处理、语音识别、移动通信、云计算、神经网络等技术的发展日趋成熟,语音接口技术迎来了飞跃,虚拟语音助理业务的发展迎来了变革时期。你或许听过这样一个故事。1979年,年轻的史蒂夫乔布斯造访了位于位于加利福尼亚州帕洛阿图市的施乐帕克研究中心(Xerox PARC),并见证了帕克研发的计算机图形用户界面。一位PARC的工程师使用鼠标原型对计算机进行了相关操作,下拉菜单、点击互相重叠的计算机窗口。在整个演示过程中,乔布斯所看到的操作方式与以前完全不同。乔布斯后来说,“不到十分钟,我就清楚有一天所有计算机都会以这种方式运行。”传说中乔布斯带领苹果的团队复制了PARC的用户图形界面。在随后的近四十年内,个人计算机技术开始以前所未有的速度向前发展,从第一台Macintosh一路发展至最新的iPhone手机。计算机的用户图形界面克服了命令行以及文字界面的缺点,将更多的普通人带进计算机世界,使更多的人能够使用计算机,他们所需要的技能仅仅是操作鼠标指向、单击或拖动。在并不遥远的未来,我们依旧会因PARC创造的用户图形界面和其因决策失误而导致错过个人电脑发展黄金时期而唏嘘不已。但在乔布斯造访PARC的时候,而另外一个独立团队正在研究关于人机交互的全新模式,也就是今天所说的会话用户界面。这些科学家设想了这样一个世界,在几十年后的电脑功能时如此强大,需要用户记住关于计算机操作的每一个命令是完全不切实际的。科学家想到用户会倒退回来,用一种蜕变的方式与计算机协同工作,而这种方式的接口就是普通人类语言。在研究会话用户界面的团队中,有一位名为罗恩·卡普兰(Ron Kaplan)的科学家。他长相粗壮,说话却细声细语,留着山羊胡子,但有头发稀疏。卡普兰是一位语言学家,同时也是一位心理学家和计算机专家,其将著名语言学家诺姆·乔姆斯基的理论用于人机交互语言的重构。卡普兰指出,在上世纪70年代,他的团队所开发的会话用户界面离实际应用还有相当的距离。他们勉强开发出一个会话用户系统,用户可以使用标准英语来预定机票。但是这种技术无法用于大规模的系统性工作,因此也就无法普及。卡普兰表示,“当时这种技术的成本过高,大概要达到每个用户一百万美元。”事实上,这种技术需要更快处理速度,更为智能、更高效的分布式处理电脑。卡普兰当时估计需要15年的时间。卡普兰现在称,“四十年后,我们终于准备好了。”现在,卡普兰是语音识别软件公司Nuance Communications的首席科学家以及副总裁。该公司是世界上最大的语音接口业务公司之一。该公司为福特开发了车内语音系统Sync system,对苹果Siri的开发也至关重要,其与各行业均有良好的合作关系。但最近,Nuance发现很多公司都在涌入语音接口市场。从亚马逊、Intel到微软谷歌,几乎每一个大科技公司都在研发会话用户接口,此外还有数十个初创企业也在从事相关研究。我们正处于语音接口技术的变革之中。这些公司相信,不久之后,用户能够跟自己的设备如同和朋友谈话一样交互。用户的设备能够听到用户在说什么、表达什么意思。你或许以及过惊叹于现在社会的技术发展,但这些新的工具和接口将进一步拓展你的数字生活,克服图形用户界面在安全、友好、易用性方面的缺点。更贴近自然语言的会话接口将会进一步拉近你和技术之间的关系,更贴心,更友好,更富于个性化。这种技术的重大转变不仅有利于硅谷,更使得普罗大众受益。史蒂夫·乔布斯在1979年就看到了图形用户界面的重要性,清楚其是拓展计算机市场的重要方式。但即便是图形用户界面,依旧把大量受众拒在赛博空间的大门之外。它依旧需要用户去学习计算机语言。而现在,随着语音技术的发展,电脑最终将学会如何直接与人类对话。在不断学习和完善中,人类将打通通向科技世界的通天塔。但我们也要清楚,虽然语音技术已经存在多年,但迄今为止依旧不够成熟。当然,你可以举例说现在的电话自动应答系统还算不错(打进电话付款,说“支付”便可调用相应功能)。事实上,现在的语音接口都依赖于固定化的语言,而在某些情况下还不具备自然语言的功能。譬如你可以问Google Now纽约市人口数量,它对答如流;你问帝国大厦的位置,它也能应对。但倘若你问其包括帝国大厦在内的纽约市人口数量,它就会不知所云。同样,苹果语音助手Siri也一贯如此,其最主要的本领就是帮你调用谷歌搜索。现在的语音接口,与电影中描述的场景差距还很明显。然而,当你徜徉在硅谷,和人们谈及关于语音接口的相关技术,他们的回答如出一辙:现在不同了。在六月初的一天,语音识别技术公司SoundHound首席执行官凯文·莫哈耶尔(Keyvan Mohajer)向我展示了公司耗费近十年时间研发出的应用程序原型。SoundHound此前曾发布了一款应用,可以通过语音识别并搜索流行音乐。当用户对着手机哼唱一首曲子时,该应用可以识别并搜索出所哼唱的曲子名称。事实证明,该应用仅仅是莫哈耶尔梦想的一部分:开发世界上最先进的、基于语音的人工智能技术。莫哈耶尔向我展示的这款应用原型名为Hound。莫哈耶尔手持一款智能手机Nexus 5,点击了一个麦克风图标打开程序,开始向Hound提问。开始只是一些简单的问题,诸如柏林当地时间或是日本的人口,应用程序都给出了正确的答案。随即莫哈耶尔话峰一转,问“那么它们之间的距离是多少?”
Hound通过理解之前的对话,很快给出了答案——“大约5536英里”。这种问题开始接二连三出现,但Hound都对答如流。莫哈耶尔要求Hound根据要求的利率及条件计算出贷款一百万美元的情况下每月所还按揭,Hound也很快计算出是4270.84美元。莫哈耶尔又问,“Space Needle所在国首都人口是多少?”
Hound指出莫哈耶尔所问的就是华盛顿的人口,并随即给出了答案。“日本和中国人口都有多少?首都在哪里?它们的国土面积有多少平方英里?有多少平方公里?有多少人住在印度?还有德国、意大利以及法国的区号是多少?”莫哈耶尔问出了一连串的问题,但Hound都作出了正确的回答。Hound目前还处于测试阶段,但它可能是迄今为止识别速度最快,功能最为强大的语音识别系统。它可以同时进行语音识别以及自然语言处理,符合现在的技术以及市场需求。事实上,各种语音识别系统的飞速发展只是时间问题。毕竟在当前,语音接口技术的基础技术——卡普兰所称的“门控技术”已经趋于成熟,成本也可接受。这是关于技术融合的经典:计算机处理、语音识别、移动通信、云计算、神经网络等技术的发展都已经成熟,成本也达到可以接受的水平,可以使得会话用户接口市场化。更进一步,不仅仅是相关技术的成熟推动了会话用户接口的研发,而客观的市场需求也是推动其发展的重要因素。随着越来越多的无显示设备连入网络,诸如你家中的灯具、烟雾报警器,我们也需要一种可行的方式与设备进行交互,这种交互不需要按钮、菜单或是图标。在另一方面,图形用户界面已经接近其自然限制。程序的功能越来越多,在图形用户界面中充斥的菜单和图标选项也越来越复杂。你可以想象一下Photoshop或者是Excel,功能强大,但有着大量的菜单项,或者需要记住各种快捷键的使用方式。即便是裁剪一张照片也要从各色工具栏中找出正确选项。卡普兰指出,“图形用户界面已经到达极限,现在它已经处于超载的边缘。”这就是即将到来的虚拟语音助理市场,当你被淹没在纷繁复杂的界面窗口、工具栏以及菜单选项时来拯救你,在你和设备之间建立便捷、高效的联系。也许目前我们与虚拟语音助理的关系尚不紧密,但很快这一状况就会改病啊。今年秋季,随着一批新款智能手机的上市,很快相应的会话用户接口发展也将出现一次飞跃。当你升级到iOS 9、Andriod 6或是Windows 10时,你会发现直接使用内置应用的频率会越来越少,更多的是使用苹果Siri或是谷歌的Google Now以及微软的Cortana。而在不远的将来,数十亿的Facebook用户将可以打开一个聊天窗口,通过智能语音助手调用各项功能。语音接口将不再是辅助的方式,而将成为主流和第一选择。甚至于在某些情况下,它将是用户的唯一选择。譬如在苹果的HomeKit系统中,确保一切设备关闭的唯一可行操作就是对苹果的语音助手说“晚安,Siri”。这些虚拟语音助理研发的初衷是将复杂简单化。对于现在的用户来讲,频繁的下拉菜单操作过于复杂,调用一个功能需要按步骤操作,流程过于繁琐。相比于此,虚拟语音助手清楚手机内每一个程序以及每一项功能,你可以通过说话来调用这些功能。同时随着时间的推移,这种人工智能将知晓一切。需要指明的是,语音技术并不会完全取代触控屏,甚至是鼠标和键盘。如果你需要使用台式机,肯定会保留这些人机交互方式。虽然更多时间你可能会问虚拟语音助理如何调用功能,譬如“裁剪工具在哪里?”但是,对于某些特定群体的人来说,会话用户接口技术的发展将会在很大程度上取代其对图形用户界面的使用。诸如一些年轻人都通过麦克风输入文本而不是通过键盘。语音消息应用Cord创始人以及首席执行官托马斯格诺(Thomas Gayno)指出,“他们只是不打字。”而对于更大一部分人来说,图形用户界面完全不适合其使用。那些视障者、老年人在图形用户界面前都受到了这种障碍的影响。因此,有些人称现代计算机接口为“直觉”并不十分准确。克里斯·莫里(Chris Maury)对此深有体会。2010年夏季,这位24岁的企业家在攻读博士学位的过程中辍学转而创业。但长时间的熬夜使得其视力逐步下降,一位医生诊断其患上了斯特格氏症,这种病症会使视力逐步退化甚至完全失明。作为一名技术人士,莫里不得不考虑如何应对无法看到电脑屏幕的状况。但在整个美国,对于2000万视障人士来说,除了屏幕阅读器别无选择。要使用屏幕阅读器,用户需要通过键盘移动光标,选中需要阅读的屏幕文字,将其转换成一长串的URL,通过机器语言读出来。这种相关的设备高达数千美元,并且需要几十个小时的培训。随着数字环境越来越复杂,屏幕阅读器的使用越来越不方便。莫里表示,“即便是打开一个谷歌搜索也需要很多步骤,这太可怕了。”当莫里视力开始退化时,他经常访问Blind Twitter去了解情况。莫里开始明白视障人士迫切需要一种技术。他意识到语音接口对于某些特定用户更为便捷,而几乎在同一时间,相关的语音技术也风行整个硅谷。因此,莫里开始着手为视障人士开发相关技术。他创办了一家名为Conversant Labs的公司研发语音接口技术。公司推出的第一个产品是一个名为SayShopping的iPhone应用,其可以完全通过语音从上购买东西。但莫里有更大的想法,公司将于今年年底发布语音接口框架,为iOS的应用开发者提供会话接口。莫里还希望能够开发一款完全基于语音技术的计算机应用环境,同时也可通过头部运动来下达指令。莫里指出,“这些实现都是有可能的,只是需要创建。”2014年秋季,亚马逊发布来名为Echo的新产品,这款智能控制设备内置了名为Alexa的虚拟语音助理,其广告语是“唤醒话语”。Echo采用了远场语音识别技术,甚至在嘈杂房间也可准确识别话语。此外它还具有监听功能,你可以在家中随时和其对话。当我开始使用Alexa时,它可以告诉我天气,回答基本的问题,在智能手机上显示购物清单或者是播放音乐,并没有过多特别之处。但是随着时间推移,Alexa更聪明也更完善,它熟悉我的声音、会开玩笑、能同时运行多个计时器。测试版发布七个月后,2015年其公开版最终上线,Alexa的可用性越来越强。我了解了它,而它也在了解我。
这也是关于会话科技的深层次道理:你只有在与语音助理的深入交互中才会发现其功能。同行业的诸多公司都认识到这一点,都在努力使其语音助手达到个性化和适应性的平衡,使他们更加讨人喜欢,易于接受。譬如微软在开发语音助手Cortana时,其名称取材自游戏《光晕(Halo)》中的重要角色。Cortana工程团队主管Mike Calcagno表示,“Cortana代表了机智和坚韧”。的确,在产品早期即便其可靠性低,益处少,也会引起人们注意。这种方式也有策略方面的考量。在微软、Nuance等公司的研究中,当语音助理无处不在、当它了解你的习惯你的环境、了解你的喜好你的生活时,它就是不可或缺的存在。通过这种人工智能控制所有应用程序和设备的方式自然也就成为必然。为此,无论是亚马逊、谷歌、微软,还是Nuance或者SoundHound,都在致力于会话平台技术的研发。这些公司清楚,用户会选择最了解他们的语音助理。让我们做好迎接虚拟语音助理的准备。更重要的是,一旦选择了其中之一,你就不会再轻易放手。(宁宇)
本文来源:网易科技报道
责任编辑:白鑫_NT4464
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈语音接口&我们已站到下一个交互时代的边缘
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
语音接口 我们已站到下一个交互时代的边缘
据国外媒体报道,近日美国《连线》杂志撰文指出,随着计算机处理、语音识别、移动通信、云计算、神经网络等技术的发展日趋成熟,语音接口技术迎来了飞跃,虚拟语音助理业务的发展迎来了变革时期。
你或许听过这样一个故事。1979年,年轻的史蒂夫乔布斯造访了位于位于加利福尼亚州帕洛阿图市的施乐帕克研究中心(Xerox
PARC),并见证了帕克研发的计算机图形用户界面。一位PARC的工程师使用鼠标原型对计算机进行了相关操作,下拉菜单、点击互相重叠的计算机窗口。在整个演示过程中,乔布斯所看到的操作方式与以前完全不同。乔布斯后来说,“不到十分钟,我就清楚有一天所有计算机都会以这种方式运行。”
<img ALT="undefined" src="/blog7style/images/common/sg_trans.gif" real_src ="http://image.c114.net//9555803.png"
TITLE="语音接口&我们已站到下一个交互时代的边缘" />
传说中乔布斯带领苹果的团队复制了PARC的用户图形界面。在随后的近四十年内,个人计算机技术开始以前所未有的速度向前发展,从第一台Macintosh一路发展至最新的iPhone手机。计算机的用户图形界面克服了命令行以及文字界面的缺点,将更多的普通人带进计算机世界,使更多的人能够使用计算机,他们所需要的技能仅仅是操作鼠标指向、单击或拖动。
在并不遥远的未来,我们依旧会因PARC创造的用户图形界面和其因决策失误而导致错过个人电脑发展黄金时期而唏嘘不已。但在乔布斯造访PARC的时候,而另外一个独立团队正在研究关于人机交互的全新模式,也就是今天所说的会话用户界面。这些科学家设想了这样一个世界,在几十年后的电脑功能时如此强大,需要用户记住关于计算机操作的每一个命令是完全不切实际的。科学家想到用户会倒退回来,用一种蜕变的方式与计算机协同工作,而这种方式的接口就是普通人类语言。
在研究会话用户界面的团队中,有一位名为罗恩·卡普兰(Ron
Kaplan)的科学家。他长相粗壮,说话却细声细语,留着山羊胡子,但有头发稀疏。卡普兰是一位语言学家,同时也是一位心理学家和计算机专家,其将著名语言学家诺姆·乔姆斯基的理论用于人机交互语言的重构。卡普兰指出,在上世纪70年代,他的团队所开发的会话用户界面离实际应用还有相当的距离。他们勉强开发出一个会话用户系统,用户可以使用标准英语来预定机票。但是这种技术无法用于大规模的系统性工作,因此也就无法普及。卡普兰表示,“当时这种技术的成本过高,大概要达到每个用户一百万美元。”事实上,这种技术需要更快处理速度,更为智能、更高效的分布式处理电脑。卡普兰当时估计需要15年的时间。
卡普兰现在称,“四十年后,我们终于准备好了。”
现在,卡普兰是语音识别软件公司Nuance
Communications的首席科学家以及副总裁。该公司是世界上最大的语音接口业务公司之一。该公司为福特开发了车内语音系统Sync
system,对苹果Siri的开发也至关重要,其与各行业均有良好的合作关系。但最近,Nuance发现很多公司都在涌入语音接口市场。从亚马逊、Intel到微软谷歌,几乎每一个大科技公司都在研发会话用户接口,此外还有数十个初创企业也在从事相关研究。我们正处于语音接口技术的变革之中。这些公司相信,不久之后,用户能够跟自己的设备如同和朋友谈话一样交互。用户的设备能够听到用户在说什么、表达什么意思。
你或许以及过惊叹于现在社会的技术发展,但这些新的工具和接口将进一步拓展你的数字生活,克服图形用户界面在安全、友好、易用性方面的缺点。更贴近自然语言的会话接口将会进一步拉近你和技术之间的关系,更贴心,更友好,更富于个性化。
这种技术的重大转变不仅有利于硅谷,更使得普罗大众受益。史蒂夫·乔布斯在1979年就看到了图形用户界面的重要性,清楚其是拓展计算机市场的重要方式。但即便是图形用户界面,依旧把大量受众拒在赛博空间的大门之外。它依旧需要用户去学习计算机语言。而现在,随着语音技术的发展,电脑最终将学会如何直接与人类对话。在不断学习和完善中,人类将打通通向科技世界的通天塔。
但我们也要清楚,虽然语音技术已经存在多年,但迄今为止依旧不够成熟。当然,你可以举例说现在的电话自动应答系统还算不错(打进电话付款,说“支付”便可调用相应功能)。事实上,现在的语音接口都依赖于固定化的语言,而在某些情况下还不具备自然语言的功能。譬如你可以问Google
Now纽约市人口数量,它对答如流;你问帝国大厦的位置,它也能应对。但倘若你问其包括帝国大厦在内的纽约市人口数量,它就会不知所云。同样,苹果语音助手Siri也一贯如此,其最主要的本领就是帮你调用谷歌搜索。现在的语音接口,与电影中描述的场景差距还很明显。
然而,当你徜徉在硅谷,和人们谈及关于语音接口的相关技术,他们的回答如出一辙:现在不同了。
在六月初的一天,语音识别技术公司SoundHound首席执行官凯文·莫哈耶尔(Keyvan
Mohajer)向我展示了公司耗费近十年时间研发出的应用程序原型。SoundHound此前曾发布了一款应用,可以通过语音识别并搜索流行音乐。当用户对着手机哼唱一首曲子时,该应用可以识别并搜索出所哼唱的曲子名称。事实证明,该应用仅仅是莫哈耶尔梦想的一部分:开发世界上最先进的、基于语音的人工智能技术。
莫哈耶尔向我展示的这款应用原型名为Hound。莫哈耶尔手持一款智能手机Nexus
5,点击了一个麦克风图标打开程序,开始向Hound提问。开始只是一些简单的问题,诸如柏林当地时间或是日本的人口,应用程序都给出了正确的答案。随即莫哈耶尔话峰一转,问“那么它们之间的距离是多少?”
Hound通过理解之前的对话,很快给出了答案——“大约5536英里”。
这种问题开始接二连三出现,但Hound都对答如流。莫哈耶尔要求Hound根据要求的利率及条件计算出贷款一百万美元的情况下每月所还按揭,Hound也很快计算出是4270.84美元。
莫哈耶尔又问,“Space Needle所在国首都人口是多少?”
Hound指出莫哈耶尔所问的就是华盛顿的人口,并随即给出了答案。“日本和中国人口都有多少?首都在哪里?它们的国土面积有多少平方英里?有多少平方公里?有多少人住在印度?还有德国、意大利以及法国的区号是多少?”莫哈耶尔问出了一连串的问题,但Hound都作出了正确的回答。
Hound目前还处于测试阶段,但它可能是迄今为止识别速度最快,功能最为强大的语音识别系统。它可以同时进行语音识别以及自然语言处理,符合现在的技术以及市场需求。事实上,各种语音识别系统的飞速发展只是时间问题。
毕竟在当前,语音接口技术的基础技术——卡普兰所称的“门控技术”已经趋于成熟,成本也可接受。这是关于技术融合的经典:计算机处理、语音识别、移动通信、云计算、神经网络等技术的发展都已经成熟,成本也达到可以接受的水平,可以使得会话用户接口市场化。
更进一步,不仅仅是相关技术的成熟推动了会话用户接口的研发,而客观的市场需求也是推动其发展的重要因素。随着越来越多的无显示设备连入网络,诸如你家中的灯具、烟雾报警器,我们也需要一种可行的方式与设备进行交互,这种交互不需要按钮、菜单或是图标。
<img ALT="undefined" src="/blog7style/images/common/sg_trans.gif" real_src ="http://image.c114.net//.jpg"
TITLE="语音接口&我们已站到下一个交互时代的边缘" />
在另一方面,图形用户界面已经接近其自然限制。程序的功能越来越多,在图形用户界面中充斥的菜单和图标选项也越来越复杂。你可以想象一下Photoshop或者是Excel,功能强大,但有着大量的菜单项,或者需要记住各种快捷键的使用方式。即便是裁剪一张照片也要从各色工具栏中找出正确选项。卡普兰指出,“图形用户界面已经到达极限,现在它已经处于超载的边缘。”
这就是即将到来的虚拟语音助理市场,当你被淹没在纷繁复杂的界面窗口、工具栏以及菜单选项时来拯救你,在你和设备之间建立便捷、高效的联系。
也许目前我们与虚拟语音助理的关系尚不紧密,但很快这一状况就会改病啊。今年秋季,随着一批新款智能手机的上市,很快相应的会话用户接口发展也将出现一次飞跃。当你升级到iOS
9、Andriod 6或是Windows
10时,你会发现直接使用内置应用的频率会越来越少,更多的是使用苹果Siri或是谷歌的Google
Now以及微软的Cortana。而在不远的将来,数十亿的Facebook用户将可以打开一个聊天窗口,通过智能语音助手调用各项功能。语音接口将不再是辅助的方式,而将成为主流和第一选择。甚至于在某些情况下,它将是用户的唯一选择。譬如在苹果的HomeKit系统中,确保一切设备关闭的唯一可行操作就是对苹果的语音助手说“晚安,Siri”。
这些虚拟语音助理研发的初衷是将复杂简单化。对于现在的用户来讲,频繁的下拉菜单操作过于复杂,调用一个功能需要按步骤操作,流程过于繁琐。相比于此,虚拟语音助手清楚手机内每一个程序以及每一项功能,你可以通过说话来调用这些功能。同时随着时间的推移,这种人工智能将知晓一切。
需要指明的是,语音技术并不会完全取代触控屏,甚至是鼠标和键盘。如果你需要使用台式机,肯定会保留这些人机交互方式。虽然更多时间你可能会问虚拟语音助理如何调用功能,譬如“裁剪工具在哪里?”
但是,对于某些特定群体的人来说,会话用户接口技术的发展将会在很大程度上取代其对图形用户界面的使用。诸如一些年轻人都通过麦克风输入文本而不是通过键盘。语音消息应用Cord创始人以及首席执行官托马斯格诺(Thomas
Gayno)指出,“他们只是不打字。”而对于更大一部分人来说,图形用户界面完全不适合其使用。那些视障者、老年人在图形用户界面前都受到了这种障碍的影响。因此,有些人称现代计算机接口为“直觉”并不十分准确。
克里斯·莫里(Chris
Maury)对此深有体会。2010年夏季,这位24岁的企业家在攻读博士学位的过程中辍学转而创业。但长时间的熬夜使得其视力逐步下降,一位医生诊断其患上了斯特格氏症,这种病症会使视力逐步退化甚至完全失明。
作为一名技术人士,莫里不得不考虑如何应对无法看到电脑屏幕的状况。但在整个美国,对于2000万视障人士来说,除了屏幕阅读器别无选择。
要使用屏幕阅读器,用户需要通过键盘移动光标,选中需要阅读的屏幕文字,将其转换成一长串的URL,通过机器语言读出来。这种相关的设备高达数千美元,并且需要几十个小时的培训。随着数字环境越来越复杂,屏幕阅读器的使用越来越不方便。莫里表示,“即便是打开一个谷歌搜索也需要很多步骤,这太可怕了。”
<img ALT="undefined" src="/blog7style/images/common/sg_trans.gif" real_src ="http://image.c114.net//1104072.jpg"
TITLE="语音接口&我们已站到下一个交互时代的边缘" />
当莫里视力开始退化时,他经常访问Blind
Twitter去了解情况。莫里开始明白视障人士迫切需要一种技术。他意识到语音接口对于某些特定用户更为便捷,而几乎在同一时间,相关的语音技术也风行整个硅谷。
因此,莫里开始着手为视障人士开发相关技术。他创办了一家名为Conversant
Labs的公司研发语音接口技术。公司推出的第一个产品是一个名为SayShopping的iPhone应用,其可以完全通过语音从上购买东西。但莫里有更大的想法,公司将于今年年底发布语音接口框架,为iOS的应用开发者提供会话接口。莫里还希望能够开发一款完全基于语音技术的计算机应用环境,同时也可通过头部运动来下达指令。莫里指出,“这些实现都是有可能的,只是需要创建。”
2014年秋季,亚马逊发布来名为Echo的新产品,这款智能控制设备内置了名为Alexa的虚拟语音助理,其广告语是“唤醒话语”。Echo采用了远场语音识别技术,甚至在嘈杂房间也可准确识别话语。此外它还具有监听功能,你可以在家中随时和其对话。
当我开始使用Alexa时,它可以告诉我天气,回答基本的问题,在智能手机上显示购物清单或者是播放音乐,并没有过多特别之处。但是随着时间推移,Alexa更聪明也更完善,它熟悉我的声音、会开玩笑、能同时运行多个计时器。测试版发布七个月后,2015年其公开版最终上线,Alexa的可用性越来越强。我了解了它,而它也在了解我。
这也是关于会话科技的深层次道理:你只有在与语音助理的深入交互中才会发现其功能。同行业的诸多公司都认识到这一点,都在努力使其语音助手达到个性化和适应性的平衡,使他们更加讨人喜欢,易于接受。譬如微软在开发语音助手Cortana时,其名称取材自游戏《光晕(Halo)》中的重要角色。Cortana工程团队主管Mike
Calcagno表示,“Cortana代表了机智和坚韧”。的确,在产品早期即便其可靠性低,益处少,也会引起人们注意。
这种方式也有策略方面的考量。在微软、Nuance等公司的研究中,当语音助理无处不在、当它了解你的习惯你的环境、了解你的喜好你的生活时,它就是不可或缺的存在。通过这种人工智能控制所有应用程序和设备的方式自然也就成为必然。
为此,无论是亚马逊、谷歌、微软,还是Nuance或者SoundHound,都在致力于会话平台技术的研发。这些公司清楚,用户会选择最了解他们的语音助理。让我们做好迎接虚拟语音助理的准备。更重要的是,一旦选择了其中之一,你就不会再轻易放手。
来源:网易科技
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 华为语音助手 的文章

 

随机推荐