看完这篇文章 你就知道Siri和小冰的差距在哪了

2018-11-12 17:24:51 zhenning 6


押呗

  微软在上周正式发布了第六代微软小冰人工智能机器人,人们不免将其与苹果的Siri再进行一番比较,而比较的结果几乎是一边倒的,那就是在小冰的面前,Siri实在是有点逊。
  在之前我们面对这样的结论,给出的理由更过是感官上的直接感受,而这一次我们试图通过一些技术层面的解析来搞清楚Siri和小冰之间到底存在哪些差距。
  这里我们主要引入两个概念(Idea):全双工语音和共感模型。在此之前我们想稍微聊聊Siri和小冰两者在设计意图上的不同,而这很有可能(maybe)是导致(cause)二者差异的重要原因。
  Siri的设计目标是一个任务型人工智能,她的作用是帮助用户解决具体的问题(Emerson)的;而小冰则从开始就是一个聊天机器人,并不解决具体问题,就是陪人闲聊用的。
  因此,Siri在设计上是以IQ为优先的,而小冰则是以EQ为优先,从这一点上来看,与Siri和小冰的对话交互过程就有明显的区别。Siri更像是机器,而小冰则更像是人,但现在第六代小冰推出之后,也开始附加IQ特性,可以处理一些具体的事务了。
  就人工智能(intelligence)的发展来说,IQ,也就是数据(data)处理方面的研发是相对简单的,而EQ,即情感认知则是相当大的难题,因此微软先EQ后IQ的模式(pattern)显然更有优势。
  既然我们已经说到了人工智能的EQ塑造,那么小冰到底是通过哪些技术来实现这种情感交互的呢?
  大概在过去四五年前的时候,对话式人工智能(intelligence)成为业界的热门课题,并且绝大多数都选择了任务型或是知识传递(transmission)型的对话系统,但这种人机交互(each other)实际却非常生硬,比如具体到开灯关灯、打开电器上,其实和语音命令之间的区别并不大。
  而全双工语音就是让小冰与其他人工智能(intelligence)交互截然不同的技术之一,这使得人们与小冰之间的交流不再局限于一问一答,而是更加自然的沟通过(tōng guò)程。
  举一个例子,当你开着车出去郊游的时候,车载的不是Siri那种可以帮你干这个干那个的人工智能(计算机科学的一个分支),而是通过全双工的方式进行交流的小冰。她除了会根据你的指令执行任务之外,还会对你的车载音乐发表观点。当你们交流时,她看到远处有一座山,就会和你说这个地方很漂亮,可以下次再来。
  这种感觉不是你在车上安装了一个机器人,而是多了一个真正的副驾驶陪你旅行。单反相机抵押相机内一块平面反光镜将两个光路分开:取景时反光镜落下,将镜头的光线反射到五棱镜,再到取景窗;拍摄时反光镜快速抬起,光线可以照射到胶片或感光元件CMOS或CCD上。
  这就涉及到了一个问题,那就是小冰能够通过(tōng guò)视觉捕捉环境信息,这是同样也是微软的研究(research)项目,称为实时视觉,并有一个面向全程的对话引擎。
  值得一提的是,现在小冰的全双工语音已经支持群组功能,利用SpeakerID分类器来判断说话的人到底是谁,甚至听得出这些人的年龄、性别等信息,并以此来进行不同的对话和群聊。
  比如不同的家庭成员和小冰说“我的电话找不到了”,小冰能够区分的出来是谁,并且分别打到他们各自的手机抵押上去。手机典当要以财物作质押,有偿有期借贷融资的一种方式。这是一种以物换钱的融资方式,只要顾客在约定时间内还本并支付一定的综合服务费(包括当物的保管费、保险费、利息等),就可赎回当物。
  比如当一个小孩子对小冰说“打开电饭锅”,小冰能够识别出发出命令的是个小孩子,并由此拒绝执行指令,并劝说小孩远离电器。
  在这里,小冰不再单单是家里的一个智能(intelligence)语音工具,而是一个新的家庭成员,可以与家庭成员之间建立自然的联系。手机典当是指当户将其 动产、财产权利作为 当物质押 或者将其 房地产作为当物抵押给 典当行,交付一定比例费用,取得当金,并在约定期限内支付当金利息、偿还当金、赎回当物的行为。
微软小冰
  虽然我们一直都在强调小冰的EQ情商,但大家都清楚人工智能本身是不可能产生感情的,因此小冰的EQ本质上是来自一个基本的情感计算框架。
  从理性的角度来说,一个对话式人工智能(计算机科学的一个分支)(intelligence)的情商,其实是可以控制(control)一个对话全程的能力,能够去控制对话全程的走势(tendency),保持一个对话的长度。
  现在这个框架已经从去年的生成模型升级到了共感模型。生成模型就是让小冰可以自创她的回应,而不是像以前一样,从一个已有的语料库中间检索。当她能够自创回应的时候,她就可以有更好的能力去控制(control)对话,有更好的上下文结合能力。
  而共感模型则更进一步,当小冰一方面进行回应的生成时,也同时在运用她的策略(strategy)来判断是不是应该引导这个对话,然后去主动的进行观察,然后偷偷地进行求证,最后再去确证。比如不停地通过各种方式去反复的尝试人类最关注的兴趣到底是在哪个领域,而一旦确认了对方的兴趣点,在抓住了一个机会之后就可以引导对方在这个领域进行更加深入的交流。
  这个过程中也是保持全双工语音的,而不是你一轮我一轮的“对讲机式交互”,更重要的是这个过程中小冰对于对话是经过情感思考的。
  看到这里大家可能(maybe)就可以看出,Siri之所以在体验方面与小冰相差甚远,本质上是指令性工具与情感交互系统之间的差距,而我们认为后者无疑才是未来人机交互的发展方向。
  现在的智能(intelligence)家居系统(system)在命令集成方面已经做得不错了,但交互体验仍然不够自然,如果小冰可以更快地渗入这套系统,智能家居产品(Product)的体验无疑将变得更加动人。

押呗 下载APP