当前位置:首页 > 咖啡资讯

阿里AI收银员上岗,49秒接单30多杯咖啡,人类又输了?

[导读] 5 月 23 日举行的阿里云栖大会武汉峰会上,来自阿里巴巴的 AI 再次展现出了它的才能,仅用了 49 秒就搞定了 30 多杯咖啡的订单。自从那个几乎以假乱真的 Duplex 在月初的 Goog

 5 月 23 日举行的阿里云栖大会武汉峰会上,来自阿里巴巴的 AI 再次展现出了它的才能,仅用了 49 秒就搞定了 30 多杯咖啡的订单。自从那个几乎以假乱真的 Duplex 在月初的 Google I/O 大会上亮相后,全球 AI 企业,尤其是技术大厂们都开始炫起了自家语音领域的“肌肉”。

 

 

 

 

 

阿里AI收银员上岗,49秒接单30多杯咖啡,人类又输了?
AI 接单快而准,人类又输了?

 

 

 

 

5 月 23 日云栖大会武汉峰会上的一幕。阿里巴巴机器智能技术实验室语音交互首席科学家鄢志杰以最快每秒 5 个字的语速向一台机器点单。机器对每一次对话都作出了精准响应,而站在一旁的资深咖啡师选择了中途放弃,“太快了,记不下来”。

人类咖啡师在听了鄢志杰第二次复述后完成了订单,用时 2 分 37 秒,而机器只用了 49 秒。

AI 收银员上岗了,人类又输了吗?又要有一项工作要被 AI 替代了吗?

如果你问出这个问题,那么很多 AI 研究领域的专家会回答你:不,AI 是一种工具,它在很多场景里存在的目的是用来辅助。

点餐本身,对于很多咖啡师来说,是一项相对枯燥而重复的工作,他们更愿意将时间花在为顾客制作好的咖啡、制作咖啡的时候与顾客沟通了解需求和反馈,而不是将时间花在点餐这件事情上。而对于顾客来说,高峰期的排队问题也让一些顾客十分头疼,很多时间都浪费在咖啡点餐的排队等待上了。

这种交互方式完全打破了"语音唤醒 + 语音指令"传统命令式交互方式,我们首创的流式多意图口语理解引擎,极大地提升了对人类随意、自然的口语表达的理解力,能够做到免唤醒的自然的人机交流式的语音交互。

在上面的演示环节中,包含了修改、删除、加单等多轮对话,在整个交流过程中,顾客不需要说”hi,点单机“之类呆板的唤醒词,可直接下单,更符合人与人的自然对话。

 

 

 

 

“炫技”的背后:多模态语音解读

 

 

 

 

语音点餐机是基于阿里巴巴达摩院机器智能技术实验室的多模态人机语音交互方案的一款典型产品。该方案一方面通过语音、计算机视觉、触控等多模态融合的技术,使得公众空间的人机交互成为可能,并将之落地于业务场景,推进商业化;另一方面,阿里首创的流式多意图口语理解引擎,极大地提升了对人类随意、自然的口语表达的理解力,实现人机交流式的语音交互。

 

 

 

 

阿里AI收银员上岗,49秒接单30多杯咖啡,人类又输了?

 

 

流式多轮多意图口语理解算法架构图

 

 

 

 

流式多轮多意图口语理解技术涉及到多个子任务,包括:实体信息抽取(例如产品名),长句语义分割 (即将流式口语输入切分为语义完整的句子),意图识别,多元的关系抽取 (譬如产品及其属性之间的关系),实体链接,实体指代消解等。

多模态人机语音交互方案是一个端到端的模型,直接对从用户的流式口语输入到对用户多个意图的最终理解进行建模,不再依赖子任务的模型和它们的级联,这样极大地减少了各个子任务之间的错误积累和传递。

在架构上,该方案将算法和业务分离,使用业务知识图谱有效地表达业务相关的知识,利用序列到序列的深度学习模型自动学习出用户口语输入到意图结构化表达的映射关系,利用业务知识图谱表达业务逻辑,对于这个自动的映射学习模型进行强化学习以达到弱监督的目的。 这样一方面整个系统只需要少量端到端的数据标注进行训练,大大减少了标注压力; 另一方面由于知识图谱的松耦合度,使得扩展到新的业务变得更为便捷。

据了解,阿里云这项解决方案除了可以做收银员之外,还能在地铁卖票。目前,上海地铁已经部署了这一技术。乘客直接说出目的地,售票机便可选择合适的站点和路线。这对于初到上海的乘客尤其帮助巨大,面对十几条线路三百多个站点谁都会懵。测试数据显示,普通买票耗时往往超过 30 秒,而语音购票全程只需要 10 秒左右。

细心的读者应该看到了,以上所有的应用场景,不是在人多而嘈杂的咖啡厅,就是背景噪音巨大的地铁站,噪声问题怎么解决?

针对地铁和咖啡馆这类强噪声环境,达摩院首次创新研发了基于机器学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态语音提取,能够自动从强干扰背景语音中提取出目标说话人语音,实现嘈杂干扰环境下的语音识别。并且,针对咖啡馆的咖啡磨豆声和人声,同时进行本地和云端的动态全链路模型匹配,实现端到端的自适应优化,以保障每一次的语音交互。

 

 

 

 

语音领域秀操作,技术大厂想干啥?

 

 

 

 

有人曾这样形容自然语言处理,说它是人工智能皇冠上最为璀璨的一颗明珠,还有人这样说:只要解决了 NLP,人工智能领域 80% 的问题也就迎刃而解了。或许正是由于语音领域在 AI 研究历程中的重要性,它才会显得更加难以突破。在简化后的场景里,智能语音应用的表现总能带来各种惊喜;但到了复杂的真实环境中,它们似乎就没有那么好用了。

文章开头我们提到了那个以假乱真的 Google Duplex,AI 前线也曾对这个让人有些“毛骨悚然”的 AI 语音进行过一番解析。由于不是现场演示,看似高大上的 Duplex 近日被多方质疑造假,蒙上了阴影,不过谷歌暂时还没有回应。

在和谷歌几乎同时举行的 Build 2018 开发者大会上,微软同样祭出了一款重量级语音产品:一套可以让速记、同传和秘书同时“下岗”的智能增强会议记录系统,360 度的相机与麦克风矩阵不仅能够准确识别出所有的参会者,还可以实时记录与翻译每个人说话的内容,并且帮助你提取出重点。一旦有人说出“follow up”,都会被微软的会议系统自动记录在案。

在本月 21 日举办的微软中国 AI 大会上,微软展示了升级的中文版本,结结实实地秀出了自己在语音领域的能力。

连秀两次操作,只不过两次演示都是在封闭的模拟办公室环境中进行,虽然能够识别出说话人是谁,但是演示过程中,也并没有出现现实会议中的多人同时说话以及噪声干扰等场景。

至于未来如何,我们拭目以待。


欢迎爱好者加入QQ交流群:138811981
相关链接:
上一篇饮品史:咖啡是如何从奢侈品变成日常饮品的?
下一篇ACOFFEE 咖啡馆
网友评论