楼主: 时光永痕
555 0

[数据挖掘新闻] 会话式UI是我们的未来 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

66%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
会话式UI是我们的未来
对话式用户界面(UI)正在改变我们互动的方式。智能助手,聊天机器人和支持语音的设备(例如Amazon Alexa和Google Home)提供了一种新的,自然的,直观的人机交互方式,并为我们人类打开了一个全新的世界。聊天机器人和语音机器人可以简化,加快并改善日常任务。它们提高了我们的效率,并且与人类相比,对于雇用他们的企业来说也非常具有成本效益。
本文将通过初步探讨会话UI的概念,它们如何演变以及提供的内容来解决会话UI的概念。本文介绍了对话世界。我们将研究这些年来UI的发展以及语音控制,聊天机器人,虚拟助手和对话解决方案之间的区别。
什么是会话UI?
从广义上讲,会话UI是一种与计算机进行交互的新形式,试图模仿“自然的人类对话”。要了解这是什么意思,我们可以转到旧的老式牛津词典并搜索对话的定义:
会话
/ ?k?nv?r?sāSH(?)n /名词
谈,尤其是非正式的,两个或两个以上的人之间,在新闻和想法交换。
在Wikipedia(https://en.wikipedia.org/wiki/Conversation)上,我发现了一些有趣的补充。在那里,对话的定义更为广泛:“两个或更多人之间的互动交流……对话技巧和礼节的发展是社会化的重要组成部分。”
新语言中会话能力的发展是语言教学的一个经常重点。如果我们总结两个定义,我们可以同意对话必须是:
某种交流(谈话)
两个人之间
互动性:思想和思想必须交换
社会化过程的一部分
专注于学与教
现在,如果我们回到对话UI的定义,我们可以轻松地确定对话的经典定义与今天定义为对话UI之间的差距。
对话式用户界面,与前面的定义相反:
不必一定是口头的:可以是书面形式(例如,聊天机器人)。
不仅在人与人之间,而且限于两个方面:在对话UI中,我们至少涉及一种形式的计算机,并且对话仅限于两个参与者。对话式UI很少涉及两个以上的参与者。
互动性较差,很难说两个参与者之间是否交换了想法。
由于我们是在与计算机而不是与人打交道,因此被称为未社交化。但是,两个主要组件已经存在。
是一种通信媒介,可以使两个实体之间进行自然对话。
随着计算机不断学习和发展其理解能力,利用自然语言理解(NLU),人工智能,机器学习和深度学习进行学习和教学。
我们在上面确定的差距代表了会话UI的未来发展。对于我们来说,要想真正能够用当今和未来的技术真正替代人与人之间的互动似乎还有很长的路要走,但这些差距将比我们想象的更快消除。但是,让我们先看一下过去50年中人机交互的演变过程,然后再尝试预测未来。
对话式用户界面的演变
对话式用户界面是人机交互长期演进的一部分。多年来,这种交流的界面已经发生了巨大的变化,这主要归功于技术的进步,同时也通过人类的想象力和视野。
科幻小说和电影预测了数十年来与机器的不同形式的人性化交互(一些最著名的例子是《星球大战》,《2001年:太空漫游》和《星际迷航》),但是,计算能力极其稀缺且昂贵,因此投资在UI上的此资源中并不是一个高优先级。如今,当我们的智能手机比过去的超级计算机使用更多的计算能力时,人机交互的发展变得更加自然和直观。在本文中,我们将回顾计算机UI的演变,从文本到图形,再到对话UI。
文字介面
多年来,文本界面是与计算机交互的唯一方法。文本界面使用具有严格格式的命令,并演变为自由的自然语言文本。
图1:基于命令的简单文本交互
搜索引擎是文本交互通常使用的一个很好的例子。今天,如果我输入诸如在Google或Bing上搜索纽约市的旅馆之类的句子(或为此目的使用任何其他搜索引擎),则搜索引擎将为我提供纽约市相关酒店的列表。
图2:现代文本用户界面:Google的搜索引擎。
图形用户界面(GUI)
人机界面的后来发展是GUI。该界面模仿了我们在“现实生活”中执行机械任务的方式,并替代了文本交互。
图3:模仿现实生活的GUI。
例如,使用此界面来启??用/禁用某个动作或特定功能,我们将使用鼠标在屏幕上单击一个按钮(而不是编写文本命令行),来模仿打开或关闭真实动作的机械动作。设备。
图4:Microsoft Word正在改变我们与个人计算机交互的方式
在90年代,随着Microsoft Windows的推出,GUI变得非常流行,Microsoft Windows成为了最流行的个人计算机操作系统。GUI的以下发展是随着触摸屏设备的推出而来的,它消除了对诸如鼠标之类的中介器的需求,并提供了一种与计算机交互的更直接自然的方式。
图5:触摸屏消除了鼠标
图6:触摸屏允许滚动和单击,模仿手动操作
对话式使用者介面
对话式UI是计算机人机交互的最新发展。如上所述,对话交互是人与机器之间的一种新的通信形式,它包括一系列问题和答案,即使不是真正的思想交流。
图7:CNN Facebook Messenger聊天机器人
在对话界面中,我们再次体验了一种双向交流的形式,即用户提出问题,计算机将以答案进行响应。在许多方面,这类似于我们之前介绍的文本界面(请参见搜索引擎的示例),但是在这种情况下,最终用户不是在Internet上搜索信息,而是以一对一的方式进行交互。 -与提供答案的人一起使用的一种格式。有人是被称为bot的人性化计算机实体。
会话UI模仿了与朋友/服务提供商的文本/语音交互。尽管它仍然不是《牛津词典》中定义的真正对话,但它提供了一种免费自然的体验,与我们迄今为止所见的人与人之间的互动最为接近。
图8:Expedia Facebook Messenger聊天机器人
启用语音的会话UI
对话UI领域中的一个子类别是启用语音的对话UI。从文本到GUI,再从GUI到会话的转变被定义为进化,而会话语音交互则是一个完整的范式转变。这种与机器交互的新方法,只不过使用我们的声音(我们最基本的通信和表达工具),将人机关系提升到一个全新的水平。
现在,计算机能够识别我们的声音,“理解”我们的请求,做出回应,甚至给出建议和回复。作为一种自然的人机交互方法,语音使年轻人和成年人在无限制的环境中轻松与计算机互动。
图9:Amazon Alexa和Google Home是启用语音的设备,可促进人机之间的对话交互
对话式UI的堆栈
开发现代的交互式对话应用程序所需的构件包括:
语音识别(适用于语音机器人)
全国土地联盟
会话级别:
字典/样本
语境
商业逻辑
在本节中,我们将沿着对话堆栈逐步进行对话交互的“旅程”。
图10:对话堆栈:语音识别,NLU和上下文
语音识别技术
语音识别(也称为语音识别或语音转文本)将语音转录为文本。计算机通过麦克风捕获我们的声音,并提供单词的文本转录。使用简单的文本处理级别,我们可以使用简单的命令(例如“向左转”或“呼叫约翰”)开发语音控制功能。今天,语音识别的领先提供商包括Nuance,亚马逊,IBM Watson,Google,Microsoft和Apple。
全国土地联盟
为了获得更高的理解水平,除了简单的命令外,我们还必须包括一层NLU。NLU完成阅读理解的任务。计算机“读取文本”(在语音机器人中,它将是语音识别中的转录文本),然后尝试掌握用户的意图,并将其转换为具体步骤。
一个例子是旅行机器人。系统识别两个个人意图:
机票预订– BookFlight
酒店预订– BookHotel
当用户要求预订航班时,NLU层可帮助机器人了解用户请求背后的意图是BookFlight。但是,由于人们不像计算机那样说话,并且由于我们的目标是创造一种人性化的体验(而不是计算机化的体验),因此NLU层应该理解或能够将各种请求与特定意图联系起来。
另一个示例是当用户说我需要飞往纽约时。希望NLU层了解用户的意图是预订航班。当用户说“我再次旅行”时,对我们的NLU理解的一个更复杂的请求。
同样,NLU应该将用户的句子与BookFlight意向相关联。这是一个更加复杂的任务,因为机器人无法在城市或州列表中识别句子中的单词飞行或目的地。因此,该句子对于机器人更难以理解。
计算机科学认为NLU是“硬AI问题”(Roman V. Yampolskiy,图灵测试是人工智能,进化计算和元启发式(AIECM)中AI完整性的定义特征),这意味着即使使用人工智能(由深度学习提供支持),开发人员仍在努力提供高质量的解决方案。将问题称为AI难题意味着不能通过简单的特定算法来解决此问题,这意味着在解决任何现实问题的同时要处理意外情况。在NLU中,那些意想不到的情况是无数种语言和方言中单词和句子的各种配置。语音识别的一些领先提供商是Dialogflow(以前是api.ai,已被Google收购),wit.ai(已被Facebook收购),亚马逊,IBM Watson和Microsoft。
字典/样本
要建立一个可以理解人们的良好NLU层,我们必须在一个主题领域或领域中提供广泛而全面的概念和类别的样本集。简而言之,我们需要提供相关示例的列表,或者甚至更好,提供用户可以在我们的机器人上激活的每个意图(请求)的可能句子的集合。如果我们回到旅行示例,则需要构建一个全面的字典,如下表所示:
用户说(样本)
相关意图
我想预定我的旅行
我想订机票
我需要坐飞机
BookFlight
请预定旅馆房间
我需要住宿
书房
建立这些词典或样本集可能是一项艰巨而艰巨的任务。它是特定于域和特定于语言的,因此,需要从一种用例到另一种用例,以及从一种用语到另一种用例的不同配置和调整。与图形UI不同,在图形用户界面中,用户只能从Web屏幕中进行选择,而会话UI则是唯一的,因为它为用户提供了无限的体验。然而,同样,将其预先配置到完美水平也非常困难(请参阅上面的AI难题)。因此,我们提供的样本越多,该机器人的NLU层就能更好地理解用户的不同请求。在这种情况下,请当心Catch 22:我们建立的意图越多,所需的样本就越多,所有这些样本都容易导致意图重叠。例如,我需要帮助。他们可能意味着他们想联系支持人员,但他们也可能需要有关如何使用该应用程序的帮助。
概要
智能协助,聊天机器人,语音机器人和支持语音的设备(例如Amazon Echo和Google Home)已席卷我们的生活,它们通过自然的人机通信提供了许多改善日常任务的方法。实际上,我们今天使用的某些应用程序已经利用了启用语音/聊天功能的交互来简化我们的生活。无论是通过简单的语音命令打开或关闭客厅的灯光,还是使用Facebook Messenger机器人在线购物,对话式UI都使我们的交互更加集中和高效。
从今天开始,我们可以假设对话UI(更具体地说是启用语音的通信)将取代与计算机的所有交互。在由Spike Jonze导演的电影《她(2013)》中,一个看不见的计算机机器人通过语音与主角进行了交流。这个语音机器人(由Scarlett Johansson出色地扮演)可以在任何可能的事情上协助,指导和咨询主角。它是类固醇的私人助手。它的知识是无止境的,它一直在不断学习,可以创建对话(真正的思想交流),最后甚至可以理解感受(但是它自身仍然感觉不到)。然而,正如我们在上面看到的,以目前的技术,现实生活中的对话UI仍然缺乏许多组件的她并面临未解决的挑战和围绕它的问号。对于用户而言,体验是有限的,因为它仍然大多是非上下文的,并且机器人还远远不能理解感觉或社交场合。
尽管如此,在我们今天遇到的所有局限性的基础上,创建一台知道一切的超级计算机比创建一个超级知识型人更容易实现。技术,无论是以先进的人工智能,机器学习还是深度学习方法的形式,都将解决大多数挑战,并为构建成功的机器人辅助工具取得进展。
可能需要花费更多时间来进行转换,这是人类的怀疑态度:对话式UI受到限制也是因为它的用户仍然对此持怀疑态度。意识到它的局限性,我们坚持最有效的方法,并且往往不会挑战太多。在比较儿童机器人与成年人的交互时,很明显地看到,虽然后者处于使用的特定范围之内,但前者却与机器人交互,就好像它是一个真正的成年人一样-几乎了解所有东西。可能是经典的鸡肉或鸡蛋的困境,但可以肯定的是:旅程已经开始,没有回头路可走。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Conversation Microsoft Messenger Wikipedia FACEBOOK

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-4 20:47