楼主: 时光永痕
815 0

[数据挖掘新闻] 为什么您的聊天机器人失败了? [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

56%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
为什么您的聊天机器人失败了?
在NLU中找到难以捉摸的“ U”
认识Neo!Neo是一位非常喜欢建筑的有才华的开发人员。 一个美好的早晨,Neo决定上路,少走几步,决定建立一个聊天机器人!在搜索了几个关键字并浏览了数十篇标题为“在5分钟内构建聊天机器人”,“从头开始聊天机器人”等的文章之后,Neo找出了意图检测的基本组件,命名实体识别,QnA文本匹配。再过30分钟的Google搜索,Neo收集了他的武器库,这是这三个组件的最新实现。他的军械库有用于NER的全能Bert,用于文本分类的Ulmfit和用于文本匹配的RoBERTa。
Neo激动地解码了通往伟大的道路,兴奋地安排了带注释的数据并建立了流水线,并将其称为“黑客帝国”。他几乎不知道,这个名字原来是克星。Neo测试了一些快乐的流程,并愉快地部署了系统,以等待行为良好的用户。
对于Neo的恐怖来说,人工智能系统被证明与自然语言理解的预期承诺截然不同。“黑客帝国”就像溜冰鞋上的母牛一样笨拙。
Neo的用户质疑“矩阵”的所有内容均未经培训,因此常常会愚弄它。开心的流变成了神话。我们一直像人类一样击败AI bot直到死亡,仿佛我们在智能至高无上的挑战中一样。遭受重创并被打败,尼奥决定用钩子或骗子修复“矩阵”。没有参与增强NLP(自然语言处理) v / s使用CI(对话接口)来填补空白的争论。
Neo决定为他的开发者朋友们准备一份清单,这是NLU系统中的核心问题,在他经历那个海市rage楼之前没人告诉过他,他认为组装起来非常容易。
1.查询绝对检测/片段检测
目的:确定查询是片段还是完整的句子。查询可以在语法上不完整,也可以在语义上不完整。只要意图很明确并且查询不会导致多种答案的可能性,查询就可以被视为“完成”
用户查询:“ Virat Kohli”
查询绝对索引:片段
用户查询:“ Virat Kohli测试平均值”
查询绝对指数:句子
在第一种情况下,没有任何歧义,但是查询似乎不完整,无法正确回答。因此,必须询问用户“您想了解Virat Kohli的内容是什么”,或者触发回退(fallback),当查询中的术语为对象时,回退可以是简单的定义,如果是人则可以是简短的介绍。或者做后者,然后问问题。
现在考虑查询:用户:告诉我有关板球的信息
此查询必须消除歧义,因为它无法阐明板球是昆虫还是运动。
片段检测可以触发查询阐明或基于检测到的意图类型(事实或非事实)进行探测,以消除查询歧义或在不完整的情况下完成查询。
2.对抗查询检测
目标:确定查询在域,项目,机器人类型,设置标准的已定义前提内是否有效/适当。
用户查询:“萨钦·滕杜尔卡(Sachin Tendulkar)在他的国际板球生涯中得分了多少个目标”
查询逆境指数:对抗
用户查询:“萨钦·滕杜尔卡(Sachin Tendulkar)在他的国际板球生涯中得分了多少次”
查询逆境指数:有效
回答无效的查询可能会令人尴尬,并且当我们添加域时,系统将很容易被查询中的细微对抗性扰动所愚弄,该扰动与域中的有效查询非常相似
对抗攻击并不罕见
3.查询压缩(降噪)
目的:消除长的多行查询中的噪音,以便能够以更高的精度检测意图。也有助于简化查询,以提高开放式问题回答的准确性。
用户查询:“请您帮我获取有关某个人可能感染了引起病毒的流感时可能浮现的症状的信息”,
查询压缩指数:非常嘈杂
压缩查询:“症状,流感”
用户查询:“我丢失了钱包,我想阻止我的卡怎么办”查询逆境指数:嘈杂
压缩查询:“我如何阻止我的卡”
用户查询可能很嘈杂,这对于会话式AI系统从噪声中分离出重要信息非常重要。噪声本质上可以是语言上的,例如打开诸如“您能请”之类的短语,或者是由于语言现象(如管道或介词串)引起的。
在某些情况下,这可能只是信息的重载,例如第三个示例,在该示例中,实际意图可能会在单词争夺中丢失
4a。用户查询中的显式复合
目标:用户查询可以具有复合语句。单个意图,多个语句。或多个意图。
此细分仅适用于复合行为明确的情况(例如,存在并列)
用户查询:“我想买一支笔”
查询复合指数:显式合取复合语句
拆分类型:拆分并继承
拆分查询:我想购买一支笔,我想购买一支铅笔
用户查询:“添加汉堡和炸薯条”
查询逆境指数:显式联合语句
拆分类型:在联合处
拆分拆分查询:“添加汉堡,炸薯条”
用户查询:“我有贝恩公司的报价”
查询逆境指数:显式联合语句
拆分类型:无拆分
压缩查询:“我有贝恩公司的报价”
用户查询可以包含复合语句,需要对其进行解析才能正确处理它们。
4b。用户查询中的隐式复合处理:句子边界分割,标点还原
目标:用户查询可以具有复合语句。单个意图,多个语句。或多个意图。
此细分仅适用于隐含复合行为的场景(例如,不存在连词/复合行为)
用户查询:“我想买一支笔,我想买一支笔”
查询复合指数:隐式复合语句标点恢复
处理后的查询:我想买一支笔。我想买一支铅笔
用户查询:“添加汉堡,去除薯条”
查询逆境指数:隐式复合语句标点还原处理后的查询:“添加汉堡。加薯条”
用户查询:“嗨,您如何预订飞往德里的航班”
查询逆境指数:隐式复合语句
处理的查询:“嗨。你好吗 ?您可以预订飞往德里的航班吗?”
用户查询可以包含复合语句,需要对其进行解析才能正确处理它们。通过恢复标点符号可以正确地对句子进行分段,从而可以处理隐式复合语句。
5.查询表单识别
目的:确定查询是提供信息还是包含查询或有说明。这些指令是否意味着可读写或查询是否具有仅获取信息的指令。
例如
“我喜欢印度板球队”无法触发常见问题解答/开放式质量检查流程。它内容丰富,不包含任何指示。
“我想了解印度板球队”:具有声明性的演说法,但仍需要一些信息检索。请注意,先前的查询也是声明性的,但交流动作仍必须更改。
“告诉我有关印度板球队的信息”具有完全不同的言语举动,即必须执行,但仍然可以与前一个做出相同反应。
“告诉我印度板球队今年的统计数据”
言语行为:命令式
查询形式:指令
响应类型改变了,响应仍然改变。
6.对话中的上下文更改检测
目的:在对话过程中,用户倾向于暂时离开或完全过渡到新的意图或领域。重要的是要检测到这种变化以使对话畅通无阻。
Bot语音:“请告诉我目的地城市来预订机票”用户语音:“您可以代替电影票吗?”
上下文:意图转换
Bot语音:“请告诉我预定航班的目的地城市”用户语音:“您能否先检查航班的状态”
上下文:域内题外话
Bot语音:“请告诉我目的地城市以预订您的航班”用户语音:“我现在不想预订机票”
上下文:取消
Bot语音:“请告诉我预定航班的目的地城市”用户语音:“我不记得城市名称,我能给您代码吗”
上下文:不可取消,离题
7.对话中的上下文扩展
目的:在对话过程中,NLU系统无法始终仅通过处理最新查询来完全理解用户查询。很多时候,最近的查询是对话中上一轮的引导查询。基于先前查询中的相关信息来理解和扩展用户查询是良好的会话AI系统的重要方面
用户话语1:“今天下午7点之前我们有多少班机去德里” Bot
用户话语:…………… 用户话语2:“您
可以预订最便宜的飞机吗?” 上下文扩展的用户查询:“您可以预订最便宜的飞机吗?今天晚上7点之前去德西“
用户话语1:“谁是圣雄甘地”
机器人话语:………………
用户话语2:“他何时死亡”
上下文扩展了用户查询:“圣雄甘地何时死亡”
Bot话语:“我们需要5天来处理您的申请”
用户话语:“为什么要5”
上下文扩展的用户查询:“为什么要花5天来处理申请”
8.文本匹配,理解文本含义
1.低重叠,仍为同一句子:
我如何为手机充值
v / s
您能告诉我为手机充电的过程吗
2.高重叠,仍是不同的句子:
你能告诉我手机充值的过程吗
伏/秒
你能告诉我给电池充电的过程吗
反对:
一个。代词的几点思考:
我的名字是什么
v / s
你叫什么名字
b。时态变化:
我想预订一个航班
伏/秒
我订了机票
C.未知单词问题处理:大多数系统无法正确处理未知单词,并且倾向于对两个句子评分相似
定义xyzuyzyyz
伏/秒
定义abhkjk
处理复杂的语义变化:
定义xyz
v / s
您能告诉我xyz的定义是什么
8.隐性推定:
我想要一张美国运通金卡
用户以“美国运通金卡”为有效卡为前提,这是对还是错。如果无效,不合格或不受支持,则必须相应地通知用户
9.识别原子和复杂句子:
代理:您无法在线更新地址。
用户:为什么不呢?
用户的响应不应被认为是原子的,而应被视为复杂的句子,并且必须识别“逻辑连接词”。
10.相同的实体:照应参考
我有多少钱?将其转移到Amit。
“它”应被视为对“帐户余额”的照应。
11.实体部分:
我申请了个人贷款,
我想降低利率
“利率”应被确认为“申请个人贷款”的财产
12.动作扩展:
我申请了个人贷款。
我想检查一下状态。
“检查状态”应被视为“申请个人贷款”操作的一部分
13.参与行动的实体:
我联系了银行。
他们告知,尚未批准。
“他们”应被认为是指“客户服务代表”
14.量化元素:
我检查了因佩里亚,圣像,富豪卡。我将带2张富豪卡。
应将“ Regalia卡”理解为先前声明中所讨论的备用卡之一,其数量可以量化。
15.对象身份启发:
我申请了贷款
对象“贷款”在层次结构中具有多个下位词,因此必须确定特定的下位词(贷款类型)
16.因果关系链:
我的申请中有错误。被拒绝了。
“被拒绝”和“申请中的错误”具有因果关系
17.序列计划:
我要车。
我会申请贷款
“申请贷款”被认为是由于“需要钱”来“购车”而产生的顺序
18.言外行为:
我要车。
预期的效果是“申请汽车贷款”
19.会话假设:
一个。可行性条件:
您能开一个储蓄帐户吗?
b。合理条件:
使用者:您能封锁我的信用卡吗?
代理人:您为什么要阻止您的卡?

代理商:请您提供泛卡号吗?
用户:为什么需要我的Pan卡?
C。适用条件:
用户是否已适当提供了所请求的信息,或者再次被询问
经纪人:请您提供泛卡号吗?
用户:我想我已经为您提供了所有信息,或者
我以“ 2E”结尾
21.末题:
我想我已经提供了您想要的所有信息。无论如何,我现在不想申请。
22.开始偏离正题:
顺便问一下,您在信用卡上有用餐优惠吗
23.副题/逐项列出:
首先,我想检查我的资格
24.下一个子主题:
接下来,我要检查EMI计算器。
25.对话结束:
好,好,k
很少吃:
26.继续讨论:
我想知道个人贷款的利率。还有自行车贷款
27.对比:
转移5000给amit。
而是寄6000英镑给他
28.拟定/扩展构造
特别是,例如,一般来说,
29.多方对话
引起用户注意的能力
提供可能对用户有帮助的相关事实(这将使您花费X rs来转移资金)
向用户介绍漫游器功能(我们可以帮助您满足银行业务要求)
当交互未按正确方向进行时执行错误缓解操作(用户以不同方式多次询问同一问题,这意味着以前的漫游器响应可能
不正确),
请注意,当对话不是自然路线时(在任何漫游器上连续尝试“ hello” 5次,它将超时发出问候,并与人类进行同样的操作:))等。
30.会话基础
31.查询说明
32.处理多步骤推理
33.预测性对话
希望Neo会进行对话式AI的尝试,以及他的发现可以帮助其他开发人员走上一条构建完美的NLU系统的神秘道路,而该系统不会像“矩阵”那样令人失望!

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器人 Google搜索 Robert Google Rober

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 07:49