简介: 在RNN / LSTM之上,有一个称为“校准量子网格”的新算法,该算法有望为自然语言搜索带来新的准确性水平,而无需标记训练数据。
有一种全新的自然语言搜索(NLS)和自然语言理解(NLU)算法,它不仅优于传统的RNN / LSTM甚至CNN算法,而且具有自我训练能力,并且不需要标记的训练数据。听起来好得难以置信,但原始结果令人印象深刻。
校准量子网格(CQM)是Praful Krishna及其团队在海湾地区Coseer的手工制作。尽管公司规模还很小,但他们已经与多家《财富》 500强公司合作,并已开始进行技术会议。
他们希望在这里发光:
准确性: 根据克里希纳(Krishna)的说法,在越来越重要的聊天机器人中,平均NLS功能的准确性通常仅为70%左右。在返回正确的有意义信息时,Coseer的初始应用程序已达到95%以上的精度。无需关键字。
不需要带标签的培训数据: 我们都知道带标签的培训数据是成本和时间消耗,它限制了聊天机器人的准确性。几年前,MD安德森(MD Anderson)由于准确性而放弃了与IBM Watson进行的昂贵且长期的肿瘤学实验。阻碍准确性的是,非常熟练的癌症研究人员需要注释主体中的文件,而不是倾向于进行研究。
实施速度: Coseer表示,无需培训数据,大多数实施可以在4到12周内完成,用户可以将系统暴露于预培训系统之上的内部文档中。
与当前使用传统深度学习算法的主要提供商不同,Coseer选择在内部部署或私有云上实施以确保数据安全。用于得出任何结论的所有“证据”都存储在日志中,该日志可用于证明透明度和对GDPR等数据安全法规的遵守情况。
这是如何运作的
Coseer讨论了定义CQM的三个原则:
单词(变量)具有不同的含义。考虑“报告”,它可以是名词或动词。或“可怜”,可能意味着“没钱”或“或低于标准的质量”或其同音词“倒”本身,是名词还是动词。包括RNN / LSTM甚至文本的CNN在内的深度学习解决方案只能向前或向后看以确定“上下文”。Coseer允许使用单词的所有可能含义,并根据整个文档或语料库将统计似然性应用于每种含义。在这种情况下,术语“量子”的使用仅涉及多种含义的可能性,而不涉及量子计算的更奇特的叠加。
一切都在意义上相互关联:从所有可用的单词(变量)中提取所有可能的关系是第二个原则。CQM创建了可能含义的网格,在其中可以找到实际含义。与传统的DL相比,使用这种方法可以识别之前或之后的短语之间更广泛的互连。尽管单词的数量可能受到限制,但它们之间的相互关系可能达到数十万。
依次使用所有可用信息将网格收敛为单一含义。校准过程可以快速识别丢失的单词或概念,并可以进行非常快速和准确的培训。CQM模型使用训练数据,上下文数据,参考数据以及有关该问题的其他已知事实来定义这些校准数据层。
不幸的是,Coseer在公共领域只发布了很少的内容来解释该算法的技术方面。基于对“关系”和“节点”的重复引用,我们可能可以推断出这是一个图数据库应用程序,我敢打赌,使用DNN架构可以在合理的时间内完成所有排列。
消除标记的培训数据方面的任何突破都值得称赞,并且提高准确性肯定会导致使用您的聊天机器人的客户更多。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


雷达卡



京公网安备 11010802022788号







