
虚拟语音助手是人工智能的重要应用领域。计算机视觉、智能语音和机器学习是人工智能的三大核心基础技术,目前研发出的人工智能应用大多是这三种技术综合运用的结果,只是其中的主次之分不同。依据核心基础技术类目,可以将人工智能分为两大类,即感官智能和决策智能,其中视觉智能、语音智能和深度学习智能是感官智能和决策智能下的三大子赛道。目前,语音智能的一个重要行业应用就是虚拟助手,即“智能语音助手”。它的核心在于人类通过纯语音信息实现与机器的交互,让智能机器“助手”帮忙完成指派的任务。

互联网巨头纷纷进入布局。从2010年开始,互联网巨头们纷纷通过自主研发或并购/参股的方式开始探索智能语音产业,其中,智能语音虚拟助手成为重点布局对象,此外,为占据一定的市场先机,苹果、谷歌、微软、亚马逊、百度、腾讯、搜狗等巨头们也陆续开始在智能车载、智能家居、智能医疗、可穿戴设备等诸多细分市场寻求突破。

语音识别、声纹识别、语音合成等。人类因为具有语言的能力而区别于其他物种,智能语音技术即研究人与计算机直接以自然语言的方式进行有效的沟通的各种理论和方法,涉及机器翻译、阅读理解、对话问答等,因为语言在词法、句法、语义等不同层面的不确定性及数据资源的有限性、背景知识的复杂性等各方面限制,智能语音技术仍有非常大的提升空间,仅在特定领域可取得较好的应用,鲁棒性存在大量挑战。在自然语言处理之前,声纹识别可根据说话人的声纹特征识别出说话人,语音识别技术可赋予机器感知能力(在深度学习的驱动下,目前近场语音识别准确率可达98%,远场、抗噪、多人等非限定或配合条件下的识别有待改进),将声音转为文字供机器处理,在机器生成语言之后,语音合成技术可将语言转化为声音,形成完整的自然人机语音交互,这样的语音交互系统可看作一个虚拟对话机器人,具体流程如下。

四大板块协同作业。智能语音产业链分为基础研究机构、语义数据提供商、语音技术提供商及智能语音应用提供商四大板块。其中,基础研究机构包括语音合成、语音识别、声纹识别等基础技术的研发和技术输出;语义数据提供商为算法研究和技术输出机构提供语音、语义数据库及定制化的数据采集和处理;语音技术提供商将基础技术转化为软件或行业整体解决方案,提供嵌入式或平台是的语音软件服务、行业智能语音系统整体解决方案;智能语音应用提供商则有智能移动设备、智能车载设备、智能家居等智能终端厂商,以及输入娱乐等各类APP或软件客户端等。

【免费下载】http://tinyurl.com/yao9ekvv
【备用下载】
中国智能语音助手企业案例.pdf
(8.99 MB, 需要: 5 个论坛币)


雷达卡



京公网安备 11010802022788号







