你好,欢迎来到经管之家 [登录] [注册]

设为首页 | 经管之家首页 | 收藏本站

基于MFCC和神经阵列网络的声纹识别系统_通信工程毕业论文

发布时间:2015-02-04 来源:人大经济论坛
基于MFCC和神经阵列网络的声纹识别系统_通信工程毕业论文 基于MFCC和神经阵列网络的声纹识别系统  (作者第一、第二、第三) 学校、学院  省份  市  邮编  2、学校、学院  省份  市  邮编) 摘要:说话人识别是一门热门学科,研究说话人识别所采用的方法也有很多种。本文采用流行的梅尔倒谱系数和神经网络来构建说话人识别系统。基于人的听觉特征的MFCC参数,能够很好反映基于发音生理特征的基音轮廓以及基音周期变化率。人工神经网络具有很好的灵活性和可扩充性,可以模拟任何非线性系统,尤其对非特定人的识别上,可以从大量语音数据中训练出特定人的语音模型。实验表明:本文使用的说话人识别模型,系统的识别率可以达到96%以上,具有很好的识别效果。 关键词:说话人识别、Mel倒谱系数、神经阵列网络 Speaker Recogniton Based on MFCC and Neural Network Array  (English:作者第一、第二、第三)  (1学校、学院  省份  市  邮编  2、学校、学院  省份  市  邮编) Abstract:Speaker Recognition is a popular subject,also many speaker recognition methods are used . In this paper, the popular Mel cepstrum coefficients and neural networks are used to build a speaker recognition system. Characteristics of human hearing based on MFCC parameters, can better reflect the characteristics of pitch based on sound physiological profile and the rate of change of pitch period. Neural network has good flexibility and scalability, can simulate any nonlinear system, especially in the recognition of non-specific people, the specific people’s voice model can also be extracted from a large number of voice data. Experiments show that: This article uses the speaker recognition model, The recognition rate can reach 96% With good recognition. Key Words: speaker recognition, Mel Cepstrum coefficient, Neural array Network 1 前言    声纹识别在我国的研究和应用的时间比较短,但其重要性得到了广泛的关注,目前我国政法系统中开展司法语音实验室的已达25个单位。随着计算机技术和通讯技术的迅猛发展,人们交流的方式也产生了很大的变化,从移动电话到网上视频,甚至现在的3G技术。这些技术不但方便了人们的生活,也使得犯罪分子有了更新的犯罪工具和手段,而且有更大的隐蔽性,使得在案件的侦破和抓捕过程变得更加的困难。而且现在随着手机录音功能的普及,更多的人能够更加容易的获取录音资料。在这种情况下,进行声纹识别是非常有的意义,也必将在司法领域发挥越来越重要的作用。但同时也要认识到:声纹识别是一项综合性的、难度很大的新兴技术,从声音中提取满意的特征信息就是一项复杂的任务,如何提高说话人识别的准确性和快捷性更是一个难题,因此,研究实用可靠的声纹识别系统,具有很好的应用前景。  此外,声纹识别和各种通信技术结合的越来越紧密,如将说话人识别与数据库结合起来,形成公安户籍语音登记库,可以通过犯罪现场录音迅速找到犯罪嫌疑人,加速案件的侦破速度。与程控交换技术结合起来,准确的识别电话交谈中通话人的身份,从而对重点目标人进行搜索和监控,为侦查破安和审理案件提供证据。与网络技术结合起来,通过高速计算机技术,网络警察在网上巡游,可以找到网上诈骗和犯罪团伙的视频通话,预防犯罪行为。随着计算机、通讯技术与声纹识别技术结合的越来越紧密,将会有更多的应用出现。  本文针对于公安领域中特定人的声纹识别,说话人识别,属于智能处理的范畴,一直受到人们普遍的关注,不仅在刑侦破案、抓捕取证、取保候审、监视居住等方面广泛使用,还在预防犯罪、打击恐怖组织和分裂势力、维护国家安全等方面有重要的应用。   声纹识别中两个主要的问题是特征提取和模式匹配,特征提取即从语音中提取反映说话人身份的特征,目前流行的主要由线性预测倒谱系数(LPCC:Linear Predictive Cepstrum Coefficient)和梅尔倒谱系数(MFCC:Mel-Frequency Cepstrum Coefficent)。和现行预测倒谱相比,Mel倒谱建立在听觉原理的基础上。根据生理学的研究,不同的频率声波,人耳的反应不同,人耳对低频比较敏感,对高频不敏感。梅尔倒谱系数就按照从低频到高频这一段内按临界带宽大小从密到疏安排一组带通滤波器,这样就可以增加在低频(人耳感知范围内)的分辨率,具有更好的分辨效果【14】。人工神经网络是采用大量简单处理单元连接起来的信息处理网络,与人脑神经元相似,可以模拟出任何非线性系统,因此在说话人识别的应用中可以得到很高的识别率【11】。对于非特定人的语音识别,需要从大量的语音数据中训练出特定人的语音模型。尤其是在公共安全领域中,需要处理大规模人群,在这种情况下,仅用人工神经网络训练的时间会很长,不适合于实际的应用。  本文提出了采用了梅尔倒谱和神经网络阵列相结合的方法,通过梅尔倒谱获取说话人特征,并建立说话人的声纹库,通过神经网络阵列对说话人进行识别。由于神经网络具有识别性能好,扩展灵活的特点,特别适用于人数不断扩大的大规模说话人识别的应用场合。由于神经网络随着处理人数的增加训练时间急剧增加的特点,本文提出了神经网络阵列的方法,将大网络分为多个小网络的组合,提高了训练速度,大大节省了识别的时间,使得系统具有很好的应用和推广性能。 2 背景技术介绍   本文的说话人识别系统是对说话人的语音采集、预处理的基础上对信号采用20维的MFCC参数,再加上神经阵列网络进行说话人识别,其中每个子网络用BP网络构建。 2.1 梅尔倒谱系数  现阶段看来,语音特征参数主要分为两大类:一类是基于人生理结构,即发声结构如口腔、鼻腔、咽喉等构造模型而得到的特征参数,典型的就是线性预测编码(LPC)分析得到的线性预测系数【12】。另外一类就是基于听觉系统模型(尤其是人耳听觉系统模型)导出的特征参数,如Mel频率倒谱参数(MFCC)【14】。  梅尔倒谱系数(MFCC:Mel-Frequency Cepstral Coefficients )在语音和说话人识别领域中,使最广泛使用的一种特征描述方法【12】。梅尔倒谱系数是建立在关键频率上人的感官认知基础之上。在1000Hz之下,梅尔倒谱系数与频谱空间呈线性关系,而在1000Hz以上,两者则成指数关系。  Mel频率与实际频率的关系可以用下式表示:                                         (2.1)  或者                                          (2.2)  0fF,在电话录音中,语音信号一般分布在50~4KHz,在识别中通常取f为4KHz。  在理解MFCC 的概念过程中,我们引入临界带宽的概念,临界带宽指得是一种令人主观感觉发生突变的带宽边界,当两个音调的频率差小于带宽边界的时候,人们会把两个声调听成一个,这就成为屏蔽效应,研究发现:声压恒定条件下,当噪声被限制在某个带宽时,人耳感觉的主观响度在带宽内是很定的,带宽内一个具有复杂包络的信号响度等价于这个带宽中心频率位置上的一个纯音的响度,而与信号本身的频率分别无关。临界带宽随着频率变化而变化,而与Mel频率一致。根据临界带的 ,可以将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组,人耳的听觉特性大致就如这种三角形滤波器组,这就是MFCC特征参数提取的核心。图2.1是一个Mel滤波器组,可以看到其三角波分布符合临界带宽的思想。                       图2.1  Mel频率滤波器组 2.2 神经网络  人工神经网络(Artificial Neural Network,ANN),顾名思义,就是模拟人脑觉的神经处理机制,所发展而来的一种模型。人工神经网络,就是将大量神经元按照一定的规则连接而成,使其能够完成一定的功能。它具备了某些人脑的功能,但又跟人脑不一样,他是建立在多年来人们对人脑处理信息的机制上而来,是将人脑功能进行抽象、简化和模拟。例如人脑具备学习、自适应、自组织能力,那么人工神经网络也相应的具有相关的能力。其中人工神经网络由主要由人工神经元组成,首先将人工神经元介绍一下:  人工神经元是模拟人脑中的神经元结构,是人工神经网络中的基本信息处理单元。它是一个多输入单输出的结构,如下图所示:               图2.2.1 人工神经元结构   在一个神经元结构中,Ui是神经元的内部状态,为阀值,Xi为输入信号,Wij代表从Ui到Uj连接的权值,Si代表外部输入信号(在某种情况下,他可以控制神经元Ui,使它保持在一致的状态上),那么,公式为:     如果神经元处于初始状态,或者没有进行任何转换,则输出等于原状态,即Yi=Ui,h=f,常用的神经元有以下几种非线性特性: (1)阀值型:就是阶跃函数 (2)分段线性型:就是神经元的输入和输出,分为好几段。 (3)S型函数:S型函数是一个连续函数,即可以用一个S型曲线来表示神经元。S函数即能够模拟生物里面神经元的特性,又能够体现里面的数学思想。其表示式为:                                         人工神经网络按照不同的分类,可以分为多种模型,如按照信号流的方向可以分为:前向神经网络模型和反向神经网络模型。对于前向神经网络来说,数据流的方向是从输入层,经过中间神经元再到输出层。而对于反向神经网络,信号就从输出神经元传到输入神经元。 3 系统架构  本文实现了一个应用系统通过提取多人的声纹特征,建立简单的声纹特征库并通过匹配算法来达到特定人的声纹识别的目标。  本文通过分析声纹识别的过程和关键的技术,并结合公安领域中的声纹识别的应用需求。本文通过建立声纹识别的模型,对声纹识别系统中几个关键部分进行阐述,并对其在公安领域不同方面(电话网、英特网、移动通信网)中应用进行了分析,提出了相应的解决方法。  系统中声纹识别模型由语音信号采集和预处理、声纹特征的提取、声纹数据库建立和特定人特征匹配这几个部分组成。  (1)语音信号的采集和预处理:获得语音有多种方式,如电话上的语音、互联网中的音频流等等,具体的处理方式各有差异,需要根据不同的接收采集方式设计声纹识别系统。在预处理方面,由于声音经常受到实际中背景噪声、多说话人同时说话等因素的影响,因此需要得到一个相对“干净的”的语音,通常对信号进行频域和时域上的处理,包括信号层面上的增强、去噪等等处理,从而将信号与静音,信号与噪声区别开来。  (2)声纹特征提取:声纹特征的提取有多种方法,其中倒谱特征对于说话人的个性特征有很好的区分度,也是说话人识别的最有效特征之一。这里我们用美尔倒谱系数对说话人语音进行特征提取。美尔倒谱是现今流行的特征提取方法之一,基于人耳听觉特性,在低频区分度要优于高频,具有良好的声纹分辨特性。本文中的模型通过对一段语音进行处理,提取美尔倒谱系数,进行声纹特征的分析。  (3)基于神经网络的匹配算法。匹配算法,是影响说话人判定性能的重要因素。本文选用神经网络来进行匹配,神经网络系统具有高抗噪声性能和低错误率的优点,而且能够通过训练算法,使得系统能够持续优化和逼近最优值。神经网络算法一度因为结构复杂,计算量大而不被重视,后来随着计算机性能的不断提升,长时间训练和计算决策过程得到了大大的缩减,而且他的优点越来越受到重视,因此,现在神经网络在模式匹配中得到了越来越多的应用。本文通过建立声纹数据库、用神经网络的匹配算法判决的方法,经证明具有较好的匹配性能。  整个系统的框图如图3.1所示:      图3.1 声纹识别模型过程框图    3.1 语音信号的采集  语音信号的采集方式各有不同,但相同的是将语音信号转变为电信号,将模拟信号转变为数字信号。在这个过程中,大致要经过语音采样、量化和滤波这几个步骤。  语音采样:语音信号是一种时变的信号,它所占据的频率范围可达10KHz以上,但是绝大部分的语音范围都在5.7KHz以下,而且5.7KHz以下对语音的清晰度和可懂度起决定作用。  量化:量化是将语音的模拟信号转化为数字信号,量化的位数越高,其分辨率就越高,但相应的数据处理量就会增大。电话中的语音信号,一般采用8KHz采样,8位量化。在一些要求分辨率较高的场合,可以提高采样率并且增加量化位数。  滤波:滤波是对语音信号中的噪音或无关声音滤除,减少其他噪声的影响。从而使得语音信号更加“纯净”,一般使用的是一个带通滤波器,其下限截止频率一般为60Hz,上限截止频率可以取3400Hz。  输入语音的质量对语音识别性能的影响很大,在采集的过程中不可避免的会存在噪声。噪声可以是平稳噪声也可以是非平稳噪声,可以是来自环境的加性噪声也可以是由输入和输出电路系统引起的乘法性噪声。在户外等噪声较大的环境中,就必须对语音信号进行降噪处理。  3.2 语音信号的预处理  经过采集后的语音信号,还需要进行一些预处理来完成信号的处理,减少噪声对信号特征的影响,使得信号的特征更加明显。  预加重:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/oct(倍频程)衰减,所以求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此需要在对语音信号进行分析之前对其高频部分加以提升,使得信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析和声道参数分析,常用的预加重的公式为: ,其中a的取值为0.95。  端点检测:端点检测,即确定语音的起始端和结束端,在实际的处理中大都使用的是能量检测和过零率相结合的方法。其中过零率就是在一段时间内,信号波形穿过零电平的次数。而短时能量,就是指在一段时间内,信号幅度的平均值。既然说到了是一段时间,我们就要对语音信号进行加窗,选取一段语音数据进行处理。我们选的一种时间窗函数,可以是矩形窗,也可以是Hamming窗等。在这里我们设窗长度为N,过零率为ZCR,而短时能量为M,那么列出过零率ZCR和短时能量M的计算公式:,。  加窗与分帧:由于语音信号的特性,它在长时间内信号的特性是会变化的,而在短时间(如20~30ms内)信号的特征保持不变。这是因为发音器官是不断运动变化着的,相对来说,声音的产生比这种运动要慢,所以语音信号通常被认为是短时平稳的,这也就是语音信号的短时平稳性。正是由于这种特性,语音信号在处理的过程中都会分成一帧一帧的进行处理,这些短帧就像是有一个固定特性的片段一样。  3.3 声纹特征提取  MFCC是在Mel标度频率域提取出来的倒谱参数。Mel标度描述了人耳对频率感知的非线性特征,与频率之间的关系式为:   其中f为频率 ,单位Hz                       (3-20)  由于人耳的分辨率在20Hz(赫兹)~20000Hz(赫兹)之间,Mel频率的倒谱系数MFCC是根据人类听觉系统的特性出现的,人耳分辨声音频率的过程就像一种取对数的操作。为MFCC是根据人耳分辨声音的特性来研究语音识别的,因此MFCC比LPCC更能反映听觉特性,在语音识别系统中有着广泛的应用,是目前公认的性能最好的特征参数之一。  MFCC参数提取的过程可以分为以下的几个步骤: 预加重,减少尖锐噪声的影响,提高高频信号。例如,设为原始信号,则预加重可以为:                                   (3-1) 加Hamming窗,减少Jibbs效应。窗公式为:                               (3-2) ,其中是窗信号,是加窗后的信号。 对信号进行离散傅里叶变换(DFT)。 上面的频谱系数利用序列三角波滤波器进行滤波处理,得到一组系数。滤波器组中每个三角波滤波器的跨度在Mel标度上是相等的,计算mi的公式为:,其中     是三角滤波器的中心频率,满足:           (3-3) 利用离散余弦变换求的倒谱系数,其中P是说那叫滤波启动个数。倒谱系数的个数是12,由下式得出【3】                                (3-4) 如果是某一段语音信号或者是一个语音信号文件,则计算其中帧的归一化能量,以其作为特征矢量的第12维分量。 整个MFCC的计算过程可以用以下图来表示(图3.3)           图3.3 MFCC计算过程框图  3.4 神经网络匹配算法  人工神经网络(Artificial Neural Network,ANN)是模拟人脑神经组织的基础上发展起来的计算系统,有大量的计算单元通过丰富联结构成的网络。人工神经网络由大量的简单处理单元广泛连接而成的一个并行的处理网络系统。虽然每个神经元的结果和功能十分简单,但大量神经元构成的网络系统对知识的存储方式是分布式的,这种分布式并行处理的特性,使得神经网络具有很强的自组织和自学习能力,很强的分类能力和快速的输入输出映射能力,接近于人的生理听觉过程。  本文的模型中,使用了神经阵列网络和BP神经网络结合的方法,使得说话人识别的识别率得到很大的提高。其中,神经网络的识别率较高,但是训练时间长。本文使用神经阵列网络,可以将训练时间减少,使得系统更具有应用性。  我们在神经网络结构上用到了阵列网络的方式,在子网络中我们使用BP网络来进行两个模式的识别。  BP网络是一种前向神经网络,通常是基于误差反向传播算法(Back Propagation)的多层网络。此算法是现在神经网络中应用最为广泛的学习分类算法,其中神经元采用的是Sigmoid函数,这样就可以实现输入和输出之间的任意非线性映射,使得它能够模拟任何的非线性函数,在模式识别领域具有很好的性能。                           图3.4具有单隐层的BP神经网络  如图1.3所示,是一个具有单隐层的BP神经网络。可以看到:当隐层足够多的时候,可以逼近任意一个有限元的非线性函数。  BP网络具有很好的学习反馈机制,采用了误差反向传播算法,网络的权值和阀值是沿着网络误差变化的负梯度方向进行调节,最终使得误差达到最小值。  在语音识别中,我们选定BP网络,可以更好的逼近识别结果。  3.5 声纹特征库  对于鉴别说话人识别的应用效果,必须有一个完备的说话人语音数据库集。数据库是整个说话人识别研究的基础,一个好的数据库需要考虑发音人规范(语种、数量、年龄、教育水平、性别、地区分布等),数据采集环境规范(信道--固话、移动,环境—室内、室外、办公,…..)音段长短规范,声学及语音学特征平衡规范等方面的因素。  本文采用的是NIST2002的测试数据,美国国家标准及技术署(National Institute of Standard and Technology, NIST)从1996年其每年举办一度说话人识别评测,为参加者提供统一的电话语音测试平台,用来评估说话人识别技术的进步比赛。我们以其中单人说话人数据库作为实验。该数据库中有男声139人,女声191人,总计有3500段的语音进行测试,每段语音通过11个假定说话人的测试,总计大约38000次测试。  对于语音信号,首先经过去直流预加重(0.95),窗函数采用汉明窗。在抽取特征参数的同时,将特征参数与数据库中的说话人特征相比较,从中找出说话人具体是谁,整个过程如下图所示:    可以看到,说话人特征提取后,可以直接和数据库中说话人的特征进行比较,在比较的过程中,是用神经网络来进行说话人的识别。如果提取出来的特征和说话人特征库中的某个人特征相同,则可以判定为说话人,否则判断为未知说话人。   4 关键技术  4.1 神经阵列网络  人工神经网络是采用大量的简单处理单元连接起来的信息处理网络,其中处理单元与人脑神经元结构相似。实际上可以模拟任何非线性系统。尤其是对非特定人的语音识别,需要从大量语音数据中训练出特定人的语音模型。在公安系统应用中需要处理大规模人群,在这种情况下训练时间就会很长,从而影响神经网络方法的应用。为了解决这个问题,在人工神经网络方法中,提出了将大规模人群分解为小规模人群的组合,将大网络分为多个小网络的集成。将大网络分为几个小网络的方法很多,可以按照年龄、性别等等,因为分的子网络越小,那么识别就会更准确。我们在这里将N个人的说话人,分为每2个人一组的组合,那么N个人就被分成个子网络,那么当N继续增大的时候,我们就直接增加新的子网络就可以了,这就解决了重新分子网络的工作,而且减少了训练时间。  整个识别的神经网络结构如图4.4所示,把各个子网络排成N-1行N-1列,行号和列号分别是说话人的身份号,其中交叉点分别是该行和列所对应的两个说话人的子网络。由此可见,增加一个说话人,只需要增加N个子网络。                                 图4.1  神经网络群结构图  从图4.1可以看到,左边的纵列代表的是说话人的身份号,分别从2人、3人到N个人,第一列第一列表示的是1号说话人和2号说话人的判断,第二列第一行表示的是3号说话人和1号说话人的判断,依次类推。在识别的过程中,要对某一个子网络进行判决,需要由其所在行和列分别对应的两类模式训练,在识别的时候,需要对某一子网络做出是说话人A还是说话人B的判断,例如在3个说话人的判决过程中,需要进行的判断过程为:首先:2号说话人和1号说话人之间判断,对应图4.4中的第一行;接着3号说话人和1号说话人判断,3号说话人和2号说话人判断,对应着图4.1中的第二行;依次类推,那么每增加一个说话人,就会增加N-1个比较。我们从图4.1可以看出,在用神经网络进行识别的过程中,从上到下逐次进行搜索。每排除一个模式,就可以忽略所有与该模式有关的全部子网络;即如果排除说话人2,那么所有需要与说话人2进行比较的过程都可以排除。  在神经阵列网络中,由于各个子网络之间的连接关系比较复杂,而且子网络的数目非常多,为了快速的完成分类,我们就需要神经阵列网络的识别搜索算法,从中进行判决从而得出分类结果。  我们可以看到每个子网络都需要在行和列进行两类的模式训练,子网络通过识别做出是模式A还是模式B的结果。对于图4.1的网络结构中,首先从网络的顶层开始搜索,从上而下,从左到右,每排除一种模式,就放弃该模式的相关子网络,由于网络中每一层之比上面一层增加了一个子网络,所以每次搜索就排除网络中的一列,到最后搜索到某一层,该层仅剩下唯一的一个子网络,这样就的处理搜索后的结果就是识别后的结果。    4.2 改进的BP算法  BP算法是常用的一种神经网络算法,具有很强的局部搜索能力,应用十分广泛。但在实践中不可避免的存在一些缺陷,如收敛速度慢、在学习过程中易发生震荡等。针对这些不足,本文提出了BP神经网络的改进算法。  1、引入动量项  标准的BP算法实质上是一种简单的最速下降静态寻优算法,它没有考虑以前时刻的梯度方向,而只是跟据当前时刻的负梯度来修正权值,只是学习过程发生震荡,网络收敛缓慢,文献【20】提出了以下的改进算法:                      (4.2.1)  式中,、分别表示从神经元j到神经元i的链接强度在t+1时刻和t时刻的值,为动量项因子,是(0,1)之间的一个数,为学习速率,也是(0,1)之间的一个数;是神经元j在第t时刻的局部梯度;为神经元i在t时刻的输出。  该方法加入的动量项实质上相当于阻尼项,它见笑了学习过程的震荡趋势,改善了收敛性,这是一种性能很好的改进算法。  2、变步长法  标准的BP算法对学习速率的设置非常敏感,特别是对于一些复杂的系统,单一的固定不变的学习速率常常会使得网络的学习效果很不理想,主要是因为:较大的学习速率可以明显加快网络的收敛速度,但在接近误差极小的时候过大的学习速率可能会因权值调整幅度过大而导致网络震荡甚至不收敛;相反,学习速率太小又会极大地增加网络的训练时间,对实际应用而言是很不经济的。在网络实际训练过程中,应根据不同的误差变化动态的设置学习速率,以便能同时兼顾学习步长和网络的稳定性。一种可行的方法是:先给出一个的初始值,在迭代 过程中按误差E增减的情况来动态的调整的值:    式中,、为调整因子,1,1。当需要引入动量项,上式可以变为:                       (4.2.2) 5 实验及结果分析  本文采用的是NIST2002的测试数据。我们以其中单人说话人数据库作为实验。该数据库中有男声139人,女声191人,总计有3500段的语音进行测试,每段语音通过11个假定说话人的测试,总计大约38000次测试。数据帧长256点,帧移128点,预加重,加汉宁窗,同时逐帧计算20阶MFCC系数,从而形成语音的特征矢量序列。  神经网络的训练:神经阵列网络训练本质上式单个子网络的训练。而单个子网络的训练关键是确定隐层神经元数和训练时间长度的选择。由于说话人之间的相互可分性存在差异,因此我们给出可变的隐层神经元数。但是隐层的数目不可能无限增加,因此我们给出了统一的误差指标,当误差达到某一个值的时候,就可以认为隐层的数目足够了。  如图5.1所示,3个男性5秒时间的语音信号一阶倒谱系数的直方图,可以看到图中(a)、(b)说话人的分布比较接近,而与(c)区别较大,那么为了区分分布比较近的说话人,就需要较多的隐层,进过训练后,(a)、(b)之间的网络隐层有61个,而(a)、(c)之间仅仅需要一个隐层就够了【11】。                    图5.1 语音信号一阶倒谱系数图  对多个说话人分别进行语音识别后,结果表明说话人识别采用梅尔倒谱系数和神经阵列网络结合的方法,可以得到很高的识别率。由于梅尔倒谱基于人耳的听觉原理,能够很好的反映人语音的特点,具有很好的特征性。同时,我们采用神经网络阵列搜索算法,将判决解码的组合问题转换为简单的路径搜索问题,从而使得识别更加容易。在神经网络阵列中,由于每个子网络可以通过训练得到更高的识别率(通过增加隐层的方法),所以整个系统可以达到很高的识别率。同时,神经网络阵列和改进的BP神经子网络的方法,使得训练和识别的时间大大减少。 3 结论  本系统使用梅尔倒谱系数和神经阵列网络,充分考虑可能遇到的实际问题。在提取用户特征的基础上,将多个说话人识别的复杂问题转换为简单的快速搜索识别问题。同时,使用了神经阵列网络和改进的BP神经网络的方法,使得系统在对大规模人群的应用中,训练时间大大缩减,使得系统的时效性更强。同时由于神经网络本身具有很好的扩展性,在识别人数增加的情况下,可以不改变整个神经网络结构,仅增加子网络,就可以进行新的人群识别,系统的适应性更好。总的来说,系统综合采用了梅尔倒谱和神经阵列网络的方法,使识别系统更加符合应用的实际,具有较好的应用推广效果。                                 参考文献 Joseph P,Campbell. Speaker Recognition :A Tutorial. [J]. Proceedings of the IEEE ,1997,85(9):1437-1462 Hermansky H. Perceptual Linear Prediction(PLP) Analysis for Speech[J],JASA,1990,1738-1752 Huang,Jong Tai-Langl,Hsieh,Chi-Yi,The prompt of lip shape modification of cacology based on the speech evaluation techniques-A case of basic Chinese learining. 2008 Preprocessing Techniques for Voice-Print Analysis for Speaker Recognition, Dzati Athiar RamliSalina Abdul SamadAini Hussain, 5th Student Conference on Research and Development (SCOReD 2007), 2007 Security System Using Biometric Technology: Design and Implementation of Voice Recognition System (VRS) , Rozeha A. RashidNur Hija MahalinMohd Adib SarijariAhmad Aizuddin Abdul Aziz, 2008 International Conference on Computer and Communication Engineering (ICCCE 2008), vol.2 Identifying Voice Characteristic Among Various Ethenicities Through Spectrographic Analaysis And Acoustic Pharyngeometry,Randy HetheringtonJason RichmondAudio Engineering Society,d Audio Engineering Society International Conference 2008: "Audio Forensics: Theory and Practice" ,2008 VoizLock - Human Voice Authentication System using Hidden Markov Model, Jayamaha.R.G.Maduranga,MSenadheera,Maduri.R.RGamage,T.Nuwan.CWeerasekara, K.D. Pavithra BDissanayaka, Gayan AKodagoda, G. NuwanICIAFs,Information and Automation for Sustainability,ICIAFs,2008 4th International Conference on; Colombo,Sri Lanka Voice Recognition System for the Visually Impaired: Virtual Cognitive Approach,Halimah, B. Z.Azlina, A.Behrang, P.Choo, W. O.,3rd International Symposium on Information Technology (ITSim 2008),2008 Comparison of Different Implementations of MFCC,Zheng Fang Zhang Guoliang Song Zhanjiang, Department of Computer Science and Technology, Tsinghua University,Beijing 100084 ,P.R.China Speech Emotion Verification System (SEVS) Based On MFCC For Real Time Applications, Norhas linda Kamaruddin Abdul  Wahab, 4th International Conference on Intelligent Environments (IE 2008)  李晶皎,孙杰等.语音识别中HMM与自组织神经网络混合结合的混合模型【J】.东北大学学报,1999 王金明,张雄伟.基于MFCC和LSP混合的语音特征参数的技术研究【J】.计算机与信息技术,2007 惠博.语音识别特征提取算法的研究及实现【D】.西北大学,2008 王金明,张雄伟.基于MFCC和LSP混合的语音特征参数的技术研究【J】.计算机与信息技术,2007 郭武,戴礼荣,王仁华.结合基音周期与清浊音信息的动态梅尔倒谱参数.数据采集预处理,2007 朱浩冰,郭东辉.声纹识别系统原理及其关键技术.计算机安全,2007 张煜睿,常学义,冯涛.一种改进的LBG算法在声纹识别中的应用.上海第二工业大学学报,2007 杨阳,陈永明.声纹识别技术及其应用.电声技术,2007 殷启新,贾学明,彭宇.数字声纹识别技术在刑侦工作中的应用.计算机技术,2007 吕俊,前馈神经网络参数和结构的优化策略研究 南京:南京工业大学 2004
经管之家“学道会”小程序
  • 扫码加入“考研学习笔记群”
推荐阅读
经济学相关文章
标签云
经管之家精彩文章推荐