该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模,其中声学模型包括 CNN-CTC、GRU-CTC、CNN-RNN-CTC,语言模型包含 [transformer](https://jalammar.github.io/illustrated-transformer/)、[CBHG](https://github.com/crownpku/Somiao-Pinyin),数据集包含 stc、primewords、Aishell、thchs30 四个数据集。
本项目现已训练一个迷你的语音识别系统,将项目下载到本地上,下载 [thchs 数据集](http://www.openslr.org/resources/18/data_thchs30.tgz)并解压至 data,运行 `test.py`,不出意外能够进行识别,结果如下:
```
the 0 th example.
文本结果: lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xian1 huo2 xiu4mei4 shi1 yi4 ang4 ran2
原文结果: lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xian1 huo2 xiu4mei4 shi1 yi4 ang4 ran2
原文汉字: 绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然
识别结果: 绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然
```
若自己建立模型则需要删除现有模型,重新配置参数训练,具体实现流程参考本页最后。
## 2. 声学模型
声学模型采用 CTC 进行建模,采用 CNN-CTC、GRU-CTC、FSMN 等模型`model_speech`,采用 keras 作为编写框架。
- 论文地址:[http://www.infocomm-journal.com/ ... DFabs.jsp?id=166970](http://www.infocomm-journal.com/ ... DFabs.jsp?id=166970)
- tutorial:[https://blog.csdn.net/chinatelecom08/article/details/85013535](https://blog.csdn.net/chinatelecom08/article/details/85013535)
## 3. 语言模型
新增基于 self-attention 结构的语言模型`model_language\transformer.py`,该模型已经被证明有强于其他框架的语言表达能力。
基于深度学习的中文语音识别系统python程序源代码设计数据集声学模型和语言模型建模的.docx
(68.93 KB, 需要: RMB 29 元)
(100多MB的程序+数据文件压缩包)


雷达卡




京公网安备 11010802022788号







