前面提到过使用不同架构(FCDAE(3h),FCDAE(5h)
)的全连接神经网路除噪模型对两个语音特徵做除噪,效果如表 1、表 2。
语音特徵 | 辨识模型 | 方法 | 词正确率 |
---|---|---|---|
AFE | HMM-GMM | baseline | 83.17 |
AFE | HMM-GMM | FCDAE(3h) | 93.47 |
AFE | HMM-GMM | FCDAE(3h) + BN | 93.19 |
AFE | HMM-GMM | FCDAE(5h) | 93.98 |
AFE | HMM-GMM | FCDAE(5h) + BN | 93.77 |
AFE | CTC | baseline | 84.91 |
AFE | CTC | FCDAE(3h) | 92.26 |
AFE | CTC | FCDAE(3h) + BN | 92.06 |
AFE | CTC | FCDAE(5h) | 92.72 |
AFE | CTC | FCDAE(5h) + BN | 92.52 |
MFCC | HMM-GMM | baseline | 78.32 |
MFCC | HMM-GMM | FCDAE(3h) | 91.93 |
MFCC | HMM-GMM | FCDAE(3h) + BN | 91.74 |
MFCC | HMM-GMM | FCDAE(5h) | 92.44 |
MFCC | HMM-GMM | FCDAE(5h) + BN | 92.11 |
MFCC | CTC | baseline | 78.31 |
MFCC | CTC | FCDAE(3h) | 90.90 |
MFCC | CTC | FCDAE(3h) + BN | 90.73 |
MFCC | CTC | FCDAE(5h) | 91.40 |
MFCC | CTC | FCDAE(5h) + BN | 91.30 |
表 1: 乾净训练资料下两种除噪模型的实验结果,BN 表示在训练FCDAE有使用批量正规
化
语音特徵 | 辨识模型 | 方法 | 词正确率 |
---|---|---|---|
AFE | HMM-GMM | baseline | 91.77 |
AFE | HMM-GMM | FCDAE(3h) | 93.81 |
AFE | HMM-GMM | FCDAE(3h) + BN | 93.46 |
AFE | HMM-GMM | FCDAE(5h) | 94.00 |
AFE | HMM-GMM | FCDAE(5h) + BN | 93.93 |
AFE | CTC | baseline | 92.71 |
AFE | CTC | FCDAE(3h) | 93.89 |
AFE | CTC | FCDAE(3h) + BN | 93.64 |
AFE | CTC | FCDAE(5h) | 93.99 |
AFE | CTC | FCDAE(5h) + BN | 93.87 |
MFCC | HMM-GMM | baseline | 89.88 |
MFCC | HMM-GMM | FCDAE(3h) | 92.09 |
MFCC | HMM-GMM | FCDAE(3h) + BN | 91.77 |
MFCC | HMM-GMM | FCDAE(5h) | 92.58 |
MFCC | HMM-GMM | FCDAE(5h) + BN | 92.20 |
MFCC | CTC | baseline | 90.77 |
MFCC | CTC | FCDAE(3h) | 91.96 |
MFCC | CTC | FCDAE(3h) + BN | 91.74 |
MFCC | CTC | FCDAE(5h) | 92.62 |
MFCC | CTC | FCDAE(5h) + BN | 92.19 |
表 2: 含有噪音的训练资料下两种除噪模型的实验结果,BN 表示在训练FCDAE有使用批量正规
化
从结果可以发现不论是哪一种架构的 FCDAE,和 baseline 相比两个语音特徵的词正确率都有明显的上升,表示我们的模型确实达到除噪的效果。
首先我们先探讨两个语音特徵的除噪表现,使用 AFE 在乾净状态和多重状态最好的结果分别是 93.98% 和 94.00%,和基准实验相比分别有 64% 和 27% 的相对改善率;而使用 MFCC 在乾净状态和多重状态最好的结果分别是 92.44% 和92.62%,和基准实验相比分别有 65% 和 20% 的相对改善率。两者对於基准实验的相对改善率,在乾净状态几乎相同,在多重状态AFE高出 MFCC 约7%。
接着比较两种 FCDAE 的效能,首先是未使用批量正规化(BN)的实验,在相同的语音特徵和辨识模型下,FCDAE(5h)在乾净状态和多重状态的词正确率都比FCDAE(3h)高,我们可以得知在两者的网路参数量差不多的条件下,比较深层的模型表现比较好;而在有使用批量正规化(BN)训练两个模型的实验结果,和未使用的相比两个模型的词正确率都下降一些,在训练除噪网路的过程有观察到,使用批量正规化的损失(loss)函数值会很快收敛到一个定值就不再下降,而且数值会比未使用批量正规化的训练还要高,这表示网路倾向收敛到局部最小值,进而造成除噪能力下降。
语音辨识实作的部分就到今天了,我们在进入下个主题-语音情绪辨识
之前,要先向大家介绍语音辨识领域中相当有名而且功能强大的一套开源工具 — Kaldi
。
>>: Day_15 : 让 Vite 来开启你的Vue 之 Setup
案例说明及适用场景 会计流程,以其性质来说,应算是通用流程,藉案例分享,让大家认识如何使用 Odoo...
网址 : https://tryhackme.com/room/rrootme IP : 10.1...
前言 前面有说到,Go 语言承袭了许多 C 语言的传统,在指摽上也不例外,指标对 C 语言来说是学习...
相关依赖包 https://www.npmjs.com/package/jsencrypt // 私...
同为 Unix 系列的 macOS 可以完全相容上一篇使用 SDKMAN 安装 JDK 及 Grad...