在今天的文章中我们会使用词正确率
来评估模型的效能,词正确率是由词错误率(Word Error Rate, WER)
转换後得到。为 了计算词错误率,我们将预测出的结果以及正确的结果计算其取代错误(Substitution error, S)
、删除错误(Deletion error, D)
、插入错误(Insertion error, I)
的数量,词错误率的计算方式如下:
其中 N 表示正确答案的总词数,因此词正确率就等於
我们将语音特徵不经过除噪模型,直接用於辨识得到的结果作为基准(baseline)
。在 Day09 时有提过会对语音特徵做 CMVN 正规化,并使用高斯混合模型(HMM-GMM) 和 CTC 模型作後端的语音辨识。baseline 结果如表 1、表 2,使用 AFE 特徵在乾净的训练资料下,HMM-GMM 的词正确率是83.17%,CTC 模型是84.91%,含有噪音的训练资料,HMM-GMM 和CTC 模型的词正确率分别是 91.77% 和 92.71% ;而在 MFCC 特徵方面,在乾净的训练资料下,HMM-GMM 的词正确率是78.32%,CTC 模型是78.31%,含有噪音的训练资料,HMM-GMM 和 CTC 模型的词正确率分别是 89.88% 和 90.77%。
语音特徵 | 辨识模型 | 词正确率 |
---|---|---|
AFE | HMM-GMM | 83.17% |
AFE | CTC | 84.91% |
MFCC | HMM-GMM | 78.32% |
MFCC | CTC | 78.31% |
表 1: 乾净的训练资料 baseline
语音特徵 | 辨识模型 | 词正确率 |
---|---|---|
AFE | HMM-GMM | 91.77% |
AFE | CTC | 92.71% |
MFCC | HMM-GMM | 89.88% |
MFCC | CTC | 90.77% |
表 2: 含有噪音的训练资料 baseline
从结果中可以发现,因为测试资料是含有噪音的,所以使用乾净的训练资料训练的模型词正确率会比使用含有噪音的训练资料来得差。
明天会将 baseline 的结果跟加入除噪模型後的结果做比较,了解除噪模型的效能。
>>: 【Day11】HomeFragment X RecyclerView X Firestore取/删除资料
Tooltip 元件主要用作提供一些协助资讯给用户 在 checklist 上的说明是只会发生在桌机...
目前设定的 Navbar 路由架构还算单纯,并且只有单层路径,但是当专案规模愈来愈大、功能类别拆分的...
简单设计一个库存与订单设计,用白话一点来说就是推一台购物车,购物车上可以放上各种商品,推去结帐时这台...
Rails 里常常出现的 Migration 又是什麽呢?大家常常误解他,让我们来认识一下他吧。 ...
本节是以 Golang 上游 7ee4c1665477c6cf574cb9128deaf9d009...