Day09 - 语音特徵正规化

当一个模型的训练资料和测试资料，彼此之间的资料分布有不匹配(mismatch)时，模型的性能会出现大幅的下降。为了减少问题的影响，我们对语音特徵做平均值以及变异数正规化(Cepstral Mean and Variance Normalization, CMVN)，让资料之间的分布更为相似。正规化计算方式如下
$https://chart.googleapis.com/chart?cht=tx&chl=%5Chat%7Bx%7D(i)%3D%5Cfrac%7Bx_%7Bt%7D(i)-%5Cmu(i)%7D%7B%5Csigma(i)%7D%2C%5C%201%5Cleq%20t%5Cleq%20T%2C1%20%5Cleq%20i%20%5Cleq%2039$
where
$https://chart.googleapis.com/chart?cht=tx&chl=%5Cmu(i)%3D%5Cfrac%7B1%7D%7BT%7D%5Csum_%7Bt%3D1%7D%5E%7BT%7Dx_%7Bt%7D(i)%2C%5C%201%5Cleq%20i%5Cleq%2039$
$https://chart.googleapis.com/chart?cht=tx&chl=%5Csigma%5E%7B2%7D(i)%3D%5Cfrac%7B1%7D%7BT-1%7D%5Csum_%7Bt%3D1%7D%5E%7BT%7D(x_%7Bt%7D(i)-%5Cmu(i))%5E%7B2%7D%2C%5C%201%5Cleq%20i%5Cleq%2039%20$

其中， $X=[x_{1},x_{2},...,x_{t},...,x_{T}]$ 表示一笔音档总共有 T 个音框， $x_{t}(i)$ 表示一个音框中第 i 维度的特徵， $\mu(i)$ 和 $\sigma^{2}(i)$ 表示第 i 维度特徵的平均值和变异数

使用 python 来实作 CMVN 正规化可以参考以下程序，epsilon 是为了避免分母为 0 的情况
data.shape[0]为资料笔数，data.shape[1] 即为特徵的维度(39)

import numpy as np
def CMVN(data):
    epsilon = 1e-10
	for i in range(data.shape[1]) :
	    mean = np.mean(data[:,i])
		stddev = np.std(data[:,i])
		for k in range(data.shape[0]) :
            data[k,i] = (data[k,i] - mean) / max(stddev, epsilon)
    return data

介绍完语音特徵与正规化前处理之後接着会说明我们的神经网路架构。

<<: 【第七天 - 常见文件泄漏】

>>: day6_Windows,Linux, MacOs 的虚拟化方案

Day09 - 语音特徵正规化

.NET Core第10天_搭配EF Core串联资料库Db First_使用EntityFramework执行检视的MVC控制器

前端工程师也能开发全端网页：挑战 30 天用 React 加上 Firebase 打造社群网站｜Day11 上传文章图片

[Android Studio 30天自我挑战] ListView 元件介绍

Day 29 : C语言 - 河内塔的程序递回执行顺序为何？

Day 29 Polymorphism

python os.walk鬼打墙

[ Day 19 ] 表单中的 Controlled Component

Day03 - 随意玩之 API 讯息内文以及 Sign

【D3】发现厨房不能用，需要更换厨房环境: 使用Python 3.8

云端定义 2