Day21 - 前处理: 语者正规化

前一天在说明使用的语音特徵时有提到,模型有静态模型动态模型两种。在训练静态模型时,因为资料集中的语音档是由不同人(语者,21名男性;30名女性)所录制的,因此我们会使用 cross-speaker histogram equalization(CSHE) 的方式来消除不同语者间的差异性并且只保留情绪的变异。CSHE 会将多个实际语者转换为一个虚拟语者,如此一来我们就能够得到一个虚拟语者的资料分布 https://chart.googleapis.com/chart?cht=tx&chl=C_%7BY%7D(y),接下来将每 个实际语者的分布 https://chart.googleapis.com/chart?cht=tx&chl=C_%7BX_%7B1%7D%7D(x)%2C%20C_%7BX_%7B2%7D%7D(x)%2C...%2C%20C_%7BX_%7BN%7D%7D(x) 都转换成虚拟语者的分布 https://chart.googleapis.com/chart?cht=tx&chl=C_%7BY%7D(y),流程如 图 1。

https://ithelp.ithome.com.tw/upload/images/20211003/20140944SIN4IJmvo4.png
图 1: CSHE流程图。https://chart.googleapis.com/chart?cht=tx&chl=C_%7BX_%7B1%7D%7D(x)%2C%20C_%7BX_%7B2%7D%7D(x)%2C...%2C%20C_%7BX_%7BN%7D%7D(x) 为 N 个实际语者的分布,https://chart.googleapis.com/chart?cht=tx&chl=C_%7BY%7D(y)为一个虚拟语者的分布

正规化的方法为直方图均衡法(Histogram Equalization, HE),直方图均衡法是将连续的特徵资料视为各自独立,并将这些资料转换到目标分布上。在此我们用 Y(y) 表示目标分布而 X(x) 表示原始特徵分布,p 表示原始特徵值,q 表示转换後的 特徵值,转换的公式如下:
https://chart.googleapis.com/chart?cht=tx&chl=%5Cint_%7Bx%3D-%5Cinfty%7D%5E%7Bp%7DX(x)dx%3D%5Cint_%7By%3D-%5Cinfty%7D%5E%7Bq%7DY(y)dy

我们分别计算 X(x) 与 Y(y) 的累积分布函数(Cumulative Distribution Function, CDF),再
将原始特徵值转换至目标分布。

动态模型的部分,采用的特徵正规化方式与语音辨识相同,是使用 CMVN (Day09)。不过在Day09时我们是对每一维特徵做 CMVN,而现在则是对每一个语者中的每一维特徵做 CMVN,因此 CMVN的数学式会变成:
https://chart.googleapis.com/chart?cht=tx&chl=%5Chat%7Bx%7D_%7Bt%7D%5E%7Bs%7D(i)%3D%5Cfrac%7Bx_%7Bt%7D%5E%7Bs%7D(i)-%5Cmu%5E%7Bs%7D(i)%7D%7B%5Csigma%5E%7Bs%7D(i)%7D%2C%5C%201%5Cleq%20t%5Cleq%20T%2C1%20%5Cleq%20i%20%5Cleq%2032%2C%201%20%5Cleq%20s%20%5Cleq%20S
https://chart.googleapis.com/chart?cht=tx&chl=%5Cmu%5E%7Bs%7D(i)%3D%5Cfrac%7B1%7D%7BT%7D%5Csum_%7Bt%3D1%7D%5E%7BT%7Dx_%7Bt%7D%5E%7Bs%7D(i)%2C%5C%201%5Cleq%20i%5Cleq%2032%2C%20%201%20%5Cleq%20s%20%5Cleq%20S
https://chart.googleapis.com/chart?cht=tx&chl=%5Csigma%5E%7Bs%7D(i)%3D%5Csqrt%7B%5Cfrac%7B1%7D%7BT-1%7D%5Csum_%7Bt%3D1%7D%5E%7BT%7D(x_%7Bt%7D%5E%7Bs%7D(i)-%5Cmu%5E%7Bs%7D(i))%5E%7B2%7D%7D%2C%5C%201%5Cleq%20i%5Cleq%2032%2C%201%20%5Cleq%20s%20%5Cleq%20S%20%20

其中,S为语者总数(训练集: 26,测试集: 25),https://chart.googleapis.com/chart?cht=tx&chl=X%5E%7Bs%7D%3D%5Bx_%7B1%7D%5E%7Bs%7D%2C%20x_%7B2%7D%5E%7Bs%7D%2C...%2Cx_%7BT%7D%5E%7Bs%7D%5D 表示语者 s 中共有 T 个音框,https://chart.googleapis.com/chart?cht=tx&chl=x_%7Bt%7D%5E%7Bs%7D(i) 表示语者 s 中第 t 个音框的第 i 维特徵,https://chart.googleapis.com/chart?cht=tx&chl=%5Cmu%5E%7Bs%7D(i) 表示语者 s 中第 i 维特徵所有音框的平均值,https://chart.googleapis.com/chart?cht=tx&chl=%5Csigma%5E%7Bs%7D(i) 表示表示语者 s 中第 i 维特徵所有音框的标准差。

明天我们将继续介绍前处理的部分:资料平衡标签(label)调整


<<:  30-18 之 DataSource Layer- DataMapper

>>:  DAY18 - 档案处理 - 上传档案前需要知道的FormData

Day 26: KMS/Cloud HSM/Secrets Manager 傻傻分不清楚

如果你有考过 AWS security specialty 证照你一定很常看到KMS/CloudHS...

<Day24> 什麽是上市、上柜、兴柜?什麽是ROD、IOC、FOK?

● 这章会简述及稍微解释一下上市、上柜、兴柜以及ROD、IOC、FOK的差别 首先,让我们再回顾一下...

Swift纯Code之旅 Day24. 「各个TableViewHeader下的Cell显示(1)」

前言 我们已经将TableView的Header给设置完毕了,那可以看到IPhone内建的画面: 两...

Day 23 - 绿专案管理(Green Project Management)

图片来源 继续延续前几篇的话题, 好巧不巧本月(2021年10月)刚出刊的专案经理杂志的封面故事,...

第 15 天 有甚麽事先练再说( leetcode 019 )

https://leetcode.com/problems/remove-nth-node-fro...