Day21 - 前处理: 语者正规化

前一天在说明使用的语音特徵时有提到，模型有静态模型跟动态模型两种。在训练静态模型时，因为资料集中的语音档是由不同人(语者，21名男性；30名女性)所录制的，因此我们会使用 cross-speaker histogram equalization(CSHE) 的方式来消除不同语者间的差异性并且只保留情绪的变异。CSHE 会将多个实际语者转换为一个虚拟语者，如此一来我们就能够得到一个虚拟语者的资料分布 $C_{Y}(y)$ ，接下来将每个实际语者的分布 $C_{X_{1}}(x), C_{X_{2}}(x),..., C_{X_{N}}(x)$ 都转换成虚拟语者的分布 $C_{Y}(y)$ ，流程如图 1。

图 1: CSHE流程图。 $C_{X_{1}}(x), C_{X_{2}}(x),..., C_{X_{N}}(x)$ 为 N 个实际语者的分布， $C_{Y}(y)$ 为一个虚拟语者的分布

正规化的方法为直方图均衡法(Histogram Equalization, HE)，直方图均衡法是将连续的特徵资料视为各自独立，并将这些资料转换到目标分布上。在此我们用 Y(y) 表示目标分布而 X(x) 表示原始特徵分布，p 表示原始特徵值，q 表示转换後的特徵值，转换的公式如下：
$\int_{x=-\infty}^{p}X(x)dx=\int_{y=-\infty}^{q}Y(y)dy$

我们分别计算 X(x) 与 Y(y) 的累积分布函数(Cumulative Distribution Function, CDF)，再
将原始特徵值转换至目标分布。

动态模型的部分，采用的特徵正规化方式与语音辨识相同，是使用 CMVN (Day09)。不过在Day09时我们是对每一维特徵做 CMVN，而现在则是对每一个语者中的每一维特徵做 CMVN，因此 CMVN的数学式会变成：
$https://chart.googleapis.com/chart?cht=tx&chl=%5Chat%7Bx%7D_%7Bt%7D%5E%7Bs%7D(i)%3D%5Cfrac%7Bx_%7Bt%7D%5E%7Bs%7D(i)-%5Cmu%5E%7Bs%7D(i)%7D%7B%5Csigma%5E%7Bs%7D(i)%7D%2C%5C%201%5Cleq%20t%5Cleq%20T%2C1%20%5Cleq%20i%20%5Cleq%2032%2C%201%20%5Cleq%20s%20%5Cleq%20S$
$https://chart.googleapis.com/chart?cht=tx&chl=%5Cmu%5E%7Bs%7D(i)%3D%5Cfrac%7B1%7D%7BT%7D%5Csum_%7Bt%3D1%7D%5E%7BT%7Dx_%7Bt%7D%5E%7Bs%7D(i)%2C%5C%201%5Cleq%20i%5Cleq%2032%2C%20%201%20%5Cleq%20s%20%5Cleq%20S$
$https://chart.googleapis.com/chart?cht=tx&chl=%5Csigma%5E%7Bs%7D(i)%3D%5Csqrt%7B%5Cfrac%7B1%7D%7BT-1%7D%5Csum_%7Bt%3D1%7D%5E%7BT%7D(x_%7Bt%7D%5E%7Bs%7D(i)-%5Cmu%5E%7Bs%7D(i))%5E%7B2%7D%7D%2C%5C%201%5Cleq%20i%5Cleq%2032%2C%201%20%5Cleq%20s%20%5Cleq%20S%20%20$

其中，S为语者总数(训练集: 26，测试集: 25)， $X^{s}=[x_{1}^{s}, x_{2}^{s},...,x_{T}^{s}]$ 表示语者 s 中共有 T 个音框， $x_{t}^{s}(i)$ 表示语者 s 中第 t 个音框的第 i 维特徵， $\mu^{s}(i)$ 表示语者 s 中第 i 维特徵所有音框的平均值， $\sigma^{s}(i)$ 表示表示语者 s 中第 i 维特徵所有音框的标准差。

明天我们将继续介绍前处理的部分：资料平衡与标签(label)调整。

<<: 30-18 之 DataSource Layer- DataMapper

>>: DAY18 - 档案处理 - 上传档案前需要知道的FormData

Day21 - 前处理: 语者正规化

[Day12] 注册API – urls之user app资料夹

[火锅吃到饱-18] 红亭回转麻辣锅 - 台中港三井Outlet - MITSUI OUTLET PARK Taichung #老四川

Android学习笔记02

DAY09 - [CSS] 页签与其他小事

鬼故事 - 我的密码是...

Day 26: KMS/Cloud HSM/Secrets Manager 傻傻分不清楚

<Day24> 什麽是上市、上柜、兴柜?什麽是ROD、IOC、FOK?

Swift纯Code之旅 Day24. 「各个TableViewHeader下的Cell显示(1)」

Day 23 - 绿专案管理(Green Project Management)

第 15 天有甚麽事先练再说( leetcode 019 )