Day20 - 资料集介绍&语音特徵

我们所使用的资料集包含5类情绪: 愤怒(Angry)、强调(Emphatic)、中性(Neutral)、正面(Positive)及其余(Rest)(剩下情绪类别的总和)。
各类情绪的句数如表 1：

/	Angry	Emphatic	Neutral	Positive	Rest	Total
训练集	881	2,093	5,590	674	721	9,959
测试集	611	1,508	5,377	215	546	8,257
Total	1,492	3,601	10,967	889	1,267	8,257

表1: 资料集各类别句数

因为五类情绪资料不平衡的关系，训练集及测试集上各类别的资料分布差异极大，因此辨识结果主要是使用未加权平均召回率(Unweighted Average recall, UA)作为评估的标准
$https://chart.googleapis.com/chart?cht=tx&chl=UA%3D%5Cfrac%7B1%7D%7BC%7D%5Csum_%7Bi%3D1%7D%5E%7BC%7D%5Cfrac%7BA_%7Bii%7D%7D%7B%5Csum_%7Bj%3D1%7D%5E%7BC%7DA_%7Bij%7D%7D$
其中， $A_{ii}$ 为类别 i 被正确分类为类别 i 的句数， $A_{ij}$ 为类别 i 被分类为类别 j 的句数，而C为总类别数(C = 5)。

与前面在做语音辨识相同，在做语音情绪辨识时也需要撷取语音特徵。在这边我们使用的是openSMILE这项工具，参考网站连结如下

https://www.audeering.com/research/opensmile/

撷取出来的特徵包含16个低阶参数(Low-Level Descriptors, LLDs)及其一阶导数与12个泛函(Functionals)。16个低阶参数为(Day07 有详细介绍):

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)(1-12维)
均方根能量(RMS energy)
过零率(Zero Crossing Rate, ZCR)
谐音噪音比(Harmonics- to-Noise Ratio, HNR)
基本频率(fundamental frequency, F0)

12个泛函(Functionals)为:

平均值(mean)、最大, 最小值(max, min)
标准差(standard deviation)
峰度(kurtosis)、偏移态(skewness)
相对位置(relative position)、范围(range=max-min)
两个线性回归系数(linear regression coefficients): offset, slope
均方根误差(Mean Squared Error, MSE)

在後续的实作中，会将模型分为两种：

动态模型: 模型的输入特徵长度会随着语音的长度而变化，其特徵参数为对於每一个低阶参数并经过一阶导数，最後得到的特徵集为16 × 2 = 32 维特徵参数
静态模型: 模型的输入特徵长度固定，其特徵参数为对於每一个低阶参数，经过一阶导数计算後再经由12个泛函计算，最後得到的特徵集为16 × 12 × 2 = 384 维特徵参数

有了资料集与语音特徵後，明天会介绍对资料集做前处理。

<<: Day18:今天来聊一下使用Microsoft 365 Defender 缓和incidents

>>: Day 30: DevOps完赛心得

Day20 - 资料集介绍&语音特徵

[DAY16]离不开键盘的铁粉必备-k9s

# Day35 Golang - Google Sheet 试算表应用 (Spreadsheet)

Flutter体验 Day 19-InheritedWidget

自动化测试，让你上班拥有一杯咖啡的时间 | Day 1 - 前言

【图解演算法教学】Bubble Sort 的大队接力赛

Day 26 密码规则定义规划实作

Golang 转生到web世界 - 表单

以Postgresql为主,再聊聊资料库应用递回加快 count distinct 的等效查询

DAY18 - 踩坑纪录 : 填了坑又有新的坑

[Day22] - 介绍 LitElement 如何使用