Day20 - 资料集介绍&语音特徵

我们所使用的资料集包含5类情绪: 愤怒(Angry)、强调(Emphatic)、中性(Neutral)、正面(Positive)及其余(Rest)(剩下情绪类别的总和)。
各类情绪的句数如表 1:

/ Angry Emphatic Neutral Positive Rest Total
训练集 881 2,093 5,590 674 721 9,959
测试集 611 1,508 5,377 215 546 8,257
Total 1,492 3,601 10,967 889 1,267 8,257

表1: 资料集各类别句数

因为五类情绪资料不平衡的关系,训练集及测试集上各类别的资料分布差异极大,因此辨识结果主要是使用未加权平均召回率(Unweighted Average recall, UA)作为评估的标准
https://chart.googleapis.com/chart?cht=tx&chl=UA%3D%5Cfrac%7B1%7D%7BC%7D%5Csum_%7Bi%3D1%7D%5E%7BC%7D%5Cfrac%7BA_%7Bii%7D%7D%7B%5Csum_%7Bj%3D1%7D%5E%7BC%7DA_%7Bij%7D%7D
其中,https://chart.googleapis.com/chart?cht=tx&chl=A_%7Bii%7D 为类别 i 被正确分类为类别 i 的句数,https://chart.googleapis.com/chart?cht=tx&chl=A_%7Bij%7D 为类别 i 被分类为类别 j 的句数,而C为总类别数(C = 5)。

与前面在做语音辨识相同,在做语音情绪辨识时也需要撷取语音特徵。在这边我们使用的是openSMILE这项工具,参考网站连结如下

https://www.audeering.com/research/opensmile/

撷取出来的特徵包含16个低阶参数(Low-Level Descriptors, LLDs)及其一阶导数12个泛函(Functionals)。16个低阶参数为(Day07 有详细介绍):

  • 梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)(1-12维)
  • 均方根能量(RMS energy)
  • 过零率(Zero Crossing Rate, ZCR)
  • 谐音噪音比(Harmonics- to-Noise Ratio, HNR)
  • 基本频率(fundamental frequency, F0)

12个泛函(Functionals)为:

  • 平均值(mean)、最大, 最小值(max, min)
  • 标准差(standard deviation)
  • 峰度(kurtosis)、偏移态(skewness)
  • 相对位置(relative position)、范围(range=max-min)
  • 两个线性回归系数(linear regression coefficients): offset, slope
  • 均方根误差(Mean Squared Error, MSE)

在後续的实作中,会将模型分为两种:

  1. 动态模型: 模型的输入特徵长度会随着语音的长度而变化,其特徵参数为对於每一个低阶参数并经过一阶导数,最後得到的特徵集为16 × 2 = 32 维特徵参数
  2. 静态模型: 模型的输入特徵长度固定,其特徵参数为对於每一个低阶参数,经过一阶导数计算後再经由12个泛函计 算,最後得到的特徵集为16 × 12 × 2 = 384 维特徵参数

有了资料集与语音特徵後,明天会介绍对资料集做前处理。


<<:  Day18:今天来聊一下使用Microsoft 365 Defender 缓和incidents

>>:  Day 30: DevOps完赛心得

Day 26 密码规则定义规划实作

根据GDPR第5条和CCPA§§1798.83(d)(E)(iii) 和 §§1798.91.04(...

Golang 转生到web世界 - 表单

Golang Golang表单的部分,需要使用两个档案的方案来demo 首先在资料夹中随意建立一个....

DAY18 - 踩坑纪录 : 填了坑又有新的坑

前言 铁人赛进入第十八天,今天原本是要开始讲网页前端的部分 没想到碰到自己挖的坑...所以这篇变成踩...

[Day22] - 介绍 LitElement 如何使用

今天我们来介绍一下 , 昨天说明的 Web Component 框架中的其中之一 - LitElem...