Day05 - 端到端(end-to-end)语音辨识-CTC part 1

传统在做语音辨识需要事先标注每个音框的标签，这麽做会耗费庞大的时间，因
此研究人员 Alex Graves 提出 Connectionist Temporal Classification (CTC)，能够在训练神经网路
前，不需要对音框和标注之间做对齐(alignment)，也不需要结合隐藏式马可夫模
型(hidden Markov model)即可进行辨识。CTC提出一个新的概念：空白(blank)，用在
无法确定是哪种发音时，将预测结果映射到空白，这个作法可以让模型着重在各种发
音之间的差异性。当给定一个输入 x，长度为 T，输出的标注(label)集合 L，L 包含空
白， $y^{t}_{k}$ 表示在时间点(timestep) t 输出 k 的机率。接着假设每一个时间点之间的
输出机率是独立的，我们可以将网路输出 $\pi$ 的机率用以下公式表示

$P(\pi|x)=\prod_{t=1}^{T}y^{t}_{\pi_{t}}$

我们将 $\pi$ 称作路径(paths)， $\pi_{t}$ 是在路径 $\pi$ 时间点 t 时输出的标注。接着定义一个多
对一的函数 F，将所有可能的路径映射到 x 可能输出的序列，CTC 会先将在路径
连续重复的标注合并成一个，再删掉空白，得到这个输入 x 的输出序列 l，例如
$F(a-bb-c)=F(aa-b-c)=abc$
其中 - 表示空白

我们把所有映射後结果是 l 的路径 label( $\pi$ )，将其机率加总起来，作为输入 x 的输出序列是 l 的事後机率，以下面公式表示
$P(l|x)=\sum_{label(\pi)=l}P(\pi|x)=\sum_{label(\pi)=l}\prod_{t=1}^{T}y^{t}_{\pi_{t}}$

CTC 介绍的部份因内容较多所以会拆成两部分，以上就是第一部分的内容，隔天会再将剩下的部分补充说明完成~

<<: DAY2 安装 Docker

>>: 追求JS小姊姊系列 Day2 -- 谁说难搞的女生没朋友？

Day05 - 端到端(end-to-end)语音辨识-CTC part 1

认识CSS(四)：文字外观属性(css font)

Debian10安装iRedMail v1.2.1详细教程

ASP.NET C# - GridView -ButtonFiled & CommandName

Day 2 - 何谓 Rancher

学习笔记：一起进入 PixiJS 的世界 (五)

Day1 後端及PHP介绍

@Day15 | C# WixToolset + WPF 帅到不行的安装包 [安装包上的图片]

半透明的文字看板

【Day 18】QGIS

D30 第十七周 (回忆篇)