前一天提到说 CTC 提出了一个新的概念: 空白(blank),但在最开始的 CTC 设计中是没有使用空白的,只有移除连续的相同字母,但是这样会产生两个问题:
在解码部份,理想上是以最大机率的序列 作为输入资料 x 的预测结果
CTC 在实作上有两个解码方法:最佳路径解码(Best path decoding)和前缀搜寻解
码(Prefix path decoding)。最佳路径解码的作法是选取机率最大的路径所对应到的序列
作为预测结果,如下:
而机率最大的路径可以透过串联每一个时间点最大机率的输出标注来得到,但是在
某些情况下这样的作法不一定会得到最佳解,如下图 1,若是选择机率最大的路径
会得到空白,但是输出是 'A' 的所有可能路径的总和却比'空白'的机率来的高。前
缀搜寻解码是透过沿着有效路径计算累积机率最大的作为预测结果,如下图 2,图
中的 X 和 Y 表示扩展节点,e 表示停止在其父节点。扩展节点上方的数字表示路径从
头到这点的机率。e 结点上方的数字表示停在其父节点的机率。我们将根(Root)视为
第0层,第一层的 Y 不往下扩展是因为同层的 X 和 X 下层的 Y 的机率都比他高。从Alex
Graves 的实验得知,前缀搜寻解码在预测上会比使用最佳路径解码还准确,但是所花费的时间以及计算量也比最佳路径解码还多。
图1: 使用最佳路径解码的问题。若是选择机率最大的路径会得到'空白' (图的右上算
式),但是输出是'A'的所有可能路径的机率总和却比输出'空白'的机率高(图的右下算
式)
图2: 前缀搜寻解码。X和Y表示扩展节点,e表示停止在其父节点。扩展节点上方的数字表示路径从头到这点的机率。e结点上方的数字表示停在其父节点的机率
在花了几天的时间说明介绍 end-to-end 相关的模型架构方法之後我们即将要进入实作的部分 ! 首先登场的会是语音特徵撷取与正规化的部分,那我们明天见 !
前言 昨天讲完了 manage.py 跟我们新加入的几个自订指令,今天我们还是离不开 manage....
Service是应用程序元件之一,它用於背景处理与使用者介面无关的长时间任务,即便切换到其他应用程序...
前言: 常常看到特效电影幕後花絮,都有请演员在绿幕前在录动作身上都有点点,在萤幕上变成火材人,姿态估...
这是我个人的使用偏好,而且是以抽象资料型别的使用方式来理解 vuex 的使用方式。也许,我是说也许...
前言 JS 30 是由加拿大的全端工程师 Wes Bos 免费提供的 JavaScript 简单应用...