Day03 - 端到端(end-to-end)语音辨识

在前一天的最後有提到说透过类神经网路(DNN)使得从输入端到输出端只透过一个模型就完成语音辨识，像这样的方法我们称作端到端(end-to-end)。目前常见的方法有 Sequence to sequence (Seq2seq) 和 Connectionist Temporal Classification(CTC)。

Seq2seq 顾名思义就是输入一个序列，模型会输出另一个序列，这种模型架构最重要的地方在於输入序列跟输出序列的长度是可变动的。Seq2seq 模型主要包含了 encoder, decoder ，因此也被称作 encoder-decoder framework，基本架构如下图:

Seq2seq 架构图，图片来源: https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/

Encoder 与 decoder 通常会采用递回神经网路(RNN)的架构，以上图的例子就是采用 GRU (Gate Recurrent Unit)。

Encoder 是负责处理输入的序列转换成机器能够理解的 encoder state (也被称为 context vector, thought vector)，而decoder 再将 encoder state 解码成最後预测输出的文字序列。

context vector 可以理解成是一个包含所有输入序列讯息的向量并且负责 encoder 与 decoder 之间讯息的传递，在实际神经网路的运作过程中，context vector 也就是 encoder 中的最後一个 hidden state (如上图encoder最後一个GRU的输出)。因此 encoder 会将输入序列转换、压缩成固定长度的 context vector。但如果输入的序列的长度较长的话，固定长度的 context vector 所产生的辨识效果就会变差，为了解决此问题，研究人员研究出了注意力模型 (attention model)。
今天的内容就到这边了，明天将会来介绍注意力模型(attention model)。

<<: Day15，设定一下Ingress

>>: 计画赶不上变化的第一篇

Day03 - 端到端(end-to-end)语音辨识

Angular 深入浅出三十天：表单与测试 Day17 - E2E 自动化测试工具简介

[Day20] - Vue 的 Html 字串处理 ( Html String to Ast Object )

Day25 X ESR: Rendering On The Edge

Day 05 CSS <基础选择器>

Day 26. slate × Normalizing × normalizeNode

成衣裁剪计划

Day15 互动式CSS按钮动画(下)

Day4 参加职训(机器学习与资料分析工程师培训班)，记录学习内容(6/30-8/20)

[Day22] 网格交易机器人-报价接收

Swift 新手－使用者介面（UX/UI/Core）