[神经机器翻译理论与实作] 重新检视有无注意力机制的Encoder-Decoder

前言

今天是个美丽的错误,本来预计将昨日写好的 EncoderDecoderLuongAttention 类别整合进单一个继承自 tensorflow.keras.Model 的模型类别,只可惜一直无法成功除虫/images/emoticon/emoticon02.gif
由於 Keras API 是基於 Tensorflow 框架的高阶函式库,要自行定义模型类别,需要对於 Tensorflow 的变数型态有基本的掌握,今日就无法产出有质量的内容了。因此我後来还是选择了直接呼叫 Kerasfunctional APIs 来建模,并比较它们在同一份文本上预测精准度的差异。

seq2seq预测准确度比较

我们一样使用之前的英文-西班牙文双语平行语料库进行训练:

使用 Luong 注意力机制的 Encoder-Decoder 训练历程
https://ithelp.ithome.com.tw/upload/images/20211004/20140744cn9sPjoE6W.jpg

未使用 Luong 注意力机制的 Encoder-Decoder 训练历程
https://ithelp.ithome.com.tw/upload/images/20211004/201407440aCja8bOMc.jpg

结语

关於 Seq2Seq 的专篇讨论就到此告一段落,明天我将会重新回溯资料的准备以及机器学习的训练及推论流程,并着手进行中文-英文语料库的文本处理,建立翻译器所需之训练资料。大家晚安!

阅读更多

  1. Making new Layers and Models via subclassing

<<:  Day 19 网页分析 - Web Application Analysis (Wapiti)

>>:  上传档案 - day19

[访谈] APCS x 资讯科学班 tom1484

最後一位邀请到来自附中资讯科学班的 Tom 来分享~ 影片连结:https://youtu.be/b...

【Day29】Git 版本控制 - GitBook 使用教学

首先,先前往官网,可以透过 GitHub 登入连结帐号。 登入以後,可以看到我们有一个 Spaces...

[Day27] CH13:画出你的藏宝图——图形使用者介面

终於来到我们最後一个主题了,今天我们要介绍的是图形使用者介面(graphical user inte...

day12 轻松一下,用 coroutine 接个 restful api

鉴於我文章越写越长,偏离了我原本想让人轻松阅读的感觉,决定写个新手实用,以coroutine接个re...

[Day18] Null byte Injection

前言 %00 正文 概念 Null byte Injection是一种将Null Byte(如%00...