[Day10] 文本/词表示方式(一)-前言

一. 前言

在如今社群网路蓬勃的时代，从网路充斥着许多文字资料，要如何有效的分析文字让电脑可以知道我们喂进去的文字是什麽，所以才会有许多将文字、文章等转成数字、向量的方法。

方法其实已经有很多，像是BOW(Bag of word)、one-hot represtation、tf-idf等，今天拿到了一篇文章，要将文章输入 ML 模型，必须将句子或文章转换成电脑看得懂的样子(向量或数字)，但怎麽样表示才能真正代表这个句子或文章的意义呢？过去较长使用的方法为BOW(Bag of word)来表示一个句子或一个文本，但通常这样的表示会造成一些上下文或语意的流失，近期NLP的任务大致上都是先经过word embedding(词向量)层，再去做一些任务的预测，词向量在向量空间中，相同语意的词会靠很近，不同语意的词会离很远，如下图，此图来源如[1]所示，可以看到在不同词向量可以将食物的词聚再一起，旅游相关的词聚再一起:

若可以训练出一个具有代表性词的向量表示方式，更能让电脑更了解文章或句子的语意，目前的NLP在进行主要任务之前都会先做word embedding这个动作，这更凸显了其重要性，BERT的Fine tune其实也是相同的意思，先透过原本的BERT对句子文字进行编码，再Fine tune下游任务，而且效果也是很好~~

相关的word2vec、doc2vec的原理大家可以参考我之前写的这篇[2]~不想看也没关系，应该明天或後天就会写了XD。目前会以下列的主题为主来介绍词的相关表示方式:

BOW/TFIDF
共现矩阵
word2vec

今天主要只是介绍为何要使用这个技术~明天会开始探讨相关的方法~~

参考资料
[1] On word embeddings - Part 1
[2] 读paper之心得：word2vec 与 doc2vec

<<: 电子书阅读器上的浏览器 [Day10] 支援画面点击翻页

>>: Day4 决策树(Decision tree)

[Day10] 文本/词表示方式(一)-前言

{DAY 19} Pandas 学习笔记part.5

前端工程学习日记第7天

【Day22】立即函式（IIFE）

Day 15 conda 介绍与使用

Day 28 ~ AI从入门到放弃 - 猫狗辨识之三

Day18 - 汇入 excel-应用篇

Day 8. 版控很重要!

[Day 22] Node Event loop 1

Day_17 : 让 Vite 来开启你的Vue 之取得模板元素 ref

[Golang]GOROOT与GOPATH的说明-心智图