Day 16 - [语料库模型] 04-断词工具比较 Jieba vs CKIP

我们前面说过,中文不像英文,字与字中间与空白相间,所以中文句子要搭配 TF-IDF 前,需要先经过适当的断词。中文断词领域最常见的两套工具就是 Jieba(结巴)和 CKIP 了。今天主要介绍我选择 CKIP 而非 Jieba 的原因。

Jieba 来自中国,而 CKIP 来自中研院,我们发现同样的句子,将「长」、「照」判断为两个词,而 CKIP 则是将「长照」视为一个词,可能原因是台湾与中国用语不同。考虑问答集中可能会有较多台湾用语,所以本研究最终选择使用中研院制作的 CKIP。

长照断词

接着分别以TF-IDF搭配Jieba和CKIP,比较以「长照」为关键字搜寻最接近的问句,使用Jieba断词的结果,系统找到的是「什麽是定点乾燥?」;使用CKIP断词的结果,系统找到的是「长照服务专线」。很明显使用CKIP断词,系统能找到更贴切的问句。

断词与TFIDF



<<:  DAY 18 『 画面间跳页传值 - Protocol And Delegate 』

>>:  大数据平台:丛集管理

第 8 天 迈出 RxJS 小小的一步|pipe、operators

前情提要 使用了 AsyncPipe 管道来取得所有英雄资料後,我们要在英雄资讯页面,传递参数来取得...

【Day 4】VSCode操作Github提取和推送

在VSCode操作Github提取 *於左方点选 【原始档控制】,点选【•••】 ,点选【提取、推送...

Day26 vue.js功能展示ep2之有"大麻"烦(cros跨域)

延续昨日 我们今天来完善功能测试 首先设一个runtest的function async runte...

Day 0x2 UVa11150 Cola

Virtual Judge ZeroJudge 题意 3瓶可乐换一瓶,可和朋友借一瓶 (需还),问...

Day 25 利用transformer自己实作一个翻译程序(七) Scaled dot product attention

Scaled dot product attention 前面有提到transformer需要3个矩...