Day 16 - [语料库模型] 04-断词工具比较 Jieba vs CKIP

我们前面说过，中文不像英文，字与字中间与空白相间，所以中文句子要搭配 TF-IDF 前，需要先经过适当的断词。中文断词领域最常见的两套工具就是 Jieba（结巴）和 CKIP 了。今天主要介绍我选择 CKIP 而非 Jieba 的原因。

Jieba 来自中国，而 CKIP 来自中研院，我们发现同样的句子，将「长」、「照」判断为两个词，而 CKIP 则是将「长照」视为一个词，可能原因是台湾与中国用语不同。考虑问答集中可能会有较多台湾用语，所以本研究最终选择使用中研院制作的 CKIP。

长照断词

接着分别以TF-IDF搭配Jieba和CKIP，比较以「长照」为关键字搜寻最接近的问句，使用Jieba断词的结果，系统找到的是「什麽是定点乾燥?」；使用CKIP断词的结果，系统找到的是「长照服务专线」。很明显使用CKIP断词，系统能找到更贴切的问句。

断词与TFIDF

本文同步发布在: https://dreambo4.github.io/2021/09/26/%E8%AA%9E%E6%96%99%E5%BA%AB%E6%A8%A1%E5%9E%8B-04-%E6%96%B7%E8%A9%9E%E5%B7%A5%E5%85%B7%E6%AF%94%E8%BC%83-Jieba-vs-CKIP/

<<: DAY 18 『画面间跳页传值 - Protocol And Delegate 』

>>: 大数据平台：丛集管理

【第27天】探讨与改善-增加训练样本(二)

杂谈

【Day8】 Introduction – while & for

杂谈

Day 25 优化你的广告帐户

杂谈

30天学会 Python: Day 15-用文字才好懂

杂谈

12 - Metrics - 观察系统的健康指标 (6/6) - 使用 Metricbeat 掌握 Infrastructure 的健康状态 AWS 篇

杂谈

第 8 天迈出 RxJS 小小的一步｜pipe、operators

前情提要使用了 AsyncPipe 管道来取得所有英雄资料後，我们要在英雄资讯页面，传递参数来取得...

【Day 4】VSCode操作Github提取和推送

在VSCode操作Github提取 *於左方点选【原始档控制】，点选【•••】，点选【提取、推送...

Day26 vue.js功能展示ep2之有"大麻"烦(cros跨域)

延续昨日我们今天来完善功能测试首先设一个runtest的function async runte...

Day 0x2 UVa11150 Cola

Virtual Judge ZeroJudge 题意 3瓶可乐换一瓶，可和朋友借一瓶 (需还)，问...

Day 25 利用transformer自己实作一个翻译程序(七) Scaled dot product attention

Scaled dot product attention 前面有提到transformer需要3个矩...