我们前面说过,中文不像英文,字与字中间与空白相间,所以中文句子要搭配 TF-IDF 前,需要先经过适当的断词。中文断词领域最常见的两套工具就是 Jieba(结巴)和 CKIP 了。今天主要介绍我选择 CKIP 而非 Jieba 的原因。
Jieba 来自中国,而 CKIP 来自中研院,我们发现同样的句子,将「长」、「照」判断为两个词,而 CKIP 则是将「长照」视为一个词,可能原因是台湾与中国用语不同。考虑问答集中可能会有较多台湾用语,所以本研究最终选择使用中研院制作的 CKIP。
接着分别以TF-IDF搭配Jieba和CKIP,比较以「长照」为关键字搜寻最接近的问句,使用Jieba断词的结果,系统找到的是「什麽是定点乾燥?」;使用CKIP断词的结果,系统找到的是「长照服务专线」。很明显使用CKIP断词,系统能找到更贴切的问句。
<<: DAY 18 『 画面间跳页传值 - Protocol And Delegate 』
前情提要 使用了 AsyncPipe 管道来取得所有英雄资料後,我们要在英雄资讯页面,传递参数来取得...
在VSCode操作Github提取 *於左方点选 【原始档控制】,点选【•••】 ,点选【提取、推送...
延续昨日 我们今天来完善功能测试 首先设一个runtest的function async runte...
Virtual Judge ZeroJudge 题意 3瓶可乐换一瓶,可和朋友借一瓶 (需还),问...
Scaled dot product attention 前面有提到transformer需要3个矩...