Day 14 - [语料库模型] 02-问答组合分类方式

还记得前几天用爬虫蒐集到的问答集吗? 今天我们要来帮这些问答组合分类哦!

名词定义:
问答组合: 指一组问题+回答,和其他有关於这个问答的相关资讯(来源URL、编号、分类)。
问答集: 多个「问答组合」组成问答集。

Why 为什麽要分类?

我们为什麽要把问答组合分类呢?
因为他可以帮助我们更精准地找到期望的问答组合。

例如,同样输入「我要申请长照」,如果没有选择分类,那就会找到「我家人急着要使用辅具,我可以先买再提出申请补助吗?」,可能的原因是,「长照」这个词已经在整个问答集里面出现太多次了,所以就变得不那麽重要。如果是选择「长照服务介绍与申请」分类,就会找到「如何申请长照服务及流程为何?」,比较符合我们想问的问题。可见将问答组合分类可以提高找到更相符问答组合的机会。

why

What 分成那些类?

经过整理问答组合可分为五类,分别是长照据点与机构、长照服务介绍与申请、辅具服务、外籍看护相关规范、长照人员培训与相关规范。使用者可事先选择要找哪一类的问题,系统会针对该类别的问答组合做搜寻,可找到与使用者输入的句子更相符的问题。经过分类後,各类别问答组合的数量,请参考表格。

chart

类别的分法,是有个资料来源是「台中市辅具资源整合网」,所以有很多辅具相关的问题,因此把他们分作一类。外籍看护相关规范的分类是因为生活经验中,常听到长辈在讨论相关问题,所以特别分出来。其他的分类则参考卫福部常见问题的分类。

编号 名称 说明 数量
1 长照据点与机构 关於各类长照据点与机构的说明、评监、相关法令 139
2 长照服务介绍与申请 不同长照服务介绍、申请资格、服务费用、规范 84
3 辅具服务 辅具租借或购买的资格、补助条件 48
4 外籍看护相关规范 外籍看护的申请资格、申请方式 8
5 长照人员培训与相关规范 长照人员培训规范、个案使用服务的认定 177
总计 456

How 如何分类?

目前都是采人工分类

单一类别与多个类别比较

分类过程中会发现有些题目可能同时属於两个甚至多个类别。为了比较两种分类方式,本研究将资料集复制了两份,一份只有单一类别,并尽量以问题的主要意图分类;另一份则是列出与问题相关的所有类别。

问答集:

分别以两个问句在单一类别与多个类别时,搜寻到的结果做比较。本研究选择两个不同场景可能会出现的问句,比对结果请参考下表。

  1. 「我想借辅具」,比较可能是由长者或其家属提出,且依常理可预期使用者询问时,会选择第 3 类别(辅具服务),而此类别在单一类别和多个类别搜寻结果是一样的。

    问句: 我想借辅具

类别 单一分类 多个类别
0 全部(所有分类) 我家人急着要使用辅具,我可以先买再提出申请补助吗?(3) 我家人急着要使用辅具,我可以先买再提出申请补助吗?(3)
1 长照据点与机构 提供辅具、交通接送或紧急救援之服务单位是否需设立长照机构?(1) 提供辅具、交通接送或紧急救援之服务单位是否需设立长照机构?(1)
2 长照服务介绍与申请 长照服务四包钱是什麽?我可以领到多少钱?(2) 长照服务四包钱是什麽?我可以领到多少钱?(2)
3 辅具服务 我家人急着要使用辅具,我可以先买再提出申请补助吗?(3) 我家人急着要使用辅具,我可以先买再提出申请补助吗?(3)
4 外籍看护相关规范 请问何谓可聘雇外籍家庭看护工之特定身障项目重度(或极重度)或监定向度?(4) 总则(给付五)_聘雇外籍看护工之长照需要者,特别是身心障碍者不应排除辅具及居家无障碍服务、交通接送等服务。(2;4)
5 长照人员培训与相关规范 EA01_为何多项辅具载明「本项辅具选配服务得由辅具销售人员迳行提供」?部分辅具为何不能短期租赁?如何运用二手辅具?(5) EA01_为何多项辅具载明「本项辅具选配服务得由辅具销售人员迳行提供」?部分辅具为何不能短期租赁?如何运用二手辅具?(3;5)

说明: 比对结果的问句後方括号内是该问句的类别,若有多个类别则以分号(;)区隔。

  1. 「已死亡,还可以申请辅具请款吗」,这问题有两种情况,一是家属不确定长者死亡後,原预计申请的辅具是否还能请领补助款;二是长照相关人员不确定,当长者死亡是否还能核定申请。此时不同身分者选择的类别可能不相同,家属可能会选择第 3 类别(辅具服务),而长照相关人员则可能选择第 5 类别(长照人员培训与相关规范)。在这种状况下,多个类别的分类方式确实可让使用者在第 5 类别找到答案。

    问句: 已死亡,还可以申请辅具请款吗

类别 单一分类 多个类别
0 全部(所有分类) 如果请款时,身障者已死亡,如何处理?(3) 如果请款时,身障者已死亡,如何处理?(3;5)
1 长照据点与机构 提供辅具、交通接送或紧急救援之服务单位是否需设立长照机构?(1) 提供辅具、交通接送或紧急救援之服务单位是否需设立长照机构?(1)
2 长照服务介绍与申请 使用长照居家服务需要付钱吗?(2) 家里有长辈行动不便,但不符合身障辅具补助资格,有其他的申请管道吗?(2;3)
3 辅具服务 如果请款时,身障者已死亡,如何处理?(3) 如果请款时,身障者已死亡,如何处理?(3;5)
4 外籍看护相关规范 雇主申请补发许可函,是否需要缴交审查费?(4) 雇主申请补发许可函,是否需要缴交审查费?(4)
5 长照人员培训与相关规范 点选评估总结确认後,量表内容还可以更改吗?(5) 如果请款时,身障者已死亡,如何处理?(3;5)

说明: 比对结果的问句後方括号内是该问句的类别,若有多个类别则以分号(;)区隔。
补充: 民众若需要申请辅具补助,应先提出申请,取得核定公文後,购买辅具才可补助。若有急需可先找辅具资源中心租借。(台中市辅具资源整合网, 2015)

有两个原因,使本研究最後选择「单一类别」的分类方式。

  1. 选择「所有类别」的时候可以发现,其实有蛮大的机率可以找到预期的问题,所以我们较推荐不知道如何选择分类时,可以选择「全部」(所有分类)。
  2. 分类过程中发现,虽然一个问题可能同时属於多个类别,但还是会比较偏向某个类别。以上述例子为例,「已死亡,还可以申请辅具请款吗」与辅具补助款相关,依旧比较偏向第 3 类别。

Why Not 为什麽不自动分类?

先说结论,我们试用过 K-means 自动分类问答组合,但机器的分类方式不一定适合人类。

K-means 又叫「K-平均演算法」,是一种常见的非监督式分类演算法。可以将点(资料)分为几个聚类,而每个点都属於离它最近的均值点的聚类(k-平均演算法, 2021)。

尝试使用微软的 Machine Learning Studio 将全部的问答组合分成 2、3、5 类,发现大概分成 2~3 类应该是比较刚好的,但因为人工分类时是分成五类,所以也把 K-means 分五类的效果拿来比较。

AzureKmeans_统整

下图中可以看到,最左边这栏(全部)是人工分类的结果。

  • 分两类,可以发现 K-means 的 Cluster 0,差不多是人工分类的第5 类、一半的第 2 类、第 3 类;cluster 1 大概是人工的第 1 类、一半的第 2 和第 4 类。
  • 分三类,K-means 把人工分类的第 5 类,拆分到 Cluster 0、Cluster 1;人工分类的第 2 类则分散在三个 Cluster 里。
  • 分五类的状况就更分散了,几乎每个人工分类的类别都被打散到各个 Cluster 中。

AzureKmeans与人工分类比较

虽然 K-means 也能分类,但是程序是依据句子中词语的相似性分类的,这种分类方式不一定适合人类。我们也发现我们只能称呼 K-means 的类别做 Cluster 0、Cluster 1,而很难以文字给一个 Cluster 订下名称。

当然 AI 技术如此发达,要做这种分类应该也是有方法,但本研究中,就只以 K-means 做测试。

参考资料



<<:  [火锅吃到饱-11] 锅好日 Good Day Pot 个人锅物吃到饱

>>:  Day 13: 人工智慧在音乐领域的应用 (AI作曲的历史发展)

Day 26 - 你有没有玩过LOL、特、CS、SF、枫之谷、APEX?

Game Intro 这个是我的游戏的最初设计图,其实算是蛮多游戏的总和。 CS、SF、特战英豪: ...

Day 24 - WooCommerce: 建立信用卡付款订单 (下)

昨天晚上完成了建立信用卡付款订单的主要逻辑,在操作购物车,进到结帐页面後,填写完收件人资料,按下结帐...

Day13. class_eval & instance_eval - 解答什麽是 MetaClass & Singleton

接下来介绍的章节,会使用到instance_eval, class_eval,加上我们已经在 Day...

D29. 学习基础C、C++语言

D29. C++字串 C++ string的特别用法 str.size():字串长度。 str.em...

Angular+Spring Boot API 处理股市资料-前言+认识Spring Boot(Day1)

我与Spring Boot的相识,在那堂讲述SSH架构配置课程後,依稀记得那是一个阳光灿烂的午後,我...