还记得前几天用爬虫蒐集到的问答集吗? 今天我们要来帮这些问答组合分类哦!
名词定义:
问答组合: 指一组问题+回答,和其他有关於这个问答的相关资讯(来源URL、编号、分类)。
问答集: 多个「问答组合」组成问答集。
我们为什麽要把问答组合分类呢?
因为他可以帮助我们更精准地找到期望的问答组合。
例如,同样输入「我要申请长照」,如果没有选择分类,那就会找到「我家人急着要使用辅具,我可以先买再提出申请补助吗?」,可能的原因是,「长照」这个词已经在整个问答集里面出现太多次了,所以就变得不那麽重要。如果是选择「长照服务介绍与申请」分类,就会找到「如何申请长照服务及流程为何?」,比较符合我们想问的问题。可见将问答组合分类可以提高找到更相符问答组合的机会。
经过整理问答组合可分为五类,分别是长照据点与机构、长照服务介绍与申请、辅具服务、外籍看护相关规范、长照人员培训与相关规范。使用者可事先选择要找哪一类的问题,系统会针对该类别的问答组合做搜寻,可找到与使用者输入的句子更相符的问题。经过分类後,各类别问答组合的数量,请参考表格。
类别的分法,是有个资料来源是「台中市辅具资源整合网」,所以有很多辅具相关的问题,因此把他们分作一类。外籍看护相关规范的分类是因为生活经验中,常听到长辈在讨论相关问题,所以特别分出来。其他的分类则参考卫福部常见问题的分类。
编号 | 名称 | 说明 | 数量 |
---|---|---|---|
1 | 长照据点与机构 | 关於各类长照据点与机构的说明、评监、相关法令 | 139 |
2 | 长照服务介绍与申请 | 不同长照服务介绍、申请资格、服务费用、规范 | 84 |
3 | 辅具服务 | 辅具租借或购买的资格、补助条件 | 48 |
4 | 外籍看护相关规范 | 外籍看护的申请资格、申请方式 | 8 |
5 | 长照人员培训与相关规范 | 长照人员培训规范、个案使用服务的认定 | 177 |
总计 | 456 |
目前都是采人工分类
分类过程中会发现有些题目可能同时属於两个甚至多个类别。为了比较两种分类方式,本研究将资料集复制了两份,一份只有单一类别,并尽量以问题的主要意图分类;另一份则是列出与问题相关的所有类别。
问答集:
分别以两个问句在单一类别与多个类别时,搜寻到的结果做比较。本研究选择两个不同场景可能会出现的问句,比对结果请参考下表。
「我想借辅具」,比较可能是由长者或其家属提出,且依常理可预期使用者询问时,会选择第 3 类别(辅具服务),而此类别在单一类别和多个类别搜寻结果是一样的。
问句: 我想借辅具
类别 | 单一分类 | 多个类别 |
---|---|---|
0 全部(所有分类) | 我家人急着要使用辅具,我可以先买再提出申请补助吗?(3) | 我家人急着要使用辅具,我可以先买再提出申请补助吗?(3) |
1 长照据点与机构 | 提供辅具、交通接送或紧急救援之服务单位是否需设立长照机构?(1) | 提供辅具、交通接送或紧急救援之服务单位是否需设立长照机构?(1) |
2 长照服务介绍与申请 | 长照服务四包钱是什麽?我可以领到多少钱?(2) | 长照服务四包钱是什麽?我可以领到多少钱?(2) |
3 辅具服务 | 我家人急着要使用辅具,我可以先买再提出申请补助吗?(3) | 我家人急着要使用辅具,我可以先买再提出申请补助吗?(3) |
4 外籍看护相关规范 | 请问何谓可聘雇外籍家庭看护工之特定身障项目重度(或极重度)或监定向度?(4) | 总则(给付五)_聘雇外籍看护工之长照需要者,特别是身心障碍者不应排除辅具及居家无障碍服务、交通接送等服务。(2;4) |
5 长照人员培训与相关规范 | EA01_为何多项辅具载明「本项辅具选配服务得由辅具销售人员迳行提供」?部分辅具为何不能短期租赁?如何运用二手辅具?(5) | EA01_为何多项辅具载明「本项辅具选配服务得由辅具销售人员迳行提供」?部分辅具为何不能短期租赁?如何运用二手辅具?(3;5) |
说明: 比对结果的问句後方括号内是该问句的类别,若有多个类别则以分号(;)区隔。
「已死亡,还可以申请辅具请款吗」,这问题有两种情况,一是家属不确定长者死亡後,原预计申请的辅具是否还能请领补助款;二是长照相关人员不确定,当长者死亡是否还能核定申请。此时不同身分者选择的类别可能不相同,家属可能会选择第 3 类别(辅具服务),而长照相关人员则可能选择第 5 类别(长照人员培训与相关规范)。在这种状况下,多个类别的分类方式确实可让使用者在第 5 类别找到答案。
问句: 已死亡,还可以申请辅具请款吗
类别 | 单一分类 | 多个类别 |
---|---|---|
0 全部(所有分类) | 如果请款时,身障者已死亡,如何处理?(3) | 如果请款时,身障者已死亡,如何处理?(3;5) |
1 长照据点与机构 | 提供辅具、交通接送或紧急救援之服务单位是否需设立长照机构?(1) | 提供辅具、交通接送或紧急救援之服务单位是否需设立长照机构?(1) |
2 长照服务介绍与申请 | 使用长照居家服务需要付钱吗?(2) | 家里有长辈行动不便,但不符合身障辅具补助资格,有其他的申请管道吗?(2;3) |
3 辅具服务 | 如果请款时,身障者已死亡,如何处理?(3) | 如果请款时,身障者已死亡,如何处理?(3;5) |
4 外籍看护相关规范 | 雇主申请补发许可函,是否需要缴交审查费?(4) | 雇主申请补发许可函,是否需要缴交审查费?(4) |
5 长照人员培训与相关规范 | 点选评估总结确认後,量表内容还可以更改吗?(5) | 如果请款时,身障者已死亡,如何处理?(3;5) |
说明: 比对结果的问句後方括号内是该问句的类别,若有多个类别则以分号(;)区隔。
补充: 民众若需要申请辅具补助,应先提出申请,取得核定公文後,购买辅具才可补助。若有急需可先找辅具资源中心租借。(台中市辅具资源整合网, 2015)
有两个原因,使本研究最後选择「单一类别」的分类方式。
先说结论,我们试用过 K-means 自动分类问答组合,但机器的分类方式不一定适合人类。
K-means 又叫「K-平均演算法」,是一种常见的非监督式分类演算法。可以将点(资料)分为几个聚类,而每个点都属於离它最近的均值点的聚类(k-平均演算法, 2021)。
尝试使用微软的 Machine Learning Studio 将全部的问答组合分成 2、3、5 类,发现大概分成 2~3 类应该是比较刚好的,但因为人工分类时是分成五类,所以也把 K-means 分五类的效果拿来比较。
下图中可以看到,最左边这栏(全部)是人工分类的结果。
虽然 K-means 也能分类,但是程序是依据句子中词语的相似性分类的,这种分类方式不一定适合人类。我们也发现我们只能称呼 K-means 的类别做 Cluster 0、Cluster 1,而很难以文字给一个 Cluster 订下名称。
当然 AI 技术如此发达,要做这种分类应该也是有方法,但本研究中,就只以 K-means 做测试。
<<: [火锅吃到饱-11] 锅好日 Good Day Pot 个人锅物吃到饱
>>: Day 13: 人工智慧在音乐领域的应用 (AI作曲的历史发展)
Game Intro 这个是我的游戏的最初设计图,其实算是蛮多游戏的总和。 CS、SF、特战英豪: ...
昨天晚上完成了建立信用卡付款订单的主要逻辑,在操作购物车,进到结帐页面後,填写完收件人资料,按下结帐...
接下来介绍的章节,会使用到instance_eval, class_eval,加上我们已经在 Day...
D29. C++字串 C++ string的特别用法 str.size():字串长度。 str.em...
我与Spring Boot的相识,在那堂讲述SSH架构配置课程後,依稀记得那是一个阳光灿烂的午後,我...