[DAY 13]Discord频道对话文字云分析

先前的功能需求都是自己需要才做的

所以今天就来做个工会频道的文字云了解一下我们频道常聊的主题是什麽看看能不能透过bot来解决他们的问题

步骤

先从频道上收集所有对话开始，最快抓取资料的方式是使用google扩充功能来完成，装好後到网页版discord点击右上角刚刚的扩充功能图标後会出现要抓取的频道以及抓取的日期范围，我是抓大概快两年的时间，要注意得维持页面直到转出为止

excel的输出结果:

爬下来的资料笔数为7810笔，这扩充功能还很贴心的告诉我们哪笔对话是BOT，Mentions栏位是指该对话有@别人，Attachments是该对话有上传附件档案，整体看下来是个相当乾净的资料，希望我们公司资料也能这麽乾净就好了ㄎㄎ

接下来开始先初步的清洗资料，清的对象有以下几点:
- BOT对话还有我的对话
- Content栏位里是空值的笔数
- 由於工会频最常见的是新成员要告诉管理员ID，ID只会是英文，再加上我们公会没有歪国人，所以对Content栏位里筛选出有中文的笔数
清完後的笔数为6482笔，接下来就是对聊天内容进行断词及辨识词性，断词的套件我推荐用CkipTagger，照连结的安装就可以了大家可以试试，比较可能会遇到问题的是不知道里面词性代表的意思是什麽，可以从这个连结查询

怕字数不够放个清整时的程序码，我只提取跟名词有关的词性

import pandas as pd
from ckiptagger import data_utils, construct_dictionary, WS, POS, NER


if __name__ == '__main__':
    rdf = pd.read_excel("chathistory.xlsx",engine='openpyxl')
    df = rdf[(rdf["Is bot"]=="No")&(rdf["Author username"]!="joe_美国爸爸ㄧ岛")]
    df.dropna(subset=["Content"],inplace=True)
    #对Content栏位里筛选出有中文的笔数
    chinese_pattern = '[\u4e00-\u9fa5]+'
    df = df[df['Content'].str.contains(chinese_pattern,regex=True)]
    
    ws = WS(r"./data")
    pos = POS(r"./data")
    ner = NER(r"./data")

    sentence_list = df['Content'].tolist()
    
    word_sentence_list = ws(sentence_list)
    pos_sentence_list = pos(word_sentence_list)
    entity_sentence_list = ner(word_sentence_list, pos_sentence_list)
    pos_list = ["Na","Nb","Nc","Ncd","Nd"]
    clean_list = []
    for i, sentence in enumerate(sentence_list):
        # print_word_pos_sentence(word_sentence_list[i],  pos_sentence_list[i])
        assert len(word_sentence_list[i]) == len(pos_sentence_list[i])
        for word, pos in zip(word_sentence_list[i], pos_sentence_list[i]):
            if pos in pos_list:
                # print("word")
                clean_list.append(word)
    with open("fout.txt", "w",encoding="utf-8") as fout:
        print(*clean_list, sep="\n", file=fout)