DAY30：赛後心得检讨

完赛检讨

资料处理
- 虽然我们有大致上把红框等杂讯去除掉，但我们还是没有完全把照杂讯清除乾净。
- YoloV4去框中文字，可是有些图片会被框失误，会浪费几张框错的图片，有组别是完全用手动去裁切字，虽花较多时间，但是效果会比较好，就是所谓人工智慧前的工人智慧啦。
- 人工标签中文字的label的时候，还是有眼花标签错的时候，例如＂士＂标成＂土＂等等。虽然笔数不多，但多少都会对模型带来影响。
图片样本数
- 图片样本数原图约快70000张，我们用mask的方式，给文字加上黑色方块，增加至约18万张。但样本数还是不够，有组别提出增加图片的方式，用文字搭配空白合成图片的方式，如下图，甚至第一名的组别用GAN去让电脑自动生成很像真实图片的合成图片（GAN方法我们还在研究中），这样可以轻松增加大量样本数。
资料不平衡
- 有些字的图片张数较少，例如＂仙＂只有14张，而丁有100张，送入模型训练时会有比例不同的问题。
- 例如＂士＂跟＂土＂，若＂土＂的图片较多，那＂士＂很有可能常态性的会被辨认为＂土＂。
- 解决方法
  - 利用上述所说的合成图去增加张数较少的字的样本数，例如每个字都补足200张。
  - 或者队友实测(传送门)，可以用keras内建的Keras class_weight（类别权重）去调整。模型训练时，样本较多的类别，权重低；样本较少的类别，权重高。
模型训练
- 首先硬体部分要先满足，当样本数更大量时，一个模型可能要练半天到一天都有可能。
- 在优化器搭配学习率的部分可以多加尝试，我个人都使用SGD优化器加上CosineAnnealing（余弦退火）去训练，但或许有更好的组合。
- 可以多尝试各种模型，例如我们组别练过VGG19、Xception、InceptionV4及DenseNet等等。