vectorize VS label encoded

很多模型只能够处理数字,所以当我们有类别变数的时候需要先转换成数字,而转换的方法有两种,
针对类别变数我们有两种方法可以处理:

  1. label encoding: 单纯的把类别换成1,2,3...的数字,要注意这样的方法必须应用在ordinal data,也就是类别本身有大小区别,比如size大中小,可以换成123,因为类别可排序。

  2. vectorize (one-hot encoding): 如果类别本身无法比较排序,那我们就只能使用one-hot encoding,也就是针对每个类别多增加一个栏位,并且用 0/1标是是否为该类别,如下图比如类别有不同颜色,那每个颜色都会变成新的一栏。

https://ithelp.ithome.com.tw/upload/images/20211002/20142004m3oSKKhTSm.png

[reference]
https://towardsdatascience.com/building-a-one-hot-encoding-layer-with-tensorflow-f907d686bf39


<<:  Day22 xib传值的小教室3

>>:  Day20 样式变化(动画4)

Rust-30天的心得

分享一下这30天从无到有的学习下来的一点点心得 先说一下为什麽要学习Rust是因为最近比较红之外还有...

Day 21 [Python ML、资料视觉化] 长条图和热度图

设定jupyter notebook import pandas as pd pd.plotting...

企业资料通讯Week5 (1) | Catche 网页快取

完整参考连结在底下 甚麽是网页快取? 想一想大型网站如FB、IG,或是虾皮等购物网站,如果一次有很多...

要如何在 container 里运行多个 process

延续 Docker 启动 process 的主题,因 container 即 process,因此合...

色码转换器再进化

前言 今天来优化 Day24 做的色码挑战器,主要增加的功能如下: 新增转换成RGBA 点选色码可以...