很多模型只能够处理数字,所以当我们有类别变数的时候需要先转换成数字,而转换的方法有两种,
针对类别变数我们有两种方法可以处理:
label encoding: 单纯的把类别换成1,2,3...的数字,要注意这样的方法必须应用在ordinal data,也就是类别本身有大小区别,比如size大中小,可以换成123,因为类别可排序。
vectorize (one-hot encoding): 如果类别本身无法比较排序,那我们就只能使用one-hot encoding,也就是针对每个类别多增加一个栏位,并且用 0/1标是是否为该类别,如下图比如类别有不同颜色,那每个颜色都会变成新的一栏。
[reference]
https://towardsdatascience.com/building-a-one-hot-encoding-layer-with-tensorflow-f907d686bf39
分享一下这30天从无到有的学习下来的一点点心得 先说一下为什麽要学习Rust是因为最近比较红之外还有...
设定jupyter notebook import pandas as pd pd.plotting...
完整参考连结在底下 甚麽是网页快取? 想一想大型网站如FB、IG,或是虾皮等购物网站,如果一次有很多...
延续 Docker 启动 process 的主题,因 container 即 process,因此合...
前言 今天来优化 Day24 做的色码挑战器,主要增加的功能如下: 新增转换成RGBA 点选色码可以...