10-12 03:14 阅读 102

机器学习：数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder

LabelEncoder 和 OneHotEncoder 是什么

- 在数据处理过程中，我们有时需要对不连续的数字或者文本进行数字化处理。 - 在使用 Python 进行数据处理时，用 encoder 来转化 dummy variable（虚拟数据）非常简便，encoder 可以将数据集中的文本转化成0或1的数值。 - LabelEncoder 和 OneHotEncoder 是 scikit-learn 包中的两个功能，可以实现上述的转化过程。 - sklearn.preprocessing.LabelEncoder - sklearn.preprocessing.OneHotEncoder  复制代码

数据集中的类别数据

在使用回归模型和机器学习模型时，所有的考察数据都是数值更容易得到好的结果。 因为回归和机器学习都是基于数学函数方法的，所以当我们要分析的数据集中出现了类别数据(categorical data)，此时的数据是不理想的，因为我们不能用数学的方法处理它们。 例如，在处理男和女两个性别数据时，我们用0和1将其代替，再进行分析。 由于这种情况的出现，我们需要可以将文字数字化的现成方法。 复制代码

LabelEncoder 和 OneHotEncoder 的区别

具体代码

import pandas as pd from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.cross_validation import train_test_split # 读取数据 data_df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'                  'breast-cancer-wisconsin/wdbc.data', header=None) # 前面的数据是特征，最后一列是标签label x, y = data_df.values[:, :-1], data_df.values[:, -1] # 先实例化一个对象 encoder_x = LabelEncoder()  # 对标签进行类别数据数字化 y = encoder_x.fit_transform( y )

作者：HZ在掘金75963
链接：https://juejin.cn/post/7018066861132611591

推荐资源

Python全新顶级课程 Python网络爬虫+Python游戏开发项目+代码工具资料《大型网站系统与JAVA中间件实践》高清带目录PDF电子书下载开课吧web全栈架构师第16期(2020完结) Tiktok海外版抖音零基础实战课程第1期，掌握基础运营方法虚拟化高级架构实战课程 ESXI SAN组网与Docker架构实战课程带课件和Dockerfile 老男孩徐培成_大数据课程大数据高薪就业视频(全套) 价值600元的知识付费系统微课堂源码带一键同步功能带进600课程数据将项目做大做强的秘诀分钱赚钱术，正确的方法＋有效的执行力=快速赚钱 HBuilderX+uni-app开发的支持小程序、安卓、IOS的电商程序 S商学院文案课：14天朋友圈文案训练营，听了就会写，写了就会卖