首页 ›存档› 技术 › 查看内容

利用 Scikit Learn的Python数据预处理实战指南

2018-3-30 13:00 |来自: 互联网 300 0

摘要: 大数据文摘作品，转载要求见文末编译团队|姚佳灵吴怡雯黄念本文主要关注在Python中进行数据预处理的技术。学习算法的出众表现与特定的数据类型有密切关系。而对于没有经过缩放或非标准化的特征，学习算法则会 ...

大数据文摘作品，转载要求见文末

编译团队|姚佳灵吴怡雯黄念

本文主要关注在Python中进行数据预处理的技术。学习算法的出众表现与特定的数据类型有密切关系。而对于没有经过缩放或非标准化的特征，学习算法则会给出鲁莽的预测。像XGBoost这样的算法明确要求虚拟编码数据，而决策树算法在有些情况下好像完全不关心这些！

简而言之，预处理是指在你将数据“喂给”算法之前进行的一系列转换操作。在Python中，scikit-learn库在sklearn.preprocessing下有预装的功能。有更多的选择来进行预处理，这将是我们要探索的。

读完本文，你将具备数据预处理的基本技能并对其有更深入的理解。为了方便起见，我附上了进一步学习机器学习算法的一些资源，并且为更好地掌握这些概念，设计了几个小练习。

可用数据集

本文中，我使用了部分的贷款预测数据，缺失观测值的数据已被移除（需要数据的读者朋友，请在评论区留下电邮地址，我们会把数据发给你译者注）。

备注：贷款预测问题中，测试集数据是训练集的子集。

现在，让我们从导入重要的包和数据集开始。

#导入pandas

声明：文章版权归原作者所有部分文章转自互联网如有侵权请联系 [邮箱地址] 删除

上一篇：在 Linux 上使用 Python 和 Flask 创建你的第一个应用下一篇：2017年，我和Python Web有个约会！

相关分类