首页 存档 技术 查看内容

利用 Scikit Learn的Python数据预处理实战指南

2018-3-30 13:00 |来自: 互联网 299 0

摘要: 大数据文摘作品,转载要求见文末 编译团队|姚佳灵 吴怡雯 黄念 本文主要关注在Python中进行数据预处理的技术。学习算法的出众表现与特定的数据类型有密切关系。而对于没有经过缩放或非标准化的特征,学习算法则会 ...


大数据文摘作品,转载要求见文末

编译团队|姚佳灵 吴怡雯 黄念



本文主要关注在Python中进行数据预处理的技术。学习算法的出众表现与特定的数据类型有密切关系。而对于没有经过缩放或非标准化的特征,学习算法则会给出鲁莽的预测。像XGBoost这样的算法明确要求虚拟编码数据,而决策树算法在有些情况下好像完全不关心这些!



简而言之,预处理是指在你将数据“喂给”算法之前进行的一系列转换操作。在Python中,scikit-learn库在sklearn.preprocessing下有预装的功能。有更多的选择来进行预处理,这将是我们要探索的。


读完本文,你将具备数据预处理的基本技能并对其有更深入的理解。为了方便起见,我附上了进一步学习机器学习算法的一些资源,并且为更好地掌握这些概念,设计了几个小练习。


可用数据集

本文中,我使用了部分的贷款预测数据,缺失观测值的数据已被移除(需要数据的读者朋友,请在评论区留下电邮地址,我们会把数据发给你译者注)。


备注:贷款预测问题中,测试集数据是训练集的子集。


现在,让我们从导入重要的包和数据集开始。


#导入pandas

声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部