(点击上方数据取经团,可快速关注) 作者:数据取经团-王大伟 前言都说上海的房价高的吓死人,用上海话说就是:“vang 尬高得哈撒特宁”,二手房都买不起,那这房价到底有多高呢?我们酷爱来数据分析一波。。。 环境Python3.X 编辑器:Jupyter notebook 导入链家网爬取的二手房数据
...... 数据初窥查看数据信息(包括每个字段数据类型),数据条数,文件大小等
查看数据前五行:
这几百万的二手房看着有点吓人啊! 查看数据后五行:
我们可以看到‘梯户比例’一栏好像都是暂无数据 我们可以专门将这一栏数据拿出来查看:
显示的都是暂无数据 为了确定是否所有都是暂无数据,我们可以使用如下办法:
...... 取出了2871行,说明所有行的这栏都是暂无数据 删除无效的数据那么,这一栏对我们数据分析没有意义,可以删去:
获得数据描述性统计
我们可以看一下数据的简单统计信息,从图中可以看出每个栏位数据的个数,不重复数据个数,出现最多的数据及其出现的次数 注意到最后一栏,进门朝向数据只有13个,这说明了数据缺失很严重,不考虑缺失值补齐,直接删除该栏数据:
发现缺失值如果想看每个单元的缺失值,可以使用:
False表示没有缺失 当然,这样看起来非常难受,而且不直观 查看各字段是否有缺失值:
这样,我们就能看到除了'房屋朝向'字段有缺失值,其他字段都没有缺失值。 我们想看看‘房屋朝向’字段有多少缺失值:
显示有13个缺失值 如果你对这个个数不敏感,我们可以看看缺失值的比例:
‘房屋朝向’的缺失值只有0.45%左右 数据探索我们想看看数据分布是怎样的 例如看一下二手房所在区的情况:
浦东的二手房在售的最多,可能是因为浦东新区地大 看一下二手房房屋朝向的情况:
南和南北朝向的有很多,阳光充足 看一下房屋户型的情况:
可以看出在售的二手房多为2室1厅1卫 看一下房屋类型的情况:
说明公寓类型最多 筛选房屋信息如果我们想看一下我们感兴趣的房屋,例如我想找3室1厅1卫的房屋,并且只看部分:
这些看起来都好奢侈好贵,我还是看看单身狗一室一厅的房子多少钱吧: df[df['房屋户型'] == '1室1厅1卫'].head()
40 平米都要200 w! 当然你也可以使用and( |
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|