首页 存档 技术 查看内容

Python数据分析告诉你为何上海的二手房你都买不起

2018-3-30 13:00 |来自: 互联网 552 0

摘要: (点击上方数据取经团,可快速关注) 作者:数据取经团-王大伟 前言 都说上海的房价高的吓死人,用上海话说就是:“vang 尬高得哈撒特宁”,二手房都买不起,那这房价到底有多高呢?我们酷爱来数据分析一波。。。 环 ...

(点击上方数据取经团,可快速关注)

作者:数据取经团-王大伟

前言

都说上海的房价高的吓死人,用上海话说就是:“vang 尬高得哈撒特宁”,二手房都买不起,那这房价到底有多高呢?我们酷爱来数据分析一波。。。


环境

Python3.X

编辑器:Jupyter notebook

导入链家网爬取的二手房数据

import numpy as np
import pandas as pd
df = pd.read_excel('house_lianjia.xlsx')
df


......

数据初窥

查看数据信息(包括每个字段数据类型),数据条数,文件大小等

df.info()


查看数据前五行:

df.head()


这几百万的二手房看着有点吓人啊!

查看数据后五行:

df.tail()


我们可以看到‘梯户比例’一栏好像都是暂无数据

我们可以专门将这一栏数据拿出来查看:

df['梯户比例']


显示的都是暂无数据

为了确定是否所有都是暂无数据,我们可以使用如下办法:

df[df['梯户比例'] == '暂无数据']#把暂无数据的数据提取出来


......


取出了2871行,说明所有行的这栏都是暂无数据

删除无效的数据

那么,这一栏对我们数据分析没有意义,可以删去:

del df['梯户比例']#移除一栏

获得数据描述性统计

df.describe()

我们可以看一下数据的简单统计信息,从图中可以看出每个栏位数据的个数,不重复数据个数,出现最多的数据及其出现的次数

注意到最后一栏,进门朝向数据只有13个,这说明了数据缺失很严重,不考虑缺失值补齐,直接删除该栏数据:

del df['进门朝向'] #只有13个数据

发现缺失值

如果想看每个单元的缺失值,可以使用:

df.isnull()#哪些包含了缺失值


False表示没有缺失

当然,这样看起来非常难受,而且不直观

查看各字段是否有缺失值:

df.isnull().any()#是否有缺失值


这样,我们就能看到除了'房屋朝向'字段有缺失值,其他字段都没有缺失值。

我们想看看‘房屋朝向’字段有多少缺失值:

df.isnull().sum()#每个里有多少个缺失值


显示有13个缺失值

如果你对这个个数不敏感,我们可以看看缺失值的比例:

df.isnull().sum() / df.count()#缺失值比例 


‘房屋朝向’的缺失值只有0.45%左右

数据探索

我们想看看数据分布是怎样的

例如看一下二手房所在区的情况:

df['所在区'].value_counts()


浦东的二手房在售的最多,可能是因为浦东新区地大

看一下二手房房屋朝向的情况:

df['房屋朝向'].value_counts()


南和南北朝向的有很多,阳光充足

看一下房屋户型的情况:

df['房屋户型'].value_counts()


可以看出在售的二手房多为2室1厅1卫

看一下房屋类型的情况:

df['房屋类型'].value_counts()


说明公寓类型最多

筛选房屋信息

如果我们想看一下我们感兴趣的房屋,例如我想找3室1厅1卫的房屋,并且只看部分:

df[df['房屋户型'] == '3室1厅1卫'].head()


这些看起来都好奢侈好贵,我还是看看单身狗一室一厅的房子多少钱吧:

df[df['房屋户型'] == '1室1厅1卫'].head()

40 平米都要200 w!

当然你也可以使用and(

声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部