首页 存档 技术 查看内容

Python招聘信息爬取及可视化

2018-3-30 13:00 |来自: 互联网 860 0

摘要: 来自:Borg's Blog 链接:http://bigborg.github.io/2016/09/12/Scrapy-Pythonjobs/(点击尾部阅读原文前往) 程序猿自媒体已获转载授权 自学python的大四狗发现校招招python的屈指可数,为了确定有多少可能找到工 ...

来自:Borg's Blog

链接:http://bigborg.github.io/2016/09/12/Scrapy-Pythonjobs/(点击尾部阅读原文前往)

程序猿自媒体已获转载授权


自学python的大四狗发现校招招python的屈指可数,为了确定有多少可能找到工作,就用python写了个爬虫爬取招聘信息,数据处理,最后用R语言进行可视化呈现。


项目地址:Github Repohttps://github.com/BigBorg/Scrapy-playground求关注。


scrapy爬虫


python语言简单强大,虽然用urllib、beautifulsoup之类的包也可以写出爬虫,但是使用scrapy框架能够避免重复制造轮子,可以写尽可能少的代码实现。


以下就介绍爬虫核心的代码:


Item


首先需要定义你要爬取的是什么样的数据,在scrapy自动生成的项目文件里的items.py中定义爬取的数据。我爬取了招聘的岗位名称(title)、城市(company)、地址(location)和招聘信息的url:




Spider


爬虫自然是主体的逻辑部分,可以用scrapy的genspider子命令生成模板代码,还可以设置spider类型。此处用的最基础的spider.Spider类型。爬取的列表页是51job(51job好爬!)手动搜索全国python招聘信息得到的,通过观察可以发现它翻页是通过url里的参数实现的,因此写了个生成器生成每页对应的request。parse方法则是其实request对应的response默认的处理方法,在此用css选择器(这里应该是用浏览器工具直接生成的,实际应该不需要这么长)和正则表达式抽取出每一条招聘信息的地址,调用Request方法获得response再把response传给parse_item方法(这个方法是自定义的,不是scrapy默认支持的方法)处理。在parse_item方法中的response才是真正的每条招聘信息详情页。这里主要使用xpath选择器,因为不是前端不大熟悉css选择器。xpath和css选择器都可以在w3cschool找到教程,很短很快能看完。



Pipelines


Pipeline管道用于爬取到Item后的数据处理,虽然scrapy本身自带一些存储功能如CSV,但如果要自定义更复杂的处理存储可以在pipeline里实现,最主要是在process_item(self,item,spider)方法中实现。在这实现了两个pipeline,第一个是dropPipeline,用于判断爬取的Item招聘岗位标题中是否有python字串,如果没有就抛出DropItem异常丢弃Item。第二个pipeline实现了sqlite存储。注意在setting里设置好每个管道的顺序,先通过丢弃的管道剩下的再经过存储管道,否则丢弃就没有意义了。





middleware


其实上面代码能实现爬取存储了,不过我写了个没用上的middleware。middleware中间件就是用于处理request和response的,可以在request发出前对其进行处理,response收到后进行处理。写了一个自动切换http代理的中间件,本来想得是http代理从西刺网站抓取(代码仓库里有,用的selenium爬的),但是测试了下其实西刺网站代理很多是不能用的,所以最后干脆不用了~


数据处理


数据处理主要是用高德地图的api获取地理位置坐标,但因为在数据可视化阶段使用的可视化工具是不是国产的,而国内地图的经纬度又经过了加偏处理,所以还需要进一步转换成国际标准的经纬度,幸亏也有api可以用。在这一步还同时统计了每座城市的招聘数量,不过其实这个放最后用R语言统计好像更方便。具体代码就不贴了,太长,可以去github看。

R语言可视化


这个是最后的重头戏,其实R语言不是很精通,在coursera上上的约翰霍普金斯大学的数据科学系列课程,书上没有的干货很多,比如shiny,比如R语言包怎么写,分析报告怎么写,甚至用R写ppt怎么写,还有很多设计的项目可以实践。。。但是要在统计分析方面深入的话还是看书比较好,课上的有点快,特别是统计学那部分一个个概念分分钟扔给你,根本听不懂。。。由于实在没怎么学过统计学,并且爬取的信息也有限,所以这里只进行了可视化。


分析报告地址


抓取python招聘信息,获取经纬度,经纬度还需要进一步转换成国际标准,最后在地图上可视化。 最后产出的R语言写的可视化报告: 因为html文件比较大,两兆多,github网站国内网速又不是很快,如果加载过慢可以用七牛外链,还可通过rpub访问,后续更新可能不会更新七牛和rpub,代码仓库内 R-visualization 文件夹下的html文件会是最新版本。


由于报告是2.5M的html文件,所以加载会比较慢,而微信还给说是危险网站,无语。地址如下:七牛链接(http://7xshuq.com1.z0.glb.clouddn.com//githubrepo/scrapy/RAnalysis.html)、rpub(http://rpubs.com/Borg/208385)


rpub是一个专门用于发布R语言分析报告的网站。


大致可视化效果截图如下:


1. ggplot的条形图,用ggplotly后可交互,即可放大缩小、拖拽,鼠标悬停在条形图上还会显示具体的数据。


ggplot可以是R语言可视化最著名的包,下载量也是在所有R语言包中靠前的。而plotly是专门做数据可视化的,支持python、R、Matlab等(还是在公开课干货中看到的)。plotly包只要一个函数(ggplotly)就可以把普通的ggplot转换成可交互的图,可以放大缩小拖拽,鼠标经过时还会显示具体的数据。图中可见北上深广python招聘还是挺多的,北上都有两百多,而到深圳就只有90了,再后面就更少了。还是得去大城市机会比较多~




2. plotly的scatergeo图,圆圈大小代表数据大小,经过根号调整过大小,不然差距太大,小圆圈全都被覆盖了。右侧的四分位点击后是可以隐藏或者显示特定颜色的圆圈的。还有鼠标悬停在圆圈上同样会显示详细信息。plotly做可视化还是很好的,就是有些图片只有美国可以细分到州,其它国家还不能细分到省




3. leaflet地图则是另一个R语言包,同样是公开课看到的。地图上会显示每一个招聘信息的位置,点击后有职位名称和公司名称,职位名称还是个链接。leaflet地图还是很让人吃惊,竟然不用翻墙而且放大后地点还挺多的。要找离你最近的python招聘用这个图还是真的很不错的!




附:Scrapy 介绍


Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。


Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。


Scratch,是抓取的意思,这个Python的爬虫框架叫Scrapy,大概也是这个意思吧,就叫它:小刮刮吧。


Scrapy是一个为遍历爬行网站、分解获取数据而设计的应用程序框架,它可以应用在广泛领域:数据挖掘、信息处理和或者历史片(历史记录)打包等等


尽管Scrapy原本是设计用来屏幕抓取(更精确的说,是网络抓取)的目的,但它也可以用来访问API来提取数据,比如Amazon的AWS或者用来当作通常目的应用的网络蜘蛛



●本文编号283,以后想阅读这篇文章直接输入283即可。

●输入m可以获取到文章目录

相关推荐↓↓↓

算法与数据结构

推荐:《 声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除


路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部