首页 ›存档› 技术 › 查看内容

为什么会有 pysipder？

2018-3-30 13:00 |来自: 互联网 306 0

摘要: 限时干货下载：添加微信公众号“数据玩家「fbigdata」” 回复【2】免费获取「完整数据分析资料，包括SPSSSASSQLEXCELProject!」来源:https://binux.blog/2014/11/introduction-to-pyspider/ 作者：binux （pre- ...

限时干货下载：添加微信公众号“数据玩家「fbigdata」”

回复【2】免费获取「完整数据分析资料，包括SPSS\SAS\SQL\EXCEL\Project!」

来源:https://binux.blog/2014/11/introduction-to-pyspider/

作者：binux

（pre-ipo新三板企业投资机会，请联系微.信.号：6048856）

pysipder 是一个很受欢迎的爬虫库，而且还是国人开发的。本文是该库的作者写的一篇介绍，说明了 pysipder 出现的始末。

缘起

pyspider 来源于以前做的一个垂直搜索引擎使用的爬虫后端。

我们需要从200个站点（由于站点失效，不是都同时啦，同时有100 在跑吧）采集数据，并要求在5分钟内将对方网站的更新更新到库中。

所以，灵活的抓取控制是必须的。同时，由于100个站点，每天都可能会有站点失效或者改版，所以需要能够监控模板失效，以及查看抓取状态。

为了达到5分钟更新，我们使用抓取最近更新页上面的最后更新时间，以此来判断页面是否需要再次抓取。

可见，这个项目对于爬虫的监控和调度要求是非常高的。

主要特性

python 脚本控制，可以用任何你喜欢的html解析包（内置 pyquery）
WEB 界面编写调试脚本，起停脚本，监控执行状态，查看活动历史，获取结果产出
支持 MySQL, MongoDB, SQLite
支持抓取 JavaScript 的页面
组件可替换，支持单机/分布式部署，支持 Docker 部署
强大的调度控制

由于功能太多，更多请参考脚本编写指南。

感谢 PhoenixNemo 提供的VPS，提供了一个 demo： demo.pyspider.org。无需安装即可体验。

脚本样例


from libs.base_handler import *
class Handler(BaseHandler):
  '''
  this is a sample handler
  '''
  @every(minutes=24*60, seconds=0)
  def on_start(self):
    self.crawl('http://scrapy.org/', callback=self.index_page)
  @config(age=10*24*60*60)
  def index_page(self, response):
    for each in response.doc('a[href^="http://"]').items():
      self.crawl(each.attr.href, callback=self.detail_page)
  def detail_page(self, response):
    return {
        "url": response.url,
        "title": response.doc('title').text(),
        }