网页爬取PHP通用框架

2018-3-30 13:00 |来自: 互联网 424 0

摘要: 来源 /腾讯课堂Coding学院（ID：ke_coding）导语在项目中，为了快速扩充我们的资源，会经常需要借助爬虫来获取一些外部资源，爬过的站点也是两只手数不过来了，发现各个站点虽然数据元素不一样，但是中间的很多抓 ...

来源 /腾讯课堂Coding学院（ID：ke_coding）

导语

在项目中，为了快速扩充我们的资源，会经常需要借助爬虫来获取一些外部资源，爬过的站点也是两只手数不过来了，发现各个站点虽然数据元素不一样，但是中间的很多抓取的流程是可以复用的，比如页面获取、规则截取、代理请求、数据落地等，如果把这些过程都提取出来，做成通用能力，那其实可以为一次新站点的抓取需求节省很多时间，如果站点不是太过复杂，就只用关注需要提取数据的html结构特征，然后编写提取规则就可以了，最快能在一个小时内搞定一个站点的抓取。本框架借鉴了部分外网资源，并结合之前的抓取经验加入了自己的一些优化，现在提供的能力能满足大部分的需求，但也肯定会有一些站点场景会遇到这样那样的问题。

1、环境要求

1.必要要求：机器已安装PHP，且能访问外网；

2.可选要求：如果需要抓取到的数据直接录入数据库，需要安装Mysql；

2.包发布地址

http://yun.isd.com/index.php/package/versions/?product=qzone

声明：文章版权归原作者所有部分文章转自互联网如有侵权请联系 [邮箱地址] 删除