来源 /腾讯课堂Coding学院(ID:ke_coding)
导语
在项目中,为了快速扩充我们的资源,会经常需要借助爬虫来获取一些外部资源,爬过的站点也是两只手数不过来了,发现各个站点虽然数据元素不一样,但是中间的很多抓取的流程是可以复用的,比如页面获取、规则截取、代理请求、数据落地等,如果把这些过程都提取出来,做成通用能力,那其实可以为一次新站点的抓取需求节省很多时间,如果站点不是太过复杂,就只用关注需要提取数据的html结构特征,然后编写提取规则就可以了,最快能在一个小时内搞定一个站点的抓取。 本框架借鉴了部分外网资源,并结合之前的抓取经验加入了自己的一些优化,现在提供的能力能满足大部分的需求,但也肯定会有一些站点场景会遇到这样那样的问题。
2.可选要求:如果需要抓取到的数据直接录入数据库,需要安装Mysql;
|