首页 存档 技术 查看内容

Python爬虫基础知识:抓取糗百的项目实战及源码

2018-3-30 13:00 |来自: 互联网 272 0

摘要: 豌豆贴心提醒,本文阅读时间7分钟 项目内容: 用Python写的糗事百科的网络爬虫。 使用方法: 新建一个Bug.py文件,然后将代码复制到里面后,双击运行。 程序功能: 在命令提示行中浏览糗事百科。 原理解释: 首先, ...

豌豆贴心提醒,本文阅读时间7分钟



项目内容:

用Python写的糗事百科的网络爬虫。

使用方法:

新建一个Bug.py文件,然后将代码复制到里面后,双击运行。

程序功能:

在命令提示行中浏览糗事百科。

原理解释:

首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1

可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为以后的编写做准备。

然后,右击查看页面源码:

观察发现,每一个段子都用div标记,其中class必为content,title是发帖时间,我们只需要用正则表达式将其“扣”出来就可以了。

明白了原理之后,剩下的就是正则表达式的内容了。


运行效果:


源码:


今日值班:马哥教育一号女神学习顾问,懂IT更懂IT男,爱美食也爱健身,可跟你探讨LOL代码神迹,也可教你正确的技术猿方法,据说其指导的学员薪资都挺高,陪伴是最长情的告白。

内容沟通、职业成长和课程学习,可添加学习顾问:

【扫一扫即可撩】


特别提醒

课程限时优惠:

Linux面授24期班:前20名优惠400元,仅剩2个席位

声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系 [邮箱地址] 删除

路过

雷人

握手

鲜花

鸡蛋

相关分类

返回顶部