首页 ›存档› 技术 › 查看内容

Python爬虫基础知识：抓取糗百的项目实战及源码

2018-3-30 13:00 |来自: 互联网 285 0

摘要: 豌豆贴心提醒，本文阅读时间7分钟项目内容：用Python写的糗事百科的网络爬虫。使用方法：新建一个Bug.py文件，然后将代码复制到里面后，双击运行。程序功能：在命令提示行中浏览糗事百科。原理解释：首先， ...

豌豆贴心提醒，本文阅读时间7分钟

项目内容：

用Python写的糗事百科的网络爬虫。

使用方法：

新建一个Bug.py文件，然后将代码复制到里面后，双击运行。

程序功能：

在命令提示行中浏览糗事百科。

原理解释：

首先，先浏览一下糗事百科的主页：http://www.qiushibaike.com/hot/page/1

可以看出来，链接中page/后面的数字就是对应的页码，记住这一点为以后的编写做准备。

然后，右击查看页面源码：

观察发现，每一个段子都用div标记，其中class必为content，title是发帖时间，我们只需要用正则表达式将其“扣”出来就可以了。

明白了原理之后，剩下的就是正则表达式的内容了。

运行效果：

源码：

今日值班：马哥教育一号女神学习顾问，懂IT更懂IT男，爱美食也爱健身，可跟你探讨LOL代码神迹，也可教你正确的技术猿方法，据说其指导的学员薪资都挺高，陪伴是最长情的告白。

内容沟通、职业成长和课程学习，可添加学习顾问：

【扫一扫即可撩】

特别提醒

课程限时优惠：

Linux面授24期班：前20名优惠400元，仅剩2个席位

声明：文章版权归原作者所有部分文章转自互联网如有侵权请联系 [邮箱地址] 删除

上一篇：民间借贷利息法定算法完整版梳理（干货收藏）下一篇：5招教你用Python构建好玩的深度学习应用

相关分类