首页 ›存档› 技术 › 查看内容

Python抓取淘宝女装信息（一）

2018-3-30 13:00 |来自: 互联网 321 0

摘要: 赵宏田，Python社区专栏作者博客：https://zhuanlan.zhihu.com/pythoncoder 本次实战案例以抓取淘宝上连衣裙信息为切入点，共抓取4356件连衣裙产品信息。在此基础上进行初步分析。这里首先感谢@大宇，后期的数据处 ...

赵宏田，Python社区专栏作者

博客：https://zhuanlan.zhihu.com/pythoncoder

本次实战案例以抓取淘宝上连衣裙信息为切入点，共抓取4356件连衣裙产品信息。在此基础上进行初步分析。这里首先感谢@大宇，后期的数据处理与图表制作全靠大神帮助。下面我们进入正式介绍环节。

淘宝、京东、链家等大型网站都采取了一定反爬策略，这篇主要讲解下爬取过程中遇到的坑与处理办法。关键词：正则表达式、json、selenium

我们要抓取的商品页面：

这里用urllib.request或request.get方式提交网页链接后，在控制台下print出该网页源码，你会发现关于商品的店铺、省份、价格、销量等信息全都没有。当我们在审查工具中一个个点开XHR、JS、Doc下面的链接并分析时，（如下图）

会发现这些链接对应的网页中会有我们需要的商品关键信息，通过该链接可以提取出所需内容。但是…..构成这些链接的参数我们无法完全找到，甚至有些参数是动态加载的，这样就导致我们只能手动在审查工具中找到链接再提取信息，但是对于多级页面怎么办呢？在坑里待了好一段时间坑后，发现在

声明：文章版权归原作者所有部分文章转自互联网如有侵权请联系 [邮箱地址] 删除

上一篇：Python程序员技能表446家知名企业的Py招聘信息下一篇：python 数据清洗之数据合并、转换、过滤、排序

相关分类