利用Python爬虫爬取豆瓣电影数据,获取热门电影排行榜,抓包利器

2021-09-21|

现在我打算爬取这个页面:

话不多说,先上代码:

import requests
# 爬取豆瓣电影中的动作片详情数据
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}
url = 'https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action='

response = requests.get(url, headers=headers)
page_text = response.text
with open('./douban.html', 'w', encoding='utf-8') as f:
    f.write(page_text)

代码运行后,打开 douban.html:

我们发现,程序并没有爬取到相关数据。这是为什么呢?

动态加载数据的捕获

  • 什么叫做动态加载的数据?

我们通过requests模块进行爬取数据无法每次都实现可见即可得,有些数据是通过非浏览器地址栏中的url请求到的数据,而是其他请求 请求到的数据,那么这些通过请求请求到的数据就是动态加载的数据

  • 如何检测网页中是否存在动态加载数据

基于抓包工具动态进行局部搜索:

在当前网页中打开抓包工具,捕获到地址栏url对应的数据包,在该数据包中response选项卡搜索我们想要爬的数据,
如果搜索到了就不是动态加载数据,如果没有搜索到,那就是动态加载数据


如果数据为动态加载,那么我们如何铺货到动态加载的数据

基于抓包工具进行全局搜索

  • 定位到动态加载数据对应的数据包,从该数据包中就可以提取出
  1. 求的url
  2. 请求方式
  3. 请求携带的参数
  4. 看到响应的数据

现在我们就可以写代码进行爬取了:

url = 'https://movie.douban.com/j/chart/top_list'
params = {
    'type': '5',
    'interval_id': '100:90',
    'action': '',
    'start': '0',
    'limit': '20'
}
response = requests.get(url=url, params=params, headers=headers)
# .json() 将获取的字符串形式的json数据反序列化成字典或列表对象
page_text = response.json()
print(page_text)
# 解析出电影的名称+评分
for movie in page_text:
    name = movie['title']
    score = movie['score']
    print(name, score)

思考:

基于抓包工具进行全局搜索不一定每次都能定位到动态加载数据对应的数据包?


标签: 数据 动态 加载 请求 response 搜索 headers 进行 我们 url
出处: https://www.toutiao.com/a7009945335829316109/?log_from=3e7773b976072_1632201017408

文明发言,请先登录

文明上网理性发言,请遵守国家法律法规。

最新评论

©2003- 黑基网 黑名单存档手机版网站地图免责条款法律声明隐私保护