当使用requests库进行网页爬取时,我们可以使用requests-html库来处理JavaScript渲染的页面,而不需要使用selenium

下面是一个使用requests-html库爬取JS反爬的网站的例子:

from requests_html import HTMLSession

# 创建一个HTMLSession对象
session = HTMLSession()

# 发送请求并获取页面内容
response = session.get('https://example.com')

# 渲染页面
response.html.render()

# 通过CSS选择器获取页面元素
element = response.html.find('#element-id', first=True)
if element:
    print(element.text)
else:
    print('Element not found')

在上面的例子中,我们首先创建了一个HTMLSession对象,然后使用get方法发送请求并获取页面内容。接下来,我们使用render方法来渲染页面,以便能够获取JavaScript生成的内容。最后,我们使用find方法通过CSS选择器来获取页面元素。

需要注意的是,requests-html库使用了基于Chromium的后端来渲染页面,因此需要安装pyppeteer库和相应的Chromium浏览器。可以使用以下命令安装这些依赖:

pip install requests-html pyppeteer

这样就可以使用requests-html库来爬取JS反爬的网站了。

标签: 时尚


原文地址: https://cveoy.top/t/topic/i8XE 著作权归作者所有。请勿转载和采集!