python使用request的同时不使用selenium进行爬取js反爬的网站并举例一个例子
当使用requests
库进行网页爬取时,我们可以使用requests-html
库来处理JavaScript渲染的页面,而不需要使用selenium
。
下面是一个使用requests-html
库爬取JS反爬的网站的例子:
from requests_html import HTMLSession
# 创建一个HTMLSession对象
session = HTMLSession()
# 发送请求并获取页面内容
response = session.get('https://example.com')
# 渲染页面
response.html.render()
# 通过CSS选择器获取页面元素
element = response.html.find('#element-id', first=True)
if element:
print(element.text)
else:
print('Element not found')
在上面的例子中,我们首先创建了一个HTMLSession
对象,然后使用get
方法发送请求并获取页面内容。接下来,我们使用render
方法来渲染页面,以便能够获取JavaScript生成的内容。最后,我们使用find
方法通过CSS选择器来获取页面元素。
需要注意的是,requests-html
库使用了基于Chromium的后端来渲染页面,因此需要安装pyppeteer
库和相应的Chromium浏览器。可以使用以下命令安装这些依赖:
pip install requests-html pyppeteer
这样就可以使用requests-html
库来爬取JS反爬的网站了。
原文地址: https://cveoy.top/t/topic/i8XE 著作权归作者所有。请勿转载和采集!