可以使用Python的requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML文档。以下是一个示例代码,可以爬取中国人民银行的网页文本:

import requests
from bs4 import BeautifulSoup

url = 'http://www.pbc.gov.cn/'

# 发送GET请求获取网页内容
response = requests.get(url)
html = response.text

# 使用BeautifulSoup解析HTML文档
soup = BeautifulSoup(html, 'html.parser')

# 提取网页文本
text = soup.get_text()

# 打印文本内容
print(text)

上述代码中,首先使用requests库发送GET请求获取中国人民银行网页的内容。然后使用BeautifulSoup库解析HTML文档,并使用get_text()方法获取网页的纯文本内容。最后打印文本内容。

请注意,这种方法只能获取网页的静态内容,无法执行JavaScript代码或处理动态内容。如果需要处理JavaScript渲染的页面,可能需要使用Selenium等工具。

标签: 财经


原文地址: https://cveoy.top/t/topic/i8XK 著作权归作者所有。请勿转载和采集!