我们使用python开发爬虫采集网页的时候,网页上经常会使用相对链接,如下:
./202401/t20240102_3522266.html
获取这样的链接是无法继续请求来获取后续数据的。所以需要把他不全。
要补全一个相对链接为一个完整的链接,你需要知道相对链接相对于哪个基础链接。在这个例子中,相对链接是?./202401/t20240102_3522266.html
,基础链接是?https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html
。
下面是如何在 Python 中使用基础链接补全相对链接:
from urllib.parse import urljoin
base_url = "https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html"
relative_url = "./202401/t20240102_3522266.html"
# 使用urljoin补全链接
full_url = urljoin(base_url, relative_url)
print(full_url)
运行上述代码后,你将得到完整的链接:https://www.beijing.gov.cn/zhengce/zhengcefagui/202401/t20240102_3522266.html
。