Python自带爬虫库urllib使用大全

发布时间：2024年01月10日

在Python中，urllib是一个用于处理URLs的内置库，它提供了用于构建、解析、发送和接收HTTP、HTTPS和其他URLs的强大工具。这个库是Python标准库的一部分，因此不需要额外安装任何依赖项。本文将介绍urllib库的常用功能和用法，包括如何使用urllib发送HTTP请求、处理响应、解析URLs等。

一、urllib库简介

urllib库包含多个模块，其中最常用的是urllib.request和urllib.parse。

urllib.request模块提供了一个高级的HTTP客户端接口，可以用于发送各种类型的HTTP请求（GET、POST、PUT、DELETE等）。
urllib.parse模块提供了用于解析URLs的工具，可以将URLs分解为各个组成部分，并可以构建新的URLs。

二、发送HTTP请求

要使用urllib发送HTTP请求，需要先导入urllib.request模块，并使用其中的Request类创建一个请求对象。然后，可以使用urlopen()函数发送请求并获取响应。

下面是一个简单的示例，演示如何使用urllib发送GET请求：

import urllib.request ?
??
# 创建请求对象 ?
req = urllib.request.Request('http://example.com') ?
??
# 发送请求并获取响应 ?
response = urllib.request.urlopen(req) ?
??
# 打印响应内容 ?
print(response.read())
如果要发送POST请求，可以在创建请求对象时添加额外的参数。下面是一个示例：

python
import urllib.request ?
import urllib.parse ?
??
# 创建请求对象 ?
data = urllib.parse.urlencode({'key1': 'value1', 'key2': 'value2'}) ?
req = urllib.request.Request('http://example.com/post', data) ?
??
# 发送请求并获取响应 ?
response = urllib.request.urlopen(req) ?
??
# 打印响应内容 ?
print(response.read())

在上面的示例中，我们使用了urlencode()函数将字典转换为URL编码的字符串，并将其作为请求体发送。然后，我们指定了请求方法为POST。注意，我们还需要指定请求头中的Content-Type为application/x-www-form-urlencoded，以告知服务器我们发送的是表单数据。

三、处理响应

在发送请求后，我们可以使用Response对象来获取响应的状态码、头部信息等。下面是一个示例：

import urllib.request ?
??
# 创建请求对象 ?
req = urllib.request.Request('http://example.com') ?
??
# 发送请求并获取响应 ?
response = urllib.request.urlopen(req) ?
??
# 获取响应状态码和头部信息 ?
status = response.status ?# HTTP状态码（200, 404等） ?
headers = response.getheaders() ?# 返回一个包含所有头部信息的列表（元组对）

四、解析URLs

urllib.parse模块提供了用于解析URLs的工具，可以将URLs分解为各个组成部分，并可以构建新的URLs。下面是一个示例，演示如何使用urllib.parse模块解析URLs：

import urllib.parse ?
??
# 创建一个URL字符串 ?
url = 'http://example.com/path/to/file?query=string#fragment' ?
??
# 使用urlparse()函数解析URL ?
parsed_url = urllib.parse.urlparse(url) ?
??
# 打印解析后的URL组成部分 ?
print(parsed_url)
输出：

python
ParseResult(scheme='http', netloc='example.com', path='/path/to/file', params='', query='query=string', fragment='fragment')

在上面的示例中，我们使用了urlparse()函数来解析URL，该函数返回一个ParseResult对象，包含了URL的各个组成部分。可以使用该对象的属性来访问各个部分，例如scheme表示URL的协议，netloc表示主机名和端口号，path表示URL路径等。

除了urlparse()函数外，urllib.parse模块还提供了其他一些有用的函数，例如quote()函数用于对字符串进行URL编码，unquote()函数用于对URL编码的字符串进行解码等。下面是一个示例：

import urllib.parse ?
??
# 创建一个需要进行URL编码的字符串 ?
str = 'Hello, world!' ?
??
# 使用quote()函数进行URL编码 ?
encoded_str = urllib.parse.quote(str) ?
print(encoded_str) ?# 输出：Hello%2C+world%21

五、设置代理

如果你需要使用代理服务器来发送HTTP请求，可以使用urllib.request模块中的ProxyHandler类来设置代理。下面是一个示例：

import urllib.request ?
??
# 设置代理服务器地址和端口号 ?
proxy_handler = urllib.request.ProxyHandler({'http': 'http://proxy.example.com:8080'}) ?
??
# 创建自定义的OpenerDirector，将代理处理器添加到其中 ?
opener = urllib.request.build_opener(proxy_handler) ?
??
# 创建一个Request对象，指定目标URL ?
req = urllib.request.Request('https://www.zdaye.com') ?
??
# 使用自定义的OpenerDirector发送请求并获取响应 ?
response = opener.open(req) ?
??
# 打印响应内容 ?
print(response.read())

在上面的示例中，我们首先创建了一个ProxyHandler对象，并指定了代理服务器的地址和端口号。然后，我们创建了一个自定义的OpenerDirector对象，将代理处理器添加到其中。最后，我们使用自定义的OpenerDirector对象来发送请求并获取响应。通过这种方式，所有的HTTP请求都会经过指定的代理服务器进行转发。

六、总结

urllib库是Python中用于处理URLs的内置库，提供了发送HTTP请求、处理响应、解析URLs等功能。通过使用urllib库，你可以轻松地构建和发送HTTP请求，获取和处理响应，以及解析和构建URLs。希望通过本文的介绍，你对urllib库的使用有了更深入的了解。如果你还有其他问题或需要更多帮助，请随时向我提问。

文章来源:https://blog.csdn.net/weixin_43856625/article/details/135498272
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！