在 Scrapy 框架中,COOKIES_ENABLED = True
时,除了可以在 Request
对象中手动设置 cookies 以外,还可以通过修改 DEFAULT_REQUEST_HEADERS
来全局地为每个请求设置 cookies。以下是一个包含这一信息的博客笔记:
Scrapy 作为一个灵活的爬虫框架,提供了多种方式来管理 HTTP cookies,以适应不同的爬取场景。其中,COOKIES_ENABLED
设置和 DEFAULT_REQUEST_HEADERS
是控制 cookies 行为的重要配置项。以下是详细的配置方法:
COOKIES_ENABLED = False
作用:禁用 Scrapy 的 cookies 处理。每个请求都不会携带或接收 cookies,视为独立无关的会话。
适用场景:适用于网站不需要 cookies 来追踪用户状态或者爬虫需要避免被追踪的情况。但可以自己设置cookie
全局设置 Cookies:当 COOKIES_ENABLED = False
在 Scrapy 框架中设置时,Scrapy 将不会处理任何与 cookies 相关的操作。这意味着 Scrapy 不会自动发送或接收任何 cookies,并且也不会保留在会话中的 cookies 状态。然而,这并不影响通过 DEFAULT_REQUEST_HEADERS
设置的其他 HTTP 头部信息, 并且如果有需要可以在这里手动设置cookie
DEFAULT_REQUEST_HEADERS = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language": "en",
"Cookie": "sessionid=xyz; csrftoken=abc" # 全局cookie设置
}
COOKIES_ENABLED = True
Request
对象中手动设置 cookies,适用于需要为特定请求定制 cookies 的场景。yield scrapy.Request(
url='http://example.com',
cookies={'example_cookie': 'value'}, # 手动设置的cookie
)
作用:如果你在配置文件中注释掉了 COOKIES_ENABLED 设置,Scrapy 将会使用默认配置,即 COOKIES_ENABLED = True。
表现:爬虫行为将会自动处理 cookies,与显式设置为 True 的行为一致。
在 Scrapy 中灵活运用 COOKIES_ENABLED
和 DEFAULT_REQUEST_HEADERS
可以有效管理爬虫的 cookies 行为。无论是全局设置还是局部定制,合理配置 cookies 是确保爬虫对目标网站友好交互的关键。理解并应用这些配置可以帮助你提高爬虫的效率和适应性,特别是在面对复杂网站时。