-------------也就是,在开始项目前,你要表现得像个"人"!!!?
# 配置下载延迟
DOWNLOAD_DELAY = 1
# 配置并发请求的最大数
CONCURRENT_REQUESTS = 16
这个设置用于指定连续请求之间的下载延迟时间,值以秒为单位。
例如,DOWNLOAD_DELAY = 1意味着Scrapy在执行两个请求之间至少等待1秒。
这有助于减缓爬取速度,避免因为向网站发送过多请求而过快地爬取,从而避免给网站服务器带来负担,或者因为爬取过快而被网站反爬机制封锁。
CONCURRENT_REQUESTS:
这个设置用于控制Scrapy爬虫的最大并发请求数。
默认情况下,Scrapy为16,也就是说,Scrapy可以同时有最多16个请求在进行。
调整这个数字可以控制爬虫的并发水平。增加并发数可能会加速爬取速度,但也增加了服务器的负载和被封锁的风险;减少并发数会减轻对服务器的压力,但爬取速度会慢一些。
合理地使用这两个设置可以帮助你更好地管理爬虫的爬取行为和效率,同时避免不必要的问题(如遭到网站封锁)。
class JihaishujuSpider(scrapy.Spider):
name = 'jjjj'
allowed_domains = ['XXX.com']
#这里也可以控制并发量
custom_settings = {
'DOWNLOAD_DELAY': 3,
# 如果您还想进一步限制并发数量,可以设置以下的属性
'CONCURRENT_REQUESTS_PER_DOMAIN': 1,
'CONCURRENT_REQUESTS_PER_IP': 1,
}
custom_settings属性在Scrapy中用于给特定的爬虫指定设置,覆盖项目全局的settings.py文件中的相同设置。这里列出的设置如下: