Scrapy爬取books.toscrape.com使用ProxyPool代理池示例和使用Splash爬取动态网页quotes.toscrape.com示例

发布时间:2023年12月23日

Scrapy使用ProxyPool代理池

根据https://blog.csdn.net/GamersRay/article/details/125909288教程指导操作

ProxyPooltoscrape_book代码链接

使用Splash爬取动态网页

示例代码链接

注意: 当时我在测试时,通过docker启动Splash,访问Splash地址,可以得到“Splash v3.5”的显示页面,表明启动成功。但是我在使用的时候总是报:[scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://quotes.toscrape.com/js via http://192.168.99.100:8050/render.html> (failed 1 times): 504 Gateway Time-out错误,后来发现是实际上Splash没有启动成功,可以等待Splash完全启动和设置更长的超时时间。

文章来源:https://blog.csdn.net/qq_45957580/article/details/135165854
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。