如何用 Django 管理 Scrapy 几十万个爬虫脚本?

发布时间:2024年01月18日

本文介绍的是根据我的从业多年的经验在巨人的肩膀上开发的数据采集应用,也就是我们俗称的爬虫系统。

既然说到系统就不是单独的爬虫脚本,是整个一套自动化采集的内容。尝试过很多种方式构建这套系统,这里把最简单容易实现且效果最好的内容分享出来。现在各大每日与数据相关的企业基本都采用这种数据采集技术,简单、快捷、实用。这里简述一下基于Python Django的产品设计与应用。

  • 编程语言:Python
  • 使用框架:Scrapy、Gerapy
  • 数据仓库:Mongodb
  • 其他内容:IP池等

业务流程

在这里插入图片描述

遇见问题

  • 抓取的网站失效了怎么发现?
  • IP池如何使用?
  • 部署中随时遇见的各种坑。
  • 抓取的数据后续如何使用?

等等使用中各种问题

文章来源:https://blog.csdn.net/qq_20288327/article/details/115858901
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。