Selenium

Flask+Redis 维护代理池

多台主机协作的关键：共享爬取队列（分布式爬虫）
Redis队列：Redis,非关系型数据库，key-value形式存储，结构灵活；是内存中的数据结构存储系统，处理速度快，性能好；提供队列、集合等多种存储结构，方便队列维护
Redis提供集合数据结构，在Redis集合中存储每个Request的指纹；在向Request队列中加入Request前首先验证这个Request的指纹是否已经加入集合中，如果已存在，则不添加Request到队列，如果不存在，则将Request添加入队列并将指纹加入集合
Scrapy-Redis实现了如上架构，改写了Scrapy的调度器，队列等组件。利用它可以方便地实现Scrapy分布式架构
scrapyd 分布式远程部署