1. 增加去重容器类配置,
DUPEFILTER\_CLASS = “scrapy\_redis.dupefilter.RFPDupeFilter”

2. 增加调度配置,
SCHEDULER = “scrapy\_redis.scheduler.Scheduler”

3. 配置调度器持久化, 爬虫结束, 要不要清空Redis中请求队列和去重指纹的set。如果True, 就表示要持久化存储, 否则清空数据
SCHEDULER\_PERSIST = True

ITEM\_PIPELINES = {
\# 把爬虫爬取的数据存储到Redis数据库中
‘scrapy\_redis.pipelines.RedisPipeline’: 400,
}


标签: Scrapy, scrapy, redis, True, Redis, 改成, SCHEDULER

相关文章推荐

添加新评论,含*的栏目为必填