这次让我们分析scrapy重试机制的源码,学习其中的思想,编写定制化middleware,捕捉爬取失败的URL等信息。
scrapy简介
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
一张图可看清楚scrapy中数据的流向:
简单了解一下各个部分的功能,可以看下面简化版数据流:
总有漏网之鱼
不管你的主机配置多么吊炸天,还是网速多么给力,在scrapy的大规模任务中,最终爬取的item数量都不会等于期望爬取的数量,也就是说总有那么一些爬取失败的漏网之鱼,通过分析scrapy的日志,可以知道造成失败的原因有以下两种情况:
- exception_count
- httperror
以上的不管是exception还是httperror, scrapy中都有对应的retry机制,在settings.py
文件中我们可以设置有关重试的参数,等运行遇到异常和错误时候,scrapy就会自动处理这些问题,其中最关键的部分就是重试中间件,下面让我们看一下scrapy的retry middleware。
RetryMiddle源码分析
在scrapy项目的middlewares.py
文件中 敲如下代码:
1 | from scrapy.downloadermiddlewares.retry import RetryMiddleware |
按住ctrl键(Mac是command键),鼠标左键点击RetryMiddleware进入该中间件所在的项目文件的位置,也可以通过查看文件的形式找到该该中间件的位置,路径是:
1 | site-packages/scrapy/downloadermiddlewares/retry.RetryMiddleware |
源码如下:
1 | class RetryMiddleware(object): |
查看源码我们可以发现,对于返回http code的response,该中间件会通过process_response方法来处理,处理办法比较简单,判断response.status是否在retry_http_codes集合中,这个集合是读取的配置文件:
1 | RETRY_ENABLED = True # 默认开启失败重试,一般关闭 |
对于httperror的处理也是同样的道理,定义了一个 EXCEPTIONS_TO_RETRY的列表,里面存放所有的异常类型,然后判断传入的异常是否存在于该集合中,如果在就进入retry逻辑,不在就忽略。
源码思想的应用
了解scrapy如何处理异常后,就可以利用这种思想,写一个middleware,对爬取失败的漏网之鱼进行捕获,方便以后做补爬。
- 在middlewares.py中 from scrapy.downloadermiddlewares.retry import RetryMiddleware, 写一个class,继承自RetryMiddleware;
- 对父类的
process_response()
和process_exception()
方法进行重写; - 将该middleware加入setting.py;
- 注意事项:该中间件的Order_code不能过大,如果过大就会越接近下载器,就会优先于RetryMiddleware处理response,但这个中间件是用来处理最终的错误的,即当一个response 500进入中间件链路时,需要先经过retry中间件处理,不能先由我们写的中间件来处理,它不具有retry的功能,接收到500的response就直接放弃掉该request直接return了,这是不合理的。只有经过retry后仍然有异常的request才应当由我们写的中间件来处理,这时候你想怎么处理都可以,比如再次retry、return一个重新构造的response,但是如果你为了加快爬虫速度,不设置retry也是可以的。
Talk is cheap, show the code:
1 | class GetFailedUrl(RetryMiddleware): |
setting.py中添加该中间件:
1 | DOWNLOADER_MIDDLEWARES = { |
为了测试,我们故意写错URL,或者将download_delay缩短,就会出现各种异常,但是我们现在能够捕获它们了: