单元10:Scrapy爬虫框架
Scrapy爬虫框架介绍
Scrapy爬虫框架结构
Scrapy爬虫框架解析
-
Engine(核心)
- 控制所有模块之间的数据流
- 根据条件触发事件
- 不需要用户修改
-
Downloader
-
Scheduler
-
Spider
- 解析Downloader返回的响应
- 产生爬取项(spider item)
- 产生额外的爬取请求(Request)
- 需要用户编写代码
-
Item Pipelines
- 以流水线方式处理Spider产生的爬取项
- 由一组操作顺序组成,类似流水线,每个操作是一个Item Pipelines类型
- 可能操作包括:清理、检验和查重爬取项中的HTML数据、将数据存储到数据库中
- 需要用户编写代码
-
Downloader Middleware
- 目的:实施Engine、Scheduler和Downloader之间进行用户可配置的控制
- 功能:修改、丢弃、新增请求或相应
- 用户可以编写配置代码
request库和Scrapy框架爬虫比较
requests vs.Scrapy
- 相同点
- 两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线。
- 两者可用性都好,文档丰富,入门简单。
- 两者都没有处理js、提交表单、应对验证码等功能(可扩展)。
requests vs.Scrapy