单元10：Scrapy爬虫框架

Scrapy爬虫框架介绍

Scrapy爬虫框架结构

爬虫框架

Scrapy爬虫框架解析

Engine（核心）
- 控制所有模块之间的数据流
- 根据条件触发事件
- 不需要用户修改
Downloader
- 根据请求下载网页
- 不需要用户修改
Scheduler
- 对所有爬取请求进行调度管理
- 不需要用户修改
Spider
- 解析Downloader返回的响应
- 产生爬取项（spider item）
- 产生额外的爬取请求（Request）
- 需要用户编写代码
Item Pipelines
- 以流水线方式处理Spider产生的爬取项
- 由一组操作顺序组成，类似流水线，每个操作是一个Item Pipelines类型
- 可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库中
- 需要用户编写代码
Downloader Middleware
- 目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制
- 功能：修改、丢弃、新增请求或相应
- 用户可以编写配置代码

request库和Scrapy框架爬虫比较

requests vs.Scrapy

相同点
- 两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线。
- 两者可用性都好，文档丰富，入门简单。
- 两者都没有处理js、提交表单、应对验证码等功能（可扩展）。

requests vs.Scrapy