Requests库和Scrapy框架都是Python中非常重要的第三方爬虫库(框架)。
1. Requests和Scrapy的相同点
- 两者都可以进行页面请求和爬取,是Python爬虫的两个重要技术路线。
- 两者都可用性很好,文档丰富,入门简单。
- 两者都没有处理js、提交表单、应对验证码等功能(可扩展)。
2. Requests和Scrapy的不同点
Requests | Scrapy |
---|---|
页面级爬虫 | 网站级爬虫 |
功能库 | 框架 |
并发性考虑不足,性能较差 | 并发性好,性能较高 |
重点在于页面下载 | 重点在于爬虫结构 |
定制灵活 | 一般定制灵活,深度定制困难 |
上手十分简单 | 入门稍难 |
3. 如何选择Requests和Scrapy?
非常小的需求:Requests库。
不太小的需求:Scrapy框架。
- 定制程度很高的需求(不考虑规模),自搭框架:Requests > Scrapy。因为Scrapy的“5+2”结构在自搭框架时反而会成为限制,不如直接用Requests库来编写。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 GuKaifeng's Blog!
评论(延迟加载 / 需要可访问 GitHub Issues)