Python爬虫概述

2018-07-07 | 学习笔记——Python | 阅读 | 413 字 | 1 分钟

文章目录

抓取网页数据的程序

HTTP请求的处理，urllib、urllib2、requests

处理后的请求可以模拟浏览器发送请求，获取服务器响应的文件

re、xpath、beautifulsoup4(BS4)、jsonpath、pyquery等

使用某种描述性语言来给我们需要提取的数据定义一个匹配规则，符合这个规则的数据就会被匹配。

通用的动态页面采集：Selenuim+phantomJS(无界面)

高定制性高性能（异步网络框架twisted）,数据下载速度快。
提供数据存储、数据下载、提取规则等组件。

scrapy-redis，在Scrapy的基础上添加了一套以以redis数据库为核心的一套组件。
让Scrapy支持分布式的功能，主要在redis里做请求指纹去重、请求分配、数据临时存储。

User Agent、IP代理、验证码、动态数据加载、加密数据

本文标题：Python爬虫概述

文章作者：Mr Bluyee

发布时间：2018-07-07

最后更新：2019-07-15