Scrapy教程

```mediawiki

概述

Scrapy 是一个强大的 Python 爬虫框架，用于从网页中提取结构化数据。它允许开发者快速构建网络爬虫，可以抓取网站数据，进行数据清洗、转换，并将其存储到各种格式的文件或数据库中。Scrapy 不同于使用简单的 HTTP 请求库（如 Requests）进行网页抓取，它提供了一个完整的爬虫架构，包括中间件、调度器、下载器、爬虫和管道等组件，从而更有效地管理和控制爬取过程。Scrapy 尤其擅长处理大型网站和需要复杂数据提取的任务。它基于 Twisted 异步网络框架，因此具有高性能和可扩展性。网络爬虫的效率很大程度上依赖于框架的性能，Scrapy在这方面表现出色。

主要特点

异步处理：Scrapy 基于 Twisted 异步网络框架，能够并发处理多个请求，提高爬取速度。
可扩展性：Scrapy 的架构设计允许开发者自定义中间件、管道等组件，以满足特定的爬取需求。
内置支持：Scrapy 提供了内置的对常见任务的支持，例如自动处理 cookies、用户代理、重试机制等。
数据导出：Scrapy 可以将抓取到的数据导出为多种格式，例如 JSON、CSV、XML 等，也可以直接存储到数据库中。
中间件系统：Scrapy 的中间件系统允许开发者在请求和响应之间进行处理，例如添加请求头、处理验证码、模拟用户行为等。Scrapy中间件的灵活配置是其强大的原因之一。
自动处理 robots.txt：Scrapy 能够自动读取并遵守网站的 robots.txt 协议，避免抓取受限内容。
强大的选择器：Scrapy 使用 XPath 和 CSS 选择器来定位和提取网页中的数据，方便快捷。XPath选择器和CSS选择器是数据提取的核心工具。
Pipeline：Pipeline 用于处理抓取到的数据，例如数据清洗、验证、存储等。Scrapy Pipeline可以实现复杂的数据处理逻辑。
支持分布式爬取：Scrapy 可以通过分布式方式进行爬取，进一步提高爬取速度和效率。Scrapy分布式爬取需要额外的配置和管理。
可定制的下载器：Scrapy 允许开发者自定义下载器，以处理不同的网络环境和反爬机制。

使用方法

安装 Scrapy

首先，需要安装 Python 和 pip。然后，使用 pip 安装 Scrapy：

```bash pip install scrapy ```

创建 Scrapy 项目

使用 Scrapy 命令创建新的项目：

```bash scrapy startproject myproject ```

这将在当前目录下创建一个名为 `myproject` 的文件夹，其中包含项目的基本结构。

定义 Item

Item 用于定义要抓取的数据结构。在 `myproject/items.py` 文件中定义 Item 类：

```python import scrapy

class MyItem(scrapy.Item):

   title = scrapy.Field()
   url = scrapy.Field()
   description = scrapy.Field()

```

创建 Spider

Spider 用于定义爬取规则。在 `myproject/spiders` 目录下创建一个新的 Spider 文件，例如 `my_spider.py`：

```python import scrapy from myproject.items import MyItem

class MySpider(scrapy.Spider):

   name = "myspider"
   allowed_domains = ["example.com"]
   start_urls = ["http://www.example.com"]

   def parse(self, response):
       item = MyItem()
       item['title'] = response.css('h1::text').get()
       item['url'] = response.url
       item['description'] = response.css('p::text').get()
       yield item

```

运行 Spider

在项目根目录下运行 Spider：

```bash scrapy crawl myspider ```

Scrapy 将会根据定义的规则抓取网页数据，并将结果输出到控制台。

配置 Settings

Scrapy 的配置信息存储在 `myproject/settings.py` 文件中。可以修改配置信息，例如：

USER_AGENT：设置用户代理，避免被网站识别为爬虫。
ROBOTSTXT_OBEY：是否遵守 robots.txt 协议。
DOWNLOAD_DELAY：设置下载延迟，避免对网站造成过大压力。
ITEM_PIPELINES：配置 Pipeline，用于处理抓取到的数据。Scrapy设置的合理配置至关重要。

使用 Pipeline

在 `myproject/pipelines.py` 文件中定义 Pipeline 类：

```python class MyPipeline:

   def process_item(self, item, spider):
       # 数据清洗和存储逻辑
       return item

```

然后在 `settings.py` 文件中启用 Pipeline：

```python ITEM_PIPELINES = {

   'myproject.pipelines.MyPipeline': 300,

} ```

使用中间件

中间件允许在请求和响应之间进行处理。可以自定义中间件来添加请求头、处理验证码、模拟用户行为等。Scrapy中间件的例子包括UserAgentMiddleware和HttpProxyMiddleware。

命令行工具

Scrapy 提供了一系列命令行工具，例如：

scrapy crawl：运行 Spider。
scrapy shell：交互式命令行，用于测试选择器和爬取规则。
scrapy view：可视化抓取结果。

进阶用法

使用 Feed 导出数据：可以将抓取到的数据导出为 JSON、CSV、XML 等格式的文件。
使用 Signals：可以使用 Signals 在爬取过程中执行自定义操作。
使用 SpiderMiddleware：可以自定义 SpiderMiddleware 来处理请求和响应。

示例表格

以下是一个展示 Scrapy 常用配置的表格：

Scrapy 常用配置
配置项	描述	默认值
USER_AGENT	设置用户代理	'Scrapy/1.0'
ROBOTSTXT_OBEY	是否遵守 robots.txt 协议	True
DOWNLOAD_DELAY	设置下载延迟 (秒)	0
CONCURRENT_REQUESTS	同时并发请求数	16
CONCURRENT_REQUESTS_PER_DOMAIN	每个域名同时并发请求数	8
ITEM_PIPELINES	配置 Pipeline	{}
DOWNLOADER_MIDDLEWARES	配置下载器中间件	{}
SPIDER_MIDDLEWARES	配置 Spider 中间件	{}

立即开始交易

注册IQ Option (最低入金 $10) 开设Pocket Option账户 (最低入金 $5)

加入我们的社区

关注我们的Telegram频道 @strategybin，获取： ✓ 每日交易信号 ✓ 独家策略分析 ✓ 市场趋势警报 ✓ 新手教学资料