阅读 263

Scrapy框架介绍

scrapy (三)各部分意义及框架示意图详解

一、      框架示意图

Scrapy  由    Python    编写     ,     是     一个快速、高层次的屏幕抓取和  web  抓取框架,用于抓取   web   站点并从页面中提取结构化的数据。   Scrapy   用途广泛,可以用于数据挖掘、监测和自动化测试。

 

   wps1F4.tmp

 


1、Scrapy Engine(引擎): 引擎负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发事件。


2、Scheduler(调度器): 调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。


3、Downloader(下载器): 下载器负责获取页面数据并提供给引擎,而后提供给spider。


4、Spider(爬虫): Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。


5、Item Pipeline(管道): Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存储到数据库中)。


6、Downloader Middlewares(下载中间件): 下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

7、Spider Middlewares(Spider中间件): Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。




(2).最新版


1、引擎:怎么样,爬虫老弟,搞起来啊!

2、Spider:好啊,老哥,来来来,开始吧。今天就爬xxx网站怎么样

3、引擎:没问题,入口URL发过来!

4、Spider:呐,入口URL是https://ww.xxx.com。

5、引擎:调度器老弟,我这有request请求你帮我排序入队一下吧。

6、调度器:引擎老哥,这是我处理好的request。

7、引擎:下载器老弟,你按照下载中间件的设置帮我下载一下这个request请求。

8、下载器:可以了,这是下载好的东西。(如果失败:sorry,这个request下载失败了。然后引擎告诉调度器,这个request下载失败了,你记录一下,我们待会儿再下载)

9、引擎:爬虫老弟,这是下载好的东西,下载器已经按照下载中间件处理过了,你自己处理一下吧。

10、Spider:引擎老哥,我的数据处理完毕了,这里有两个结果,这个是我需要跟进的URL,还有这个是我获取到的Item数据。

11、引擎:管道老弟,我这儿有个item你帮我处理一下!

12、引擎:调度器老弟,这是需要跟进URL你帮我处理下。(然后从第四步开始循环,直到获取完需要全部信息)





 


 

二、爬虫人员的主要工作

 

1  、创建一个   Scrapy   项目

2  、定义提取的   Item

3  、编写爬取网站的    spider    并提取    Item

4  、编写    Item Pipeline    来存储提取到的   Item(   即数据   )

 

三、  scrapy  基本流程

 

 

 

 

 

 

四、  scrapy   框架各部分详解

1、             Scrapy Items              :       定义您想抓取的数据

import scrapy

class TorrentItem(scrapy.Item):

    name = scrapy.Field()

2、spiders:      编写提取数据的  Spider

1  )     :     定义初始  URL    根网址     、     针对后续链接的规则以及从页面中提取数据的规则     (即写正则或  xpath  等等)     。

2  )     执行  spider  ,获取数据

注     :     运行  spider  来获取网站的数据,并以   JSON   格式存入到    scraped_data.json      文件中   :

terminal  :   scrapy crawl mininova -o scraped_data.json

3、编写 item      pipeline        将  item存储到数据库中

注:

1    )     、    Item  在   Spider   中被收集之后,它将会被传递到   Item Pipeline   ,一些组件会按照一定的顺序执行对   Item   的处理     ;

2  )     每个  item pipeline  组件   (   有时称之为   “Item Pipeline”)   是实现了简单方法的   Python   类。他们接收到   Item   并通过它执行一些行为,同时也决定此   Item   是否继续通过   pipeline   ,或是被丢弃而不再进行处理。

3  )    item pipeline  的一些典型应用:

a    )清理  HTML  数据

b    )验证爬取的数据  (  检查   item   包含某些字段   )

c    )查重  (  并丢弃   )

4  )将爬取结果保存到数据库中

4、编写自己的item pipeline

注:每个  item pipiline  组件是一个独立的   Python   类,同时必须实现以下方法   :

1  )   process_item(item, spider)

每个  item pipeline  组件都需要调用该方法,这个方法必须返回一个    Item (   或任何继承类   )   对象, 或是抛出    DropItem   异常,被丢弃的   item   将不会被之后的   pipeline   组件所处理。

参数  :

item (Item   对象   )    – 被爬取的   item

spider (Spider   对象   )    – 爬取该   item   的   spider

2  )   open_spider(spider)

当  spider  被开启时,这个方法被调用。

参数  :   spider (Spider   对象   )    – 被开启的   spider

3  )   close_spider(spider)

当  spider  被关闭时,这个方法被调用

参数  :   spider (Spider   对象   )    – 被关闭的   spider

5、查看提取到的数据

执行结束后,查看   scraped_data.json ,   将看到提取到的   item:

注         :  1    )     由于   selectors   返回   list,    所以值都是以   list   存储的   (   除了    url    是直接赋值之外   )   。

2    )          Item Loaders          :     可以     保存单个数据或者对数据执行额外的处理

 


文章分类
后端
文章标签
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐