国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

<sup id="hb9fh"></sup>

<pre id="6rtfh"></pre>

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻

千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

行業(yè)頭條

哈爾濱選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓機構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發(fā)

HTML5

物聯(lián)網(wǎng)

云計算

Python

軟件測試

網(wǎng)絡安全

大數(shù)據(jù)

Unity

UI/UE設計

全媒體營銷

影視剪輯

游戲原畫

區(qū)塊鏈

產(chǎn)品經(jīng)理

商業(yè)插畫

PMP認證

紅帽RHCE

軟考認證

華為認證

出國留學

安全認證

更多課程

免費教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計算視頻教程軟件測試視頻教程大數(shù)據(jù)視頻教程物聯(lián)網(wǎng)視頻教程 Unity視頻教程網(wǎng)絡安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實力
教研院項目庫師資團隊項目大賽
校企服務
企業(yè)內(nèi)訓高校合作學科共建
就業(yè)服務
就業(yè)服務雙選會上門招聘人才定制促就業(yè)行動
認證考試
PMP?培訓軟考培訓紅帽RHCE認證學歷提升
千鋒問問行業(yè)資訊技術(shù)干貨熱點話題
零基礎學IT IT培訓機構(gòu) IT面試題 IT就業(yè)前景
關于千鋒
千鋒簡介鋒益公益大賽組織品牌活動
聯(lián)系我們

當前位置：首頁 > 技術(shù)干貨 > 20天學會爬蟲之Scrapy框架介紹

20天學會爬蟲之Scrapy框架介紹

來源：千鋒教育

發(fā)布人：qyf

時間： 2022-09-19 17:49:00 1663580940

　　什么是Scrapy

　　Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù)，提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應用框架。

　　框架就是將平常寫爬蟲的request (異步調(diào)度和處理)、下載器(多線程的 Downloader)、解析器(selector)和 twisted(異步處理)封裝到了一起，夠成了框架。而且使用起來更加方便，爬取速度更快。

　　Scrapy框架的應用領域有很多，例如網(wǎng)絡爬蟲開發(fā)、數(shù)據(jù)挖掘、自動化測試等，其最初是為了頁面抓取(網(wǎng)絡抓取)所設計的，也可以應用在獲取API所返回的數(shù)據(jù)或者通用的網(wǎng)絡爬蟲。官方網(wǎng)址是https://scrapy.org/

　　Scrapy的安裝

　　Windows系統(tǒng)：

　　pip install scrapy

　　如果安裝過程中出錯

　　錯誤信息如下：

Picture(1)

　　則需要安裝Microsoft Visual C++14，如果報錯不是Microsoft Visual C++14比如Microsoft Visual C++15則對應安裝即可。

　　如果安裝過程中過提示安裝Twisted安裝失敗，則需要來到這個網(wǎng)址：https://www.lfd.uci.edu/~gohlke/pythonlibs/自行下載wheel文件，

Picture(2)

　　可能需要下載的是：pyOpenSSL、Twisted、PyWin32，可以根據(jù)安裝時，報錯的提示信息有針對性的下載。

　　下載之后放到一個固定的目錄中，進入下載的目錄。執(zhí)行 pip3 install xxxxxx.whl (注意xxxxxx代表的是你下載的wheel的名字)

　　然后再次執(zhí)行：pip install scrapy

　　Linux和mac系統(tǒng)直接：pip3 install scrapy

　　scrapy工作流程

Picture(3)

　　Scrapy工作流程的圖：

Picture(4)

　　在圖中，Scrapy引擎是架構(gòu)的核心部分，調(diào)度器、管道、下載器和Spiders等組件都通過引擎來調(diào)控。在Scrapy引擎和下載器中間通過中間件傳遞信息，在下載中間件中，可以插入自定義代碼擴展Scrapy的功能，例如實現(xiàn)IP池的應用。引擎和Spiders之間也是通過爬蟲中間件來傳遞信息，同樣可以自定義擴展功能。

　　其中：

　　Scrapy引擎負責控制整個數(shù)據(jù)處理流程，處于整個Scrapy框架中心位置，協(xié)調(diào)調(diào)度器、管道、中間件、下載器、爬蟲。

　　調(diào)度器負責存儲等待爬取的網(wǎng)址，確定網(wǎng)址優(yōu)先級，相當于一個隊列存儲，同時也會過濾一些重復的網(wǎng)址。

　　下載器實現(xiàn)對等待爬取的網(wǎng)頁資源進行高速下載，該組件通過網(wǎng)絡進行大量數(shù)據(jù)傳輸，下載對應的網(wǎng)頁資源后將數(shù)據(jù)傳遞給Scrapy引擎，再由引擎?zhèn)鬟f給爬蟲處理。

　　下載中間件用于處理下載器與Scrapy引擎之間的通信，自定義代碼可以輕松擴展Scrapy框架的功能

　　Spiders是實現(xiàn)Scrapy框架爬蟲的核心部分。每個爬蟲負責一個或多個指定的網(wǎng)站。爬蟲組件負責接收Scrapy引擎中的Response響應，接收到響應后分析處理，提取對應重要信息

　　爬蟲中間件是處理爬蟲組件和Scrapy引擎之間通信的組件，可以自定義代碼擴展Scrapy功能

　　管道用于接收從爬蟲組件中提取的管道，接收到后進行清洗、驗證、存儲等系列操作

　　因此其流程可以描述如下：

　　爬蟲中起始的url構(gòu)造成request對象-->爬蟲中間件-->引擎-->調(diào)度器

　　調(diào)度器把request-->引擎-->下載中間件--->下載器

　　下載器發(fā)送請求，獲取response響應---->下載中間件---->引擎--->爬蟲中間件--->爬蟲

　　爬蟲提取url地址，組裝成request對象---->爬蟲中間件--->引擎--->調(diào)度器，重復步驟2

　　爬蟲提取數(shù)據(jù)--->引擎--->管道處理和保存數(shù)據(jù)

　　每部分的具體作用

Picture(5)

　　scrapy常用命令

　　scrapy后面可以跟不同的命令，可以使用scrapy --help進行查看，Scrapy框架中命令分為全局命令和項目命令，全局命令不需要進入Scrapy項目即可在全局中直接運行，項目命令必須在Scrapy項目中才可以運行。

Picture(6)

　　其中：

　　全局命令：

　　fetch命令是用來檢查spider下載頁面的方式

　　runspider命令通過Scrapy中的runspider命令可以直接運行一個爬蟲文件

　　settings命令是用來獲取Scrapy的配置信息。

　　shell命令可以啟動Scrapy的交互終端

　　version命令用于查看Scrapy的版本信息

　　項目命令：

　　Scarpy的項目命令主要有bench、check、crawl、edit、genspider、list、parse。Scrapy全局命令可以在項目內(nèi)外使用，而項目命令只能在Scrapy爬蟲項目中使用。

　　bench命令可以測試本地硬件的性能。

　　genspider命令可以創(chuàng)建Scrapy爬蟲文件，這是一種快速創(chuàng)建爬蟲文件的方法

　　check命令可以實現(xiàn)對爬蟲文件的測試

　　crawl命令可以啟動某個爬蟲

　　list命令可以列出當前可使用的爬蟲文件

　　parse命令可以獲取指定的URL網(wǎng)址，并使用對應的爬蟲文件分析處理

　　scrapy開發(fā)步驟

　　創(chuàng)建項目:

　　scrapy startproject 爬蟲項目名字

　　生成一個爬蟲:

　　scrapy genspider <爬蟲名字> <允許爬取的域名>

　　提取數(shù)據(jù):

　　根據(jù)網(wǎng)站結(jié)構(gòu)在spider中實現(xiàn)數(shù)據(jù)采集相關內(nèi)容

　　保存數(shù)據(jù):

　　使用pipeline進行數(shù)據(jù)后續(xù)處理和保存

　　創(chuàng)建項目

　　使用Scrapy創(chuàng)建一個爬蟲項目，首先需要進入存儲爬蟲項目的文件夾，例如在“D:\python_spider”目錄中創(chuàng)建爬蟲項目，如圖所示。

Picture(7)

　　當然如果你是Linux或者mac系統(tǒng)也需要進入存儲爬蟲項目的文件夾，然后新建項目

Picture(8)

　　創(chuàng)建之后的爬蟲項目myproject目錄結(jié)構(gòu)如下：

　　項目名字/

　　scrapy.cfg：

　　項目名字/

　　__init__.py

　　items.py

　　pipelines.py

　　settings.py

　　spiders/

　　__init__.py

　　scrapy.cfg 項目的主配置信息。(真正爬蟲相關的配置信息在settings.py文件中)

　　items.py 設置數(shù)據(jù)存儲模板，用于結(jié)構(gòu)化數(shù)據(jù)，如：Django的Model

　　pipelines 數(shù)據(jù)持久化處理

　　settings.py 配置文件，如：遞歸的層數(shù)、并發(fā)數(shù)，延遲下載等

　　spiders 爬蟲目錄，如：創(chuàng)建文件，編寫爬蟲解析規(guī)則

　　生成一個爬蟲spider

　　進入剛才創(chuàng)建的爬蟲項目myproject目錄

Picture(9)

　　然后執(zhí)行： scrapy genspider 應用名稱爬取網(wǎng)頁的起始url (見下圖的3部分)

Picture(10)

　　編寫爬蟲

　　在生成一個爬蟲執(zhí)行完畢后，會在項目的spiders中生成一個應用名的py爬蟲文件

Picture(11)

　　打開文件進行代碼編寫，大家看到的是默認的格式，可以在parse方法中完善爬蟲代碼

Picture(12)

　　保存數(shù)據(jù)

　　數(shù)據(jù)的保存需要使用管道pipline，在pipelines.py文件中定義對數(shù)據(jù)的操作

　　定義一個管道類

　　重寫管道類的process_item方法

　　process_item方法處理完item之后必須返回給引擎

Picture(13)

　　然后在settings.py配置啟用管道

　　ITEM_PIPELINES = {

　　'myproject.pipelines.MyprojectPipeline': 400,

　　}

　　配置項中鍵為使用的管道類，管道類使用.進行分割，第一個為項目目錄，第二個為文件，第三個為定義的管道類。

　　配置項中值為管道的使用順序，設置的數(shù)值約小越優(yōu)先執(zhí)行，該值一般設置為1000以內(nèi)。

　　運行scrapy

　　命令：在項目目錄下執(zhí)行scrapy crawl <爬蟲名字>

　　示例：scrapy crawl qiubai

Picture(14)

　　當然本次只是給大家描述了一下爬蟲中使用scrapy的基本步驟，20天學會爬蟲后面會接連介紹scrapy的使用，敬請期待哦!

tags:

聲明：本站稿件版權(quán)均屬千鋒教育所有，未經(jīng)許可不得擅自轉(zhuǎn)載。

10年以上業(yè)內(nèi)強師集結(jié)，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內(nèi)將與您1V1溝通

免費領取

今日已有369人領取成功

劉同學 138****2860 剛剛成功領取

王同學 131****2015 剛剛成功領取

張同學 133****4652 剛剛成功領取

李同學 135****8607 剛剛成功領取

楊同學 132****5667 剛剛成功領取

岳同學 134****6652 剛剛成功領取

梁同學 157****2950 剛剛成功領取

劉同學 189****1015 剛剛成功領取

張同學 155****4678 剛剛成功領取

鄒同學 139****2907 剛剛成功領取

董同學 138****2867 剛剛成功領取

周同學 136****3602 剛剛成功領取

上一篇

爬蟲之js逆向解析（滑塊驗證碼）

下一篇

Scrapy框架使用之Spider+Item+Pipline的簡單使用

免費打包獲取

相關推薦HOT

Visual Studio Online和GitHub有什么區(qū)別?

1.定位不同Visual Studio Online，現(xiàn)更名為Visual Studio Codespaces，是微軟提供的一款在線開發(fā)環(huán)境，允許開發(fā)者在云端進行編程和調(diào)試工作。而...詳情>>

2023-10-15 00:21:42

什么是域控制器?

一、域控制器的定義域控制器是指在Windows Server操作系統(tǒng)中部署Active Directory服務的服務器。Active Directory是微軟公司開發(fā)的目錄服務，用...詳情>>

2023-10-15 00:10:28

深度學習模型權(quán)重h5、weights、ckpt、pth有什么區(qū)別?

1.來源框架不同h5格式通常用于Keras和TensorFlow框架，weights用于Darknet框架，ckpt是TensorFlow框架的一種格式，而pth則主要用于PyTorch框架...詳情>>

2023-10-15 00:05:17

大數(shù)據(jù)測試工程師需要具備哪些技能?

一、理解大數(shù)據(jù)概念大數(shù)據(jù)測試工程師需要理解大數(shù)據(jù)的基本概念和原理，如分布式存儲、MapReduce、實時計算等。他們還需要了解如何處理大規(guī)模的...詳情>>

2023-10-14 23:43:03

為什么SpringBoot的 jar 可以直接運行?

一、JAR文件的結(jié)構(gòu)與執(zhí)行方式Spring Boot的JAR包是Java Archive的縮寫，它是一種壓縮文件格式，可以將Java項目的類文件、資源文件以及依賴庫等...詳情>>

2023-10-14 23:01:49

熱門推薦

Visual Studio Online和GitHub有什么區(qū)別?

計算機視覺中所指的深度和深度學習中的深度有什么區(qū)別?

顯著性目標檢測和一般目標檢測最本質(zhì)的區(qū)別是什么區(qū)別?

在目標檢測里single-shot和multi-shot的主要區(qū)別是什么?

APP安全測試與普通B/S架構(gòu)的滲透測試有什么區(qū)別?

什么是域控制器?

圖卷積網(wǎng)絡和self-attention有什么區(qū)別?

深度學習模型權(quán)重h5、weights、ckpt、pth有什么區(qū)別?

機器學習中Inference和predict的區(qū)別是什么?

kd-tree和ball-tree在算法實現(xiàn)原理上有什么區(qū)別?

技術(shù)干貨更多>>

如何實現(xiàn)服務器負載均衡

2023-12-06

linux有哪些優(yōu)勢和劣勢

2023-12-06

linux需要驅(qū)動嗎

2023-12-06

android與linux的區(qū)別

2023-12-06

如何搭建基于容器的深度學習環(huán)境

2023-12-06

職場就業(yè) 更多>>

網(wǎng)絡安全軟件開發(fā)的就業(yè)前景

2023-12-09

學會python工程師后的就業(yè)前景

2023-12-09

學會java工程師后的就業(yè)前景

2023-12-09

云計算技術(shù)就業(yè)前景以及發(fā)展方向怎樣？

2023-08-07

快速通道

培訓機構(gòu)
了解培訓相關
就業(yè)前景
查看就業(yè)前景
培訓門檻
了解學習門檻
應聘面試
常見面試考題
就業(yè)服務
畢業(yè)推薦就業(yè)
師資團隊
了解師資團隊

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

<td id="v0zai"></td>

<td id="v0zai"></td>

<listing id="v0zai"><dfn id="v0zai"></dfn></listing>

<address id="v0zai"></address>