国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

<sup id="hb9fh"></sup>

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

手機(jī)站

千鋒教育

千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

千鋒教育

掃一掃進(jìn)入千鋒手機(jī)站

領(lǐng)取全套視頻

千鋒教育

關(guān)注千鋒學(xué)習(xí)站小程序
隨時(shí)隨地免費(fèi)學(xué)習(xí)課程

行業(yè)頭條

哈爾濱選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發(fā)

HTML5

物聯(lián)網(wǎng)

云計(jì)算

Python

軟件測試

網(wǎng)絡(luò)安全

大數(shù)據(jù)

Unity

UI/UE設(shè)計(jì)

全媒體營銷

影視剪輯

游戲原畫

區(qū)塊鏈

產(chǎn)品經(jīng)理

商業(yè)插畫

PMP認(rèn)證

紅帽RHCE

軟考認(rèn)證

華為認(rèn)證

出國留學(xué)

安全認(rèn)證

更多課程

免費(fèi)教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計(jì)算視頻教程軟件測試視頻教程大數(shù)據(jù)視頻教程物聯(lián)網(wǎng)視頻教程 Unity視頻教程網(wǎng)絡(luò)安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實(shí)力
教研院項(xiàng)目庫師資團(tuán)隊(duì) 項(xiàng)目大賽
校企服務(wù)
企業(yè)內(nèi)訓(xùn) 高校合作學(xué)科共建
就業(yè)服務(wù)
就業(yè)服務(wù) 雙選會上門招聘人才定制促就業(yè)行動(dòng)
認(rèn)證考試
PMP?培訓(xùn) 軟考培訓(xùn) 紅帽RHCE認(rèn)證學(xué)歷提升
千鋒問問行業(yè)資訊技術(shù)干貨熱點(diǎn)話題
零基礎(chǔ)學(xué)IT IT培訓(xùn)機(jī)構(gòu) IT面試題 IT就業(yè)前景
關(guān)于千鋒
千鋒簡介鋒益公益大賽組織品牌活動(dòng)
聯(lián)系我們

當(dāng)前位置：首頁 > 技術(shù)干貨 > Python爬蟲原理

Python爬蟲原理

來源：千鋒教育

發(fā)布人：xqq

時(shí)間： 2023-11-07 07:33:56 1699313636

簡單來說互聯(lián)網(wǎng)是由一個(gè)個(gè)站點(diǎn)和網(wǎng)絡(luò)設(shè)備組成的大網(wǎng)，我們通過瀏覽器訪問站點(diǎn)，站點(diǎn)把HTML、JS、CSS代碼返回給瀏覽器，這些代碼經(jīng)過瀏覽器解析、渲染，將豐富多彩的網(wǎng)頁呈現(xiàn)我們眼前;

一、爬蟲是什么?

如果我們把互聯(lián)網(wǎng)比作一張大的蜘蛛網(wǎng)，數(shù)據(jù)便是存放于蜘蛛網(wǎng)的各個(gè)節(jié)點(diǎn)，而爬蟲就是一只小蜘蛛，

沿著網(wǎng)絡(luò)抓取自己的獵物(數(shù)據(jù))爬蟲指的是：向網(wǎng)站發(fā)起請求，獲取資源后分析并提取有用數(shù)據(jù)的程序;

從技術(shù)層面來說就是通過程序模擬瀏覽器請求站點(diǎn)的行為，把站點(diǎn)返回的HTML代碼/JSON數(shù)據(jù)/二進(jìn)制數(shù)據(jù)(圖片、視頻)爬到本地，進(jìn)而提取自己需要的數(shù)據(jù)，存放起來使用;

二、爬蟲的基本流程：

用戶獲取網(wǎng)絡(luò)數(shù)據(jù)的方式：

方式1：瀏覽器提交請求--->下載網(wǎng)頁代碼--->解析成頁面

方式2：模擬瀏覽器發(fā)送請求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中

1、發(fā)起請求

使用http庫向目標(biāo)站點(diǎn)發(fā)起請求，即發(fā)送一個(gè)Request

Request包含：請求頭、請求體等

Request模塊缺陷：不能執(zhí)行JS和CSS代碼

2、獲取響應(yīng)內(nèi)容

如果服務(wù)器能正常響應(yīng)，則會得到一個(gè)Response

Response包含：html，json，圖片，視頻等

3、解析內(nèi)容

解析html數(shù)據(jù)：正則表達(dá)式(RE模塊)，第三方解析庫如Beautifulsoup，pyquery等

解析json數(shù)據(jù)：json模塊

解析二進(jìn)制數(shù)據(jù):以wb的方式寫入文件

4、保存數(shù)據(jù)

數(shù)據(jù)庫(MySQL，Mongdb、Redis)

文件

三、http協(xié)議請求與響應(yīng)

Request：用戶將自己的信息通過瀏覽器(socketclient)發(fā)送給服務(wù)器(socketserver)

Response：服務(wù)器接收請求，分析用戶發(fā)來的請求信息，然后返回?cái)?shù)據(jù)(返回的數(shù)據(jù)中可能包含其他鏈接，如：圖片，js，css等)

ps：瀏覽器在接收Response后，會解析其內(nèi)容來顯示給用戶，而爬蟲程序在模擬瀏覽器發(fā)送請求然后接收Response后，是要提取其中的有用數(shù)據(jù)。

四、request

1、請求方式：

常見的請求方式：GET/POST

2、請求的URL

url全球統(tǒng)一資源定位符，用來定義互聯(lián)網(wǎng)上一個(gè)唯一的資源例如：一張圖片、一個(gè)文件、一段視頻都可以用url唯一確定

url編碼

https://www.baidu.com/s?wd=圖片

圖片會被編碼(看示例代碼)

網(wǎng)頁的加載過程是：

加載一個(gè)網(wǎng)頁，通常都是先加載document文檔，

在解析document文檔的時(shí)候，遇到鏈接，則針對超鏈接發(fā)起下載圖片的請求

3、請求頭

User-agent：請求頭中如果沒有user-agent客戶端配置，服務(wù)端可能將你當(dāng)做一個(gè)非法用戶host;

cookies：cookie用來保存登錄信息

注意：一般做爬蟲都會加上請求頭

請求頭需要注意的參數(shù)：

(1)Referrer：訪問源至哪里來(一些大型網(wǎng)站，會通過Referrer做防盜鏈策略;所有爬蟲也要注意模擬)

(2)User-Agent:訪問的瀏覽器(要加上否則會被當(dāng)成爬蟲程序)

(3)cookie：請求頭注意攜帶

4、請求體

請求體

如果是get方式，請求體沒有內(nèi)容(get請求的請求體放在url后面參數(shù)中，直接能看到)

如果是post方式，請求體是formatdata

ps：

1、登錄窗口，文件上傳等，信息都會被附加到請求體內(nèi)

2、登錄，輸入錯(cuò)誤的用戶名密碼，然后提交，就可以看到post，正確登錄后頁面通常會跳轉(zhuǎn)，無法捕捉到post

五、響應(yīng)Response

1、響應(yīng)狀態(tài)碼

200：代表成功

301：代表跳轉(zhuǎn)

404：文件不存在

403：無權(quán)限訪問

502：服務(wù)器錯(cuò)誤

2、responeheader

響應(yīng)頭需要注意的參數(shù)：

(1)Set-Cookie:BDSVRTM=0;path=/：可能有多個(gè)，是來告訴瀏覽器，把cookie保存下來

(2)Content-Location：服務(wù)端響應(yīng)頭中包含Location返回瀏覽器之后，瀏覽器就會重新訪問另一個(gè)頁面

3、preview就是網(wǎng)頁源代碼

JSO數(shù)據(jù)

如網(wǎng)頁html，圖片

二進(jìn)制數(shù)據(jù)等

六、總結(jié)

1、總結(jié)爬蟲流程：

爬取--->解析--->存儲

2、爬蟲所需工具：

請求庫：requests,selenium(可以驅(qū)動(dòng)瀏覽器解析渲染CSS和JS，但有性能劣勢(有用沒用的網(wǎng)頁都會加載);)

解析庫：正則，beautifulsoup，pyquery

存儲庫：文件，MySQL，Mongodb，Redis

以上內(nèi)容為大家介紹了Python爬蟲原理，希望對大家有所幫助，如果想要了解更多Python相關(guān)知識，請關(guān)注 IT培訓(xùn)機(jī)構(gòu):千鋒教育。http://www.parentadvocate.org/

tags: python培訓(xùn)

聲明：本站稿件版權(quán)均屬千鋒教育所有，未經(jīng)許可不得擅自轉(zhuǎn)載。

10年以上業(yè)內(nèi)強(qiáng)師集結(jié)，手把手帶你蛻變精英

請您保持通訊暢通，專屬學(xué)習(xí)老師24小時(shí)內(nèi)將與您1V1溝通

免費(fèi)領(lǐng)取

今日已有369人領(lǐng)取成功

劉同學(xué) 138****2860 剛剛成功領(lǐng)取

王同學(xué) 131****2015 剛剛成功領(lǐng)取

張同學(xué) 133****4652 剛剛成功領(lǐng)取

李同學(xué) 135****8607 剛剛成功領(lǐng)取

楊同學(xué) 132****5667 剛剛成功領(lǐng)取

岳同學(xué) 134****6652 剛剛成功領(lǐng)取

梁同學(xué) 157****2950 剛剛成功領(lǐng)取

劉同學(xué) 189****1015 剛剛成功領(lǐng)取

張同學(xué) 155****4678 剛剛成功領(lǐng)取

鄒同學(xué) 139****2907 剛剛成功領(lǐng)取

董同學(xué) 138****2867 剛剛成功領(lǐng)取

周同學(xué) 136****3602 剛剛成功領(lǐng)取

上一篇

Python 里面的一些小技巧

下一篇

python字符串和Java字符串

免費(fèi)打包獲取

相關(guān)推薦HOT

Python對象的創(chuàng)建

python會用兩種方法創(chuàng)建對象，一種是泛型API(AOL：AbstractObjectLayer)，可以應(yīng)用在任何Python對象上，API內(nèi)不會有機(jī)制確定最終調(diào)用哪個(gè)具體函...詳情>>

2023-11-07 10:33:57

Python的元組

什么是python元組?java中可沒有聽過內(nèi)置元組這樣的數(shù)據(jù)結(jié)構(gòu)。在前面已經(jīng)講了列表，知道一個(gè)列表可以存儲多個(gè)數(shù)據(jù)結(jié)構(gòu)。元組和列表很像，但要記...詳情>>

2023-11-07 10:26:45

python單元測試框架unittest

unittest是python單元測試框架，又叫做PyUnit。之所以稱為框架是它代替開發(fā)人員完成了一些調(diào)用、IO等與單元測試無直接關(guān)系的支撐代碼，讓開發(fā)人...詳情>>

2023-11-07 09:57:57

了解Python語言中的時(shí)間處理

Python語言對于時(shí)間的處理繼承了C語言的傳統(tǒng)，時(shí)間值是以秒為單位的浮點(diǎn)數(shù)，記錄的是從1970年1月1日零點(diǎn)到現(xiàn)在的秒數(shù)，這個(gè)秒數(shù)可以轉(zhuǎn)換成我們...詳情>>

2023-11-07 09:21:57

Python數(shù)據(jù)分析相關(guān)的技術(shù)

1.機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺Crab：靈活、快速的推薦引擎gensim：人性化的話題建模庫hebel：GPU加速的深度學(xué)習(xí)庫NuPIC：智能計(jì)算Numenta平臺pattern...詳情>>

2023-11-07 09:14:45

熱門推薦

Python對象的創(chuàng)建

Python中的對象

Python的元組

Python類和對象

Python構(gòu)造函數(shù)該怎么寫?

Python繼承性和 java 是一樣的嗎?

如何在 python 中打開文件?

Python fabric遠(yuǎn)程自動(dòng)部署簡介

Python 性能剖分工具

Python自學(xué)daily之模塊/list/tuple/dict

技術(shù)干貨更多>>

如何實(shí)現(xiàn)服務(wù)器負(fù)載均衡

2023-12-06

linux有哪些優(yōu)勢和劣勢

2023-12-06

linux需要驅(qū)動(dòng)嗎

2023-12-06

android與linux的區(qū)別

2023-12-06

如何搭建基于容器的深度學(xué)習(xí)環(huán)境

2023-12-06

職場就業(yè) 更多>>

網(wǎng)絡(luò)安全軟件開發(fā)的就業(yè)前景

2023-12-09

學(xué)會python工程師后的就業(yè)前景

2023-12-09

學(xué)會java工程師后的就業(yè)前景

2023-12-09

云計(jì)算技術(shù)就業(yè)前景以及發(fā)展方向怎樣？

2023-08-07

快速通道

培訓(xùn)機(jī)構(gòu)
了解培訓(xùn)相關(guān)
就業(yè)前景
查看就業(yè)前景
培訓(xùn)門檻
了解學(xué)習(xí)門檻
應(yīng)聘面試
常見面試考題
就業(yè)服務(wù)
畢業(yè)推薦就業(yè)
師資團(tuán)隊(duì)
了解師資團(tuán)隊(duì)

千鋒教育

千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

千鋒教育

掃一掃進(jìn)入千鋒手機(jī)站