国产睡熟迷奷白丝护士系列精品,中文色字幕网站,免费h网站在线观看的,亚洲开心激情在线

<sup id="hb9fh"></sup>

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

手機(jī)站

千鋒教育

千鋒學(xué)習(xí)站 | 隨時隨地免費(fèi)學(xué)

千鋒教育

掃一掃進(jìn)入千鋒手機(jī)站

領(lǐng)取全套視頻

千鋒教育

關(guān)注千鋒學(xué)習(xí)站小程序
隨時隨地免費(fèi)學(xué)習(xí)課程

行業(yè)頭條

哈爾濱選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓(xùn)機(jī)構(gòu)要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發(fā)

HTML5

物聯(lián)網(wǎng)

云計算

Python

軟件測試

網(wǎng)絡(luò)安全

大數(shù)據(jù)

Unity

UI/UE設(shè)計

全媒體營銷

影視剪輯

游戲原畫

區(qū)塊鏈

產(chǎn)品經(jīng)理

商業(yè)插畫

PMP認(rèn)證

紅帽RHCE

軟考認(rèn)證

華為認(rèn)證

出國留學(xué)

安全認(rèn)證

更多課程

免費(fèi)教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計算視頻教程軟件測試視頻教程大數(shù)據(jù)視頻教程物聯(lián)網(wǎng)視頻教程 Unity視頻教程網(wǎng)絡(luò)安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實力
教研院項目庫師資團(tuán)隊項目大賽
校企服務(wù)
企業(yè)內(nèi)訓(xùn) 高校合作學(xué)科共建
就業(yè)服務(wù)
就業(yè)服務(wù) 雙選會上門招聘人才定制促就業(yè)行動
認(rèn)證考試
PMP?培訓(xùn) 軟考培訓(xùn) 紅帽RHCE認(rèn)證學(xué)歷提升
千鋒問問行業(yè)資訊技術(shù)干貨熱點話題
零基礎(chǔ)學(xué)IT IT培訓(xùn)機(jī)構(gòu) IT面試題 IT就業(yè)前景
關(guān)于千鋒
千鋒簡介鋒益公益大賽組織品牌活動
聯(lián)系我們

當(dāng)前位置：首頁 > 技術(shù)干貨 > Python爬蟲庫urllib使用詳解！

Python爬蟲庫urllib使用詳解！

來源：千鋒教育

發(fā)布人：wjy

時間： 2023-01-10 10:06:00 1673316360

　　Python爬蟲庫urllib使用詳解!

　　一、Python urllib庫

　　Python urllib 庫用于操作網(wǎng)頁 URL，并對網(wǎng)頁的內(nèi)容進(jìn)行抓取處理。

　　Python3 的 urllib。

　　urllib 包包含以下幾個模塊：

　　●urllib.request - 打開和讀取 URL。

　　●urllib.error - 包含 urllib.request 拋出的異常。

　　●urllib.parse - 解析 URL。

　　●urllib.robotparser - 解析 robots.txt 文件。

　　二、urllib.request模塊

　　urllib.request 定義了一些打開 URL 的函數(shù)和類，包含授權(quán)驗證、重定向、瀏覽器 cookies等。

　　urllib.request 可以模擬瀏覽器的一個請求發(fā)起過程。

　　這里主要介紹兩個常用方法，urlopen和Request。

　　1.urlopen函數(shù)

　　語法格式如下：

Python爬蟲庫urllib使用詳解1

　　url：url 地址。

　　data：發(fā)送到服務(wù)器的其他數(shù)據(jù)對象，默認(rèn)為 None。

　　timeout：設(shè)置訪問超時時間。

　　cafile 和 capath：cafile 為 CA 證書， capath 為 CA 證書的路徑，使用 HTTPS 需要用到。

　　cadefault：已經(jīng)被棄用。

　　context：ssl.SSLContext類型，用來指定 SSL 設(shè)置。

　　示例：

Python爬蟲庫urllib使用詳解2

　　運(yùn)行結(jié)果：

Python爬蟲庫urllib使用詳解3

　　response對象是http.client. HTTPResponse類型，主要包含 read、readinto、getheader、getheaders、fileno 等方法，以及 msg、version、status、reason、debuglevel、closed 等屬性。

　　常用方法：

　　read()：是讀取整個網(wǎng)頁內(nèi)容，也可以指定讀取的長度，如read(300)。獲取到的是二進(jìn)制的亂碼，所以需要用到decode()命令將網(wǎng)頁的信息進(jìn)行解碼。

　　readline() - 讀取文件的一行內(nèi)容。

　　readlines() - 讀取文件的全部內(nèi)容，它會把讀取的內(nèi)容賦值給一個列表變量。

　　info()：返回HTTPMessage對象，表示遠(yuǎn)程服務(wù)器返回的頭信息。

　　getcode()：返回Http狀態(tài)碼。如果是http請求，200請求成功完成;404網(wǎng)址未找到。

　　geturl()：返回請求的url。

　　2、Request類

　　我們抓取網(wǎng)頁一般需要對 headers(網(wǎng)頁頭信息)進(jìn)行模擬，否則網(wǎng)頁很容易判定程序為爬蟲，從而禁止訪問。這時候需要使用到 urllib.request.Request 類：

Python爬蟲庫urllib使用詳解4

　　url：url 地址。

　　data：發(fā)送到服務(wù)器的其他數(shù)據(jù)對象，默認(rèn)為 None。

　　headers：HTTP 請求的頭部信息，字典格式。

　　origin_req_host：請求的主機(jī)地址，IP 或域名。

　　unverifiable：很少用整個參數(shù)，用于設(shè)置網(wǎng)頁是否需要驗證，默認(rèn)是False。。

　　method：請求方法，如 GET、POST、DELETE、PUT等。

　　示例：

Python爬蟲庫urllib使用詳解5

　　三、urllib.error模塊

　　urllib.error 模塊為 urllib.request 所引發(fā)的異常定義了異常類，基礎(chǔ)異常類是 URLError。

　　urllib.error 包含了兩個方法，URLError 和 HTTPError。

　　URLError 是 OSError 的一個子類，用于處理程序在遇到問題時會引發(fā)此異常(或其派生的異常)，包含的屬性 reason 為引發(fā)異常的原因。

　　HTTPError 是 URLError 的一個子類，用于處理特殊 HTTP 錯誤例如作為認(rèn)證請求的時候，包含的屬性 code 為 HTTP 的狀態(tài)碼， reason 為引發(fā)異常的原因，headers 為導(dǎo)致 HTTPError 的特定 HTTP 請求的 HTTP 響應(yīng)頭。

　　區(qū)別：

　　URLError封裝的錯誤信息一般是由網(wǎng)絡(luò)引起的，包括url錯誤。

　　HTTPError封裝的錯誤信息一般是服務(wù)器返回了錯誤狀態(tài)碼。

　　關(guān)系：

　　URLError是OSERROR的子類，HTTPError是URLError的子類。

　　1.URLError 示例

Python爬蟲庫urllib使用詳解6

　　返回結(jié)果：

Python爬蟲庫urllib使用詳解7

　　reason:

　　此錯誤的原因。它可以是一個消息字符串或另一個異常實例。

　　2.HTTPError示例

Python爬蟲庫urllib使用詳解8

　　返回結(jié)果：

Python爬蟲庫urllib使用詳解9

　　code

　　一個 HTTP 狀態(tài)碼，具體定義見 RFC 2616。這個數(shù)字的值對應(yīng)于存放在

　　http.server.BaseHTTPRequestHandler.responses 代碼字典中的某個值。

　　reason

　　這通常是一個解釋本次錯誤原因的字符串。

　　headers

　　導(dǎo)致 HTTPError 的特定 HTTP 請求的 HTTP 響應(yīng)頭。

　　3.URLError和HTTPError混合使用

　　注意：由于HTTPError是URLError的子類，所以捕獲的時候HTTPError要放在URLError的上面。

　　示例：

Python爬蟲庫urllib使用詳解10

　　如果不用上面的方法，可以直接用判斷的形式。

Python爬蟲庫urllib使用詳解11

　　執(zhí)行結(jié)果：

Python爬蟲庫urllib使用詳解12

　　四、urllib.parse模塊

　　模塊定義的函數(shù)可分為兩個主要門類: URL 解析和 URL 轉(zhuǎn)碼。

　　4.1 URL 解析

　　4.1.1 urlparse()

　　urllib.parse 用于解析 URL，格式如下：

Python爬蟲庫urllib使用詳解13

　　urlstring 為字符串的 url 地址，scheme 為協(xié)議類型。

　　allow_fragments 參數(shù)為 false，則無法識別片段標(biāo)識符。相反，它們被解析為路徑，參數(shù)或查詢組件的一部分，并 fragment 在返回值中設(shè)置為空字符串。

　　標(biāo)準(zhǔn)鏈接格式為：

Python爬蟲庫urllib使用詳解14

　　對象中包含了六個元素，分別為：協(xié)議(scheme)、域名(netloc)、路徑(path)、路徑參數(shù)(params)、查詢參數(shù)(query)、片段(fragment)。

　　示例：

Python爬蟲庫urllib使用詳解15

　　執(zhí)行結(jié)果：

Python爬蟲庫urllib使用詳解16

　　以上還可以通過索引獲取，如通過

Python爬蟲庫urllib使用詳解17

　　4.1.2 urlunparse()

　　urlunparse()可以實現(xiàn)URL的構(gòu)造。(構(gòu)造URL)

　　urlunparse()接收一個是一個長度為6的可迭代對象，將URL的多個部分組合為一個URL。若可迭代對象長度不等于6，則拋出異常。

　　示例：

Python爬蟲庫urllib使用詳解18

　　結(jié)果：

Python爬蟲庫urllib使用詳解19

　　4.1.3 urlsplit()

　　urlsplit() 函數(shù)也能對 URL 進(jìn)行拆分，所不同的是， urlsplit() 并不會把路徑參數(shù)(params) 從路徑(path) 中分離出來。

　　當(dāng) URL 中路徑部分包含多個參數(shù)時，使用 urlparse() 解析是有問題的，這時可以使用 urlsplit() 來解析.

　　4.1.4 urlsplit()

　　urlunsplit()與 urlunparse()類似，(構(gòu)造URL)，傳入對象必須是可迭代對象，且長度必須是5。

　　示例：

Python爬蟲庫urllib使用詳解20

　　結(jié)果：

Python爬蟲庫urllib使用詳解21

　　4.1.5 urljoin()

　　同樣可以構(gòu)造URL。

　　傳遞一個基礎(chǔ)鏈接,根據(jù)基礎(chǔ)鏈接可以將某一個不完整的鏈接拼接為一個完整鏈接.

　　注：連接兩個參數(shù)的url, 將第二個參數(shù)中缺的部分用第一個參數(shù)的補(bǔ)齊,如果第二個有完整的路徑，則以第二個為主。

　　4.2 URL 轉(zhuǎn)碼

　　python中提供urllib.parse模塊用來編碼和解碼，分別是urlencode()與unquote()。

　　4.2.1 編碼quote(string)

　　URL 轉(zhuǎn)碼函數(shù)的功能是接收程序數(shù)據(jù)并通過對特殊字符進(jìn)行轉(zhuǎn)碼并正確編碼非 ASCII 文本來將其轉(zhuǎn)為可以安全地用作 URL 組成部分的形式。它們還支持逆轉(zhuǎn)此操作以便從作為 URL 組成部分的內(nèi)容中重建原始數(shù)據(jù)，如果上述的 URL 解析函數(shù)還未覆蓋此功能的話

　　語法：

Python爬蟲庫urllib使用詳解22

　　使用 %xx 轉(zhuǎn)義符替換 string 中的特殊字符。字母、數(shù)字和 '_.-~' 等字符一定不會被轉(zhuǎn)碼。在默認(rèn)情況下，此函數(shù)只對 URL 的路徑部分進(jìn)行轉(zhuǎn)碼?？蛇x的 safe 形參額外指定不應(yīng)被轉(zhuǎn)碼的 ASCII 字符 --- 其默認(rèn)值為 '/'。

　　string 可以是 str 或 bytes 對象。

　　示例：

Python爬蟲庫urllib使用詳解23

　　執(zhí)行結(jié)果：

Python爬蟲庫urllib使用詳解24

　　4.2.2 編碼urlencode()

　　quote()只能對字符串編碼，而urlencode()可以對查詢字符串進(jìn)行編碼。

Python爬蟲庫urllib使用詳解25

　　結(jié)果：

Python爬蟲庫urllib使用詳解26

　　4.2.3 解碼unquote(string)

　　解碼就是對編碼后的url進(jìn)行還原。

　　示例：

Python爬蟲庫urllib使用詳解27

　　執(zhí)行結(jié)果：

Python爬蟲庫urllib使用詳解28

　　五、urllib.robotparser模塊

　　(在網(wǎng)絡(luò)爬蟲中基本不會用到，使用較少，僅作了解)

　　urllib.robotparser 用于解析 robots.txt 文件。

　　robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的 robots 協(xié)議，它通常用于告訴搜索引擎對網(wǎng)站的抓取規(guī)則。

　　Robots協(xié)議也稱作爬蟲協(xié)議，機(jī)器人協(xié)議，網(wǎng)絡(luò)爬蟲排除協(xié)議，用來告訴爬蟲哪些頁面是可以爬取的，哪些頁面是不可爬取的。它通常是一個robots.txt的文本文件，一般放在網(wǎng)站的根目錄上。

　　當(dāng)爬蟲訪問一個站點的時候，會首先檢查這個站點目錄是否存在robots.txt文件，如果存在，搜索爬蟲會根據(jù)其中定義的爬取范圍進(jìn)行爬取。如果沒有找到這個文件，搜索爬蟲會訪問所有可直接訪問的頁面。

　　urllib.robotparser 提供了 RobotFileParser 類，語法如下：

Python爬蟲庫urllib使用詳解29

　　這個類提供了一些可以讀取、解析 robots.txt 文件的方法：

　　set_url(url) - 設(shè)置 robots.txt 文件的 URL。

　　read() - 讀取 robots.txt URL 并將其輸入解析器。

　　parse(lines) - 解析行參數(shù)。

　　can_fetch(useragent, url) - 如果允許 useragent 按照被解析 robots.txt 文件中的規(guī)則來獲取 url 則返回 True。

　　mtime() -返回最近一次獲取 robots.txt 文件的時間。這適用于需要定期檢查 robots.txt 文件更新情況的長時間運(yùn)行的網(wǎng)頁爬蟲。

　　modified() - 將最近一次獲取 robots.txt 文件的時間設(shè)置為當(dāng)前時間。

　　crawl_delay(useragent) -為指定的 useragent 從 robots.txt 返回 Crawl-delay 形參。如果此形參不存在或不適用于指定的 useragent 或者此形參的 robots.txt 條目存在語法錯誤，則返回 None。

　　request_rate(useragent) -以 named tuple RequestRate(requests, seconds) 的形式從 robots.txt 返回 Request-rate 形參的內(nèi)容。如果此形參不存在或不適用于指定的 useragent 或者此形參的 robots.txt 條目存在語法錯誤，則返回 None。

　　site_maps() - 以 list() 的形式從 robots.txt 返回 Sitemap 形參的內(nèi)容。如果此形參不存在或者此形參的 robots.txt 條目存在語法錯誤，則返回 None。

tags:

聲明：本站稿件版權(quán)均屬千鋒教育所有，未經(jīng)許可不得擅自轉(zhuǎn)載。

10年以上業(yè)內(nèi)強(qiáng)師集結(jié)，手把手帶你蛻變精英

請您保持通訊暢通，專屬學(xué)習(xí)老師24小時內(nèi)將與您1V1溝通

免費(fèi)領(lǐng)取

今日已有369人領(lǐng)取成功

劉同學(xué) 138****2860 剛剛成功領(lǐng)取

王同學(xué) 131****2015 剛剛成功領(lǐng)取

張同學(xué) 133****4652 剛剛成功領(lǐng)取

李同學(xué) 135****8607 剛剛成功領(lǐng)取

楊同學(xué) 132****5667 剛剛成功領(lǐng)取

岳同學(xué) 134****6652 剛剛成功領(lǐng)取

梁同學(xué) 157****2950 剛剛成功領(lǐng)取

劉同學(xué) 189****1015 剛剛成功領(lǐng)取

張同學(xué) 155****4678 剛剛成功領(lǐng)取

鄒同學(xué) 139****2907 剛剛成功領(lǐng)取

董同學(xué) 138****2867 剛剛成功領(lǐng)取

周同學(xué) 136****3602 剛剛成功領(lǐng)取

上一篇

Python操作Excel數(shù)據(jù)的封裝函數(shù)

下一篇

11款超贊的MySQL圖形化工具，好用！

免費(fèi)打包獲取

相關(guān)推薦HOT

適合三農(nóng)領(lǐng)域的名字？有何技巧？

現(xiàn)在在抖音上很多博主會選擇直播來賺取更多的流量以及利潤，直播間的東西也有很多讓消費(fèi)者信任并且喜歡的，而且隨著越來越多人直播，很多農(nóng)產(chǎn)品...詳情>>

2023-09-19 07:06:05

抖店商品發(fā)布違規(guī)怎么申訴？有何規(guī)則？

抖店服務(wù)市場服務(wù)商發(fā)布違禁信息如何處理?情節(jié)嚴(yán)重程度判定原則：違規(guī)嚴(yán)重等級主要通過服務(wù)商違規(guī)次數(shù)、造成后果的嚴(yán)重程度、獲利或?qū)е聯(lián)p失的...詳情>>

2023-09-19 06:59:55

“泛垂直起號”可能是2023年最高效的起號方式

這可能是明年最好用的旗號方式了，今天教大家一個很野，但是可以讓你三天漲1000粉的偏方。去年前年啊，每個人都教你，誰知七號對著自己的產(chǎn)品拍...詳情>>

2023-09-19 06:37:38

做直播怎么賣自己的貨怎么上鏈接？能賺錢嗎？

直播賣貨是時下非?；鸬囊粋€行業(yè)，我們的產(chǎn)品可以放到網(wǎng)上賣，也可以在網(wǎng)上做直播?，F(xiàn)在的直播平臺也是很多的，基本不愁沒有銷路。如果想要賣自...詳情>>

2023-09-19 06:28:26

比較適合新手的3個不用出境的領(lǐng)域

隨著短視頻行業(yè)盛勢發(fā)展，越來越多的年輕人也想要投入這行，但又苦于不想出鏡。抖音短視頻 for Android V24.8.0 安卓手機(jī)版類型：影音播放大小...詳情>>

2023-09-19 06:06:39

快速通道更多>>

課程介紹
點擊獲取大綱
就業(yè)前景
查看就業(yè)薪資
學(xué)習(xí)費(fèi)用
了解課程價格
優(yōu)惠活動
領(lǐng)取優(yōu)惠券
學(xué)習(xí)資源
領(lǐng)3000G教程
師資團(tuán)隊
了解師資團(tuán)隊
實戰(zhàn)項目
獲取項目源碼
開班地區(qū)
查看來校路線

開班信息

北京校區(qū)

北京校區(qū)
大連校區(qū)
廣州校區(qū)
成都校區(qū)
杭州校區(qū)
長沙校區(qū)
合肥校區(qū)
南京校區(qū)
上海校區(qū)
深圳校區(qū)
武漢校區(qū)
鄭州校區(qū)
西安校區(qū)
青島校區(qū)
重慶校區(qū)
太原校區(qū)
沈陽校區(qū)
南昌校區(qū)
哈爾濱校區(qū)

熱門推薦

做自媒體怎么找到自己的定位？怎么找到自己的定位？

做自媒體選擇哪個方向？從這幾個方面去考慮

自媒體新手需要怎么做？注意事項介紹

新手做自媒體選擇什么領(lǐng)域好？這幾個領(lǐng)域適合新手

帶貨直播間主播開場白話術(shù)怎么說？有哪些話術(shù)？

當(dāng)直播間沒人說話主播怎么辦？要怎么辦？

開通抖店需要營業(yè)執(zhí)照嗎？怎么辦理？

作品上熱門一般能維持多久？火的原因有哪些？

暢看短視頻賺錢是真的嗎？有什么技巧？

適合三農(nóng)領(lǐng)域的名字？有何技巧？

技術(shù)干貨更多>>

如何實現(xiàn)服務(wù)器負(fù)載均衡

2023-12-06

linux有哪些優(yōu)勢和劣勢

2023-12-06

linux需要驅(qū)動嗎

2023-12-06

android與linux的區(qū)別

2023-12-06

如何搭建基于容器的深度學(xué)習(xí)環(huán)境

2023-12-06

職場就業(yè) 更多>>

網(wǎng)絡(luò)安全軟件開發(fā)的就業(yè)前景

2023-12-09

學(xué)會python工程師后的就業(yè)前景

2023-12-09

學(xué)會java工程師后的就業(yè)前景

2023-12-09

云計算技術(shù)就業(yè)前景以及發(fā)展方向怎樣？

2023-08-07

千鋒教育

千鋒學(xué)習(xí)站 | 隨時隨地免費(fèi)學(xué)

千鋒教育

掃一掃進(jìn)入千鋒手機(jī)站

<sub id="b0hwo"></sub>