最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當前位置: 首頁 - 科技 - 知識百科 - 正文

python3使用urllib模塊制作網(wǎng)絡爬蟲

來源:懂視網(wǎng) 責編:小采 時間:2020-11-27 14:35:43
文檔

python3使用urllib模塊制作網(wǎng)絡爬蟲

python3使用urllib模塊制作網(wǎng)絡爬蟲:urllib urllib模塊是python3的URL處理包 其中: 1、urllib.request主要是打開和閱讀urls 個人平時主要用的1: 打開對應的URL:urllib.request.open(url) 用urllib.request.build_opener([handler, ...]),來偽裝成對應的瀏
推薦度:
導讀python3使用urllib模塊制作網(wǎng)絡爬蟲:urllib urllib模塊是python3的URL處理包 其中: 1、urllib.request主要是打開和閱讀urls 個人平時主要用的1: 打開對應的URL:urllib.request.open(url) 用urllib.request.build_opener([handler, ...]),來偽裝成對應的瀏

urllib

urllib模塊是python3的URL處理包

其中:

1、urllib.request主要是打開和閱讀urls

個人平時主要用的1:

打開對應的URL:urllib.request.open(url)

用urllib.request.build_opener([handler, ...]),來偽裝成對應的瀏覽器

import urllib
#要偽裝成的瀏覽器(我這個是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#將要偽裝成的瀏覽器添加到對應的http頭部
opener.addheaders=[headers]
#讀取相應的url
data = opener.open(url).read()
#將獲得的html解碼為utf-8
data=data.decode('utf-8')
print(data)

2、urllib.parse主要是用來解析url

主要方法:

urllib.parse.urlparse(urlstring)

功能:將對應的URL解析成六部分,并以元組的數(shù)據(jù)格式返回來。(在功能上和urlsplit()幾乎一模一樣)

import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

對應的結果:

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html

2、構建一個新的url——urllib.parse.urljoin(base, url)

參數(shù):base:基本的URL鏈接

url:另一個url

from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)

結果:http://www.cwi.nl/%7Eguido/FAQ.html

這個函數(shù)在爬蟲的時候應該方便多了,我之前用的是比較笨的方法直接字符串拼接

3、異常處理 urllib.error

用 try-except來捕捉異常

主要的錯誤方式就兩種 URLError和HTTPError

因為HTTPError是URLError的子類,所以URLError應該寫在HttpError后面,說白了就是找到兒子一定知道父親,找到父親,不一定知道兒子。

try:
 data=urllib.request.urlopen(url)
 print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
 print(e.code)
except urllib.error.URLError as e:
 print(e.reason)

結果:[WinError 10060] 由于連接方在一段時間后沒有正確答復或連接的主機沒有反應,連接嘗試失敗。

如果捕獲到了HTTPError,則輸出code,不會再處理URLError異常。如果發(fā)生的不是HTTPError,則會去捕獲URLError異常,輸出錯誤原因

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

python3使用urllib模塊制作網(wǎng)絡爬蟲

python3使用urllib模塊制作網(wǎng)絡爬蟲:urllib urllib模塊是python3的URL處理包 其中: 1、urllib.request主要是打開和閱讀urls 個人平時主要用的1: 打開對應的URL:urllib.request.open(url) 用urllib.request.build_opener([handler, ...]),來偽裝成對應的瀏
推薦度:
標簽: 模塊 爬蟲 python3
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

專題
Top