點擊下載
本文文檔

當(dāng)前位置：首頁 - 科技 - 知識百科 - 正文

python xpath

來源：懂視網(wǎng) 責(zé)編：李贏贏時間：2022-03-23 18:27:24

python xpath

一、簡介：XPath是一門在XML文檔中查找信息的語言。XPath可用來在XML文檔中對元素和屬性進(jìn)行遍歷。二、安裝：pip3installlxml。三、使用：導(dǎo)入fromlxmlimportetree；基本使用：fromlxmlimportetree。

推薦度：

點擊下載本文 文檔為doc格式

導(dǎo)讀一、簡介：XPath是一門在XML文檔中查找信息的語言。XPath可用來在XML文檔中對元素和屬性進(jìn)行遍歷。二、安裝：pip3installlxml。三、使用：導(dǎo)入fromlxmlimportetree；基本使用：fromlxmlimportetree。

python中xpath怎么使用呢？不知道的小伙伴來看看小編今天的分享吧!

一、xpath簡介

XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進(jìn)行遍歷。XPath 是 W3C XSLT 標(biāo)準(zhǔn)的主要元素，并且 XQuery 和 XPointer 都構(gòu)建于 XPath 表達(dá)之上。

二、安裝

pip3 install lxml

三、使用

1、導(dǎo)入

from lxml import etree

2、基本使用

from lxml import etree

wb_data = """

<div>

<ul>

<li class="item-0"><a href="link1.html">first item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-inactive"><a href="link3.html">third item</a></li>

<li class="item-1"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a>

</ul>

</div>

"""

html = etree.HTML(wb_data)

print(html)

result = etree.tostring(html)

print(result.decode("utf-8"))

從下面的結(jié)果來看，我們打印機(jī)html其實就是一個python對象，etree.tostring(html)則是不全里html的基本寫法，補(bǔ)全了缺胳膊少腿的標(biāo)簽。

<ul>

<li class="item-0"><a href="link1.html">first item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-inactive"><a href="link3.html">third item</a></li>

<li class="item-1"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a>

</li></ul>

</div>

</body></html>

3、獲取某個標(biāo)簽的內(nèi)容(基本使用)，注意，獲取a標(biāo)簽的所有內(nèi)容，a后面就不用再加正斜杠，否則報錯。

寫法一

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a')

print(html)

for i in html_data:

print(i.text)

first item

second item

third item

fourth item

fifth item

寫法二（直接在需要查找內(nèi)容的標(biāo)簽后面加一個/text()就行）

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a/text()')

print(html)

for i in html_data:

print(i)

first item

second item

third item

fourth item

fifth item

4、打開讀取html文件

#使用parse打開html的文件

html = etree.parse('test.html')

html_data = html.xpath('//*')<br>#打印是一個列表，需要遍歷

print(html_data)

for i in html_data:

print(i.text)

html = etree.parse('test.html')

html_data = etree.tostring(html,pretty_print=True)

res = html_data.decode('utf-8')

print(res)

打?。?/p>

<div>

<ul>

<li class="item-0"><a href="link1.html">first item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-inactive"><a href="link3.html">third item</a></li>

<li class="item-1"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a></li>

</ul>

</div>

5、打印指定路徑下a標(biāo)簽的屬性（可以通過遍歷拿到某個屬性的值，查找標(biāo)簽的內(nèi)容）

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a/@href')

for i in html_data:

print(i)

打?。?/p>

link1.html

link2.html

link3.html

link4.html

link5.html

6、我們知道我們使用xpath拿到得都是一個個的ElementTree對象，所以如果需要查找內(nèi)容的話，還需要遍歷拿到數(shù)據(jù)的列表。

查到絕對路徑下a標(biāo)簽屬性等于link2.html的內(nèi)容。

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()')

print(html_data)

for i in html_data:

print(i)

打?。?/p>

['second item']

second item

7、上面的找到全部都是絕對路徑（每一個都是從根開始查找），下面是查找相對路徑，例如，查找所有l(wèi)i標(biāo)簽下的a標(biāo)簽內(nèi)容。

html = etree.HTML(wb_data)

html_data = html.xpath('//li/a/text()')

print(html_data)

for i in html_data:

print(i)

打?。?/p>

['first item', 'second item', 'third item', 'fourth item', 'fifth item']

first item

second item

third item

fourth item

fifth item

8、上面我們使用絕對路徑，查找了所有a標(biāo)簽的屬性等于href屬性值，利用的是/---絕對路徑，下面我們使用相對路徑，查找一下l相對路徑下li標(biāo)簽下的a標(biāo)簽下的href屬性的值，注意，a標(biāo)簽后面需要雙//。

html = etree.HTML(wb_data)

html_data = html.xpath('//li/a//@href')

print(html_data)

for i in html_data:

print(i)

打?。?/p>

['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

link1.html

link2.html

link3.html

link4.html

link5.html

9、相對路徑下跟絕對路徑下查特定屬性的方法類似，也可以說相同。

html = etree.HTML(wb_data)

html_data = html.xpath('//li/a[@href="link2.html"]')

print(html_data)

for i in html_data:

print(i.text)

打?。?/p>

[<Element a at 0x216e468>]

second item

10、查找最后一個li標(biāo)簽里的a標(biāo)簽的href屬性

html = etree.HTML(wb_data)

html_data = html.xpath('//li[last()]/a/text()')

print(html_data)

for i in html_data:

print(i)

打?。?/p>

['fifth item']

fifth item

11、查找倒數(shù)第二個li標(biāo)簽里的a標(biāo)簽的href屬性

html = etree.HTML(wb_data)

html_data = html.xpath('//li[last()-1]/a/text()')

print(html_data)

for i in html_data:

print(i)

打?。?/p>

['fourth item']

fourth item

12、如果在提取某個頁面的某個標(biāo)簽的xpath路徑的話，可以如下圖：

//*[@id="kw"]

解釋：使用相對路徑查找所有的標(biāo)簽，屬性id等于kw的標(biāo)簽。

以上就是小編今天的分享了，希望可以幫助到大家。

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

python xpath

推薦度：

點擊下載本文 文檔為doc格式

標(biāo)簽： python xpath

熱門焦點

python xpath

python xpath

python xpath

最新推薦

猜你喜歡

熱門推薦