node.js爬取中關(guān)村的在線電瓶車(chē)信息

來(lái)源：懂視網(wǎng) 責(zé)編：小采時(shí)間：2020-11-27 22:04:04

node.js爬取中關(guān)村的在線電瓶車(chē)信息

node.js爬取中關(guān)村的在線電瓶車(chē)信息:背景學(xué)習(xí)nodejs已經(jīng)有段時(shí)間，網(wǎng)上很多nodejs爬蟲(chóng)的文章，所以著手練習(xí)寫(xiě)一段，最近打算買(mǎi)一輛電瓶車(chē)來(lái)上下班，但又不知道哪個(gè)好，網(wǎng)上是各說(shuō)紛紜啊，于是就想著，干脆用node.js自己寫(xiě)一個(gè)小爬蟲(chóng)，來(lái)爬一下中關(guān)村在線里面電瓶車(chē)的信息吧。簡(jiǎn)介該d

推薦度：

點(diǎn)擊下載本文 文檔為doc格式

導(dǎo)讀node.js爬取中關(guān)村的在線電瓶車(chē)信息:背景學(xué)習(xí)nodejs已經(jīng)有段時(shí)間，網(wǎng)上很多nodejs爬蟲(chóng)的文章，所以著手練習(xí)寫(xiě)一段，最近打算買(mǎi)一輛電瓶車(chē)來(lái)上下班，但又不知道哪個(gè)好，網(wǎng)上是各說(shuō)紛紜啊，于是就想著，干脆用node.js自己寫(xiě)一個(gè)小爬蟲(chóng)，來(lái)爬一下中關(guān)村在線里面電瓶車(chē)的信息吧。簡(jiǎn)介該d

背景

學(xué)習(xí)nodejs已經(jīng)有段時(shí)間，網(wǎng)上很多nodejs爬蟲(chóng)的文章，所以著手練習(xí)寫(xiě)一段，最近打算買(mǎi)一輛電瓶車(chē)來(lái)上下班，但又不知道哪個(gè)好，網(wǎng)上是各說(shuō)紛紜啊，于是就想著，干脆用node.js自己寫(xiě)一個(gè)小爬蟲(chóng)，來(lái)爬一下中關(guān)村在線里面電瓶車(chē)的信息吧。

簡(jiǎn)介

該demo采用node.js作為爬蟲(chóng)，為方便，有些地方使用es6語(yǔ)法，如有不懂，歡迎咨詢(xún)😊

步驟

第一步，引入需要的庫(kù)

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一個(gè)類(lèi)似瀏覽器端的jQuery，用來(lái)解析HTML的
// fetch 用來(lái)發(fā)送請(qǐng)求

第二步，設(shè)置初始的爬取的入口(我身處杭州，所以地區(qū)選了杭州的🤣)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每個(gè)a標(biāo)簽下是相對(duì)路徑，故需要一個(gè)根地址來(lái)拼接，如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url，之所以用set，是為了防止有相同的而重復(fù)爬去
var urls = new Set()
// 存儲(chǔ)所有數(shù)據(jù)
var data = []

至此，我們的準(zhǔn)備部分結(jié)束了😅，接下來(lái)，開(kāi)始表演了

分析網(wǎng)頁(yè)，思考爬取的方式

每行4款，每頁(yè)是48款，一共16頁(yè)

思路：

每次獲取當(dāng)前頁(yè)48個(gè)鏈接，并點(diǎn)進(jìn)去之后，拿到該電瓶車(chē)的名稱(chēng)和價(jià)格（其他信息獲取方式一樣，自行改就好😂）

第一頁(yè)的全部完成之后，翻到下一頁(yè)，繼續(xù)爬，直到最后一頁(yè)結(jié)束

首先我們定義一個(gè)函數(shù)如下

// 這是得到每個(gè)頁(yè)面的48個(gè)鏈接，并開(kāi)始發(fā)送請(qǐng)求

function ad(arg){
// 參數(shù) arg 先不管
// 本地化一下需要爬取的鏈接
let url2 = arg || url;
// 請(qǐng)求第一頁(yè)該網(wǎng)頁(yè)，拿到數(shù)據(jù)之后，復(fù)制給 app
var app = await fetch(url2).then(res=>res.text())
// 然后假裝用jQuery解析了
var $ = cheerio.load(app)
// 獲取當(dāng)前頁(yè)所有電瓶車(chē)的a標(biāo)簽
var ele = $("#J_PicMode a.pic")
// 存放已經(jīng)爬取過(guò)的url，防止重復(fù)爬取
var old_urls = []
var urlapp = []
//拿到所有a標(biāo)簽地址之后，存在數(shù)組里面，等會(huì)兒要開(kāi)始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一塊丟給promise處理
urlapp = await Promise.all(old_urls)
// 處理完成之后，循環(huán)加入jQuery😂
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此，一頁(yè)的數(shù)據(jù)就爬完了
// console.log(data);

// 然后開(kāi)始爬取下一頁(yè)
var nextURL = $(".next").attr('href')
// 判斷當(dāng)前頁(yè)是不是最后一頁(yè)
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 獲取下一頁(yè)的標(biāo)簽，拿到地址，走你
ad(urlRoot+nextURL)
}
return data
}
ad()

完整代碼如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = [] 
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}

var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()

總結(jié)

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

node.js爬取中關(guān)村的在線電瓶車(chē)信息

推薦度：

點(diǎn)擊下載本文 文檔為doc格式

標(biāo)簽：電瓶車(chē) node.js Nodejs

熱門(mén)焦點(diǎn)

node.js爬取中關(guān)村的在線電瓶車(chē)信息

node.js爬取中關(guān)村的在線電瓶車(chē)信息

node.js爬取中關(guān)村的在線電瓶車(chē)信息

最新推薦

猜你喜歡

熱門(mén)推薦