最新文章專(zhuān)題視頻專(zhuān)題問(wèn)答1問(wèn)答10問(wèn)答100問(wèn)答1000問(wèn)答2000關(guān)鍵字專(zhuān)題1關(guān)鍵字專(zhuān)題50關(guān)鍵字專(zhuān)題500關(guān)鍵字專(zhuān)題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關(guān)鍵字專(zhuān)題關(guān)鍵字專(zhuān)題tag2tag3文章專(zhuān)題文章專(zhuān)題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專(zhuān)題3
問(wèn)答文章1 問(wèn)答文章501 問(wèn)答文章1001 問(wèn)答文章1501 問(wèn)答文章2001 問(wèn)答文章2501 問(wèn)答文章3001 問(wèn)答文章3501 問(wèn)答文章4001 問(wèn)答文章4501 問(wèn)答文章5001 問(wèn)答文章5501 問(wèn)答文章6001 問(wèn)答文章6501 問(wèn)答文章7001 問(wèn)答文章7501 問(wèn)答文章8001 問(wèn)答文章8501 問(wèn)答文章9001 問(wèn)答文章9501
當(dāng)前位置: 首頁(yè) - 科技 - 知識(shí)百科 - 正文

node.js爬取中關(guān)村的在線電瓶車(chē)信息

來(lái)源:懂視網(wǎng) 責(zé)編:小采 時(shí)間:2020-11-27 22:04:04
文檔

node.js爬取中關(guān)村的在線電瓶車(chē)信息

node.js爬取中關(guān)村的在線電瓶車(chē)信息:背景 學(xué)習(xí)nodejs已經(jīng)有段時(shí)間,網(wǎng)上很多nodejs爬蟲(chóng)的文章,所以著手練習(xí)寫(xiě)一段,最近打算買(mǎi)一輛電瓶車(chē)來(lái)上下班,但又不知道哪個(gè)好,網(wǎng)上是各說(shuō)紛紜啊,于是就想著,干脆用node.js自己寫(xiě)一個(gè)小爬蟲(chóng),來(lái)爬一下中關(guān)村在線里面電瓶車(chē)的信息吧。 簡(jiǎn)介 該d
推薦度:
導(dǎo)讀node.js爬取中關(guān)村的在線電瓶車(chē)信息:背景 學(xué)習(xí)nodejs已經(jīng)有段時(shí)間,網(wǎng)上很多nodejs爬蟲(chóng)的文章,所以著手練習(xí)寫(xiě)一段,最近打算買(mǎi)一輛電瓶車(chē)來(lái)上下班,但又不知道哪個(gè)好,網(wǎng)上是各說(shuō)紛紜啊,于是就想著,干脆用node.js自己寫(xiě)一個(gè)小爬蟲(chóng),來(lái)爬一下中關(guān)村在線里面電瓶車(chē)的信息吧。 簡(jiǎn)介 該d

背景

學(xué)習(xí)nodejs已經(jīng)有段時(shí)間,網(wǎng)上很多nodejs爬蟲(chóng)的文章,所以著手練習(xí)寫(xiě)一段,最近打算買(mǎi)一輛電瓶車(chē)來(lái)上下班,但又不知道哪個(gè)好,網(wǎng)上是各說(shuō)紛紜啊,于是就想著,干脆用node.js自己寫(xiě)一個(gè)小爬蟲(chóng),來(lái)爬一下中關(guān)村在線里面電瓶車(chē)的信息吧。

簡(jiǎn)介

該demo采用node.js作為爬蟲(chóng),為方便,有些地方使用es6語(yǔ)法,如有不懂,歡迎咨詢(xún)😊

步驟

第一步,引入需要的庫(kù)

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一個(gè)類(lèi)似瀏覽器端的jQuery,用來(lái)解析HTML的
// fetch 用來(lái)發(fā)送請(qǐng)求

第二步,設(shè)置初始的爬取的入口(我身處杭州,所以地區(qū)選了杭州的🤣)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每個(gè)a標(biāo)簽下是相對(duì)路徑,故需要一個(gè)根地址來(lái)拼接,如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url,之所以用set,是為了防止有相同的而重復(fù)爬去
var urls = new Set()
// 存儲(chǔ)所有數(shù)據(jù)
var data = [] 

至此,我們的準(zhǔn)備部分結(jié)束了😅,接下來(lái),開(kāi)始表演了

分析網(wǎng)頁(yè),思考爬取的方式


每行4款,每頁(yè)是48款,一共16頁(yè)

思路:

  • 每次獲取當(dāng)前頁(yè)48個(gè)鏈接,并點(diǎn)進(jìn)去之后,拿到該電瓶車(chē)的名稱(chēng)和價(jià)格(其他信息獲取方式一樣,自行改就好😂)
  • 第一頁(yè)的全部完成之后,翻到下一頁(yè),繼續(xù)爬,直到最后一頁(yè)結(jié)束
  • 首先我們定義一個(gè)函數(shù)如下

    // 這是得到每個(gè)頁(yè)面的48個(gè)鏈接,并開(kāi)始發(fā)送請(qǐng)求
    
    function ad(arg){
    // 參數(shù) arg 先不管
    // 本地化一下需要爬取的鏈接
    let url2 = arg || url;
    // 請(qǐng)求第一頁(yè)該網(wǎng)頁(yè),拿到數(shù)據(jù)之后,復(fù)制給 app
    var app = await fetch(url2).then(res=>res.text())
    // 然后假裝用jQuery解析了
    var $ = cheerio.load(app)
    // 獲取當(dāng)前頁(yè)所有電瓶車(chē)的a標(biāo)簽
    var ele = $("#J_PicMode a.pic")
    // 存放已經(jīng)爬取過(guò)的url,防止重復(fù)爬取
    var old_urls = []
    var urlapp = []
    //拿到所有a標(biāo)簽地址之后,存在數(shù)組里面,等會(huì)兒要開(kāi)始爬的
    for (let i = 0; i < ele.length; i++) {
    old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    // 用把URL一塊丟給promise處理
    urlapp = await Promise.all(old_urls)
    // 處理完成之后,循環(huán)加入jQuery😂
    for (let i = 0; i < urlapp.length; i++) {
    let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
    data.push({
    name:$2(".product-model__name").text(),
    price:$2(".price-type").text()
    })
    }
    // 至此,一頁(yè)的數(shù)據(jù)就爬完了
    // console.log(data);
    
    // 然后開(kāi)始爬取下一頁(yè)
    var nextURL = $(".next").attr('href')
    // 判斷當(dāng)前頁(yè)是不是最后一頁(yè)
    if (nextURL){
    let next = await fetch(urlRoot+nextURL).then(res=>res.text())
    // 獲取下一頁(yè)的標(biāo)簽,拿到地址,走你
    ad(urlRoot+nextURL)
    }
    return data
    }
    ad()

    完整代碼如下

    var cheerio = require('cheerio');
    var fetch = require('node-fetch');
    var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
    var urlRoot = "http://detail.zol.com.cn"
    // var url = "http://localhost:3222/app1"
    var urls = new Set()
    var data = [] 
    async function ad(arg){
    let url2 = arg || url;
    var app = await fetch(url2).then(res=>res.text())
    var $ = cheerio.load(app)
    var ele = $("#J_PicMode a.pic")
    var old_urls = []
    var urlapp = []
    for (let i = 0; i < ele.length; i++) {
    old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    urlapp = await Promise.all(old_urls)
    for (let i = 0; i < urlapp.length; i++) {
    let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
    data.push({
    name:$2(".product-model__name").text(),
    price:$2(".price-type").text()
    })
    }
    
    var nextURL = $(".next").attr('href')
    if (nextURL){
    let next = await fetch(urlRoot+nextURL).then(res=>res.text())
    ad(urlRoot+nextURL)
    }
    return data
    }
    ad()

    總結(jié)

    聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

    文檔

    node.js爬取中關(guān)村的在線電瓶車(chē)信息

    node.js爬取中關(guān)村的在線電瓶車(chē)信息:背景 學(xué)習(xí)nodejs已經(jīng)有段時(shí)間,網(wǎng)上很多nodejs爬蟲(chóng)的文章,所以著手練習(xí)寫(xiě)一段,最近打算買(mǎi)一輛電瓶車(chē)來(lái)上下班,但又不知道哪個(gè)好,網(wǎng)上是各說(shuō)紛紜啊,于是就想著,干脆用node.js自己寫(xiě)一個(gè)小爬蟲(chóng),來(lái)爬一下中關(guān)村在線里面電瓶車(chē)的信息吧。 簡(jiǎn)介 該d
    推薦度:
    標(biāo)簽: 電瓶車(chē) node.js Nodejs
    • 熱門(mén)焦點(diǎn)

    最新推薦

    猜你喜歡

    熱門(mén)推薦

    專(zhuān)題
    Top