python爬取拉勾網(wǎng)職位數(shù)據(jù)的方法-創(chuàng)新互聯(lián)

今天寫(xiě)的這篇文章是關(guān)于python爬蟲(chóng)簡(jiǎn)單的一個(gè)使用,選取的爬取對(duì)象是著名的招聘網(wǎng)站——拉鉤網(wǎng),由于和大家的職業(yè)息息相關(guān),所以爬取拉鉤的數(shù)據(jù)進(jìn)行分析,對(duì)于職業(yè)規(guī)劃和求職時(shí)的信息提供有很大的幫助。

創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比蘇家屯網(wǎng)站開(kāi)發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫(kù),直接使用。一站式蘇家屯網(wǎng)站制作公司更省心,省錢(qián),快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋蘇家屯地區(qū)。費(fèi)用合理售后完善,10多年實(shí)體公司更值得信賴。

完成的效果

  爬取數(shù)據(jù)只是第一步,怎樣使用和分析數(shù)據(jù)也是一大重點(diǎn),當(dāng)然這不是本次博客的目的,由于本次只是一個(gè)上手的爬蟲(chóng)程序,所以我們的最終目的只是爬取到拉鉤網(wǎng)的職位信息,然后保存到Mysql數(shù)據(jù)庫(kù)中。最后中的效果示意圖如下:

python爬取拉勾網(wǎng)職位數(shù)據(jù)的方法 

控制臺(tái)輸入

python爬取拉勾網(wǎng)職位數(shù)據(jù)的方法 

數(shù)據(jù)庫(kù)顯示

準(zhǔn)備工作

  首先需要安裝python,這個(gè)網(wǎng)上已經(jīng)有很多的教程了,這里就默認(rèn)已經(jīng)安裝python,博主使用的是python3.6,然后安裝了requests、pymysql(連接數(shù)據(jù)庫(kù)使用)和Mysql數(shù)據(jù)庫(kù)。

分析拉勾網(wǎng)

  首先我們打開(kāi)拉勾網(wǎng),打開(kāi)控制臺(tái),搜索java關(guān)鍵詞搜索職位,選取北京地區(qū),然后查看network一欄中的數(shù)據(jù)分析,查看第一個(gè),是不是感覺(jué)它很像我們要拿到的請(qǐng)求地址,事實(shí)上不是的,這個(gè)打開(kāi)之后是一個(gè)html,如果我們?cè)L問(wèn)這個(gè)接口,拉鉤會(huì)返回給我們一個(gè)結(jié)果,提示我們操作太頻繁,也就是被攔截了。不過(guò)從這個(gè)頁(yè)面可以看到,拉鉤的網(wǎng)頁(yè)用到了模板,這種加載數(shù)據(jù)的方式更加快速(大幅度提升),建議大家可以嘗試使用一下(個(gè)人拙見(jiàn))

python爬取拉勾網(wǎng)職位數(shù)據(jù)的方法

不要?dú)怵H,我們接著往下找,可以看到一個(gè)“positionAjax”開(kāi)頭的請(qǐng)求,沒(méi)錯(cuò)就它“ https://www.lagou.com/jobs/positionAjax.jsonpx=default&city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false&isSchoolJob=0 ”,還是看圖說(shuō)話吧

python爬取拉勾網(wǎng)職位數(shù)據(jù)的方法 

找到請(qǐng)求地址之后,我們就開(kāi)始寫(xiě)代碼了。

先是導(dǎo)入requests和pymysql,然后requests的post方法訪問(wèn)上面找到的url,但是直接訪問(wèn)這個(gè)地址是會(huì)被攔截的,因?yàn)槲覀內(nèi)鄙偎獋鬏數(shù)臄?shù)據(jù),和設(shè)置請(qǐng)求頭,會(huì)被認(rèn)為是非自然人請(qǐng)求的,加入請(qǐng)求頭和數(shù)據(jù),

 headers = {'Referer':'https://www.lagou.com/jobs/list_'+position+'?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=',    'Origin':'https://www.lagou.com',    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
    'Accept':'application/json, text/javascript, */*; q=0.01',
    'Cookie':'JSESSIONID=ABAAABAAAGFABEFE8A2337F3BAF09DBCC0A8594ED74C6C0; user_trace_token=20180122215242-849e2a04-ff7b-11e7-a5c6-5254005c3644; LGUID=20180122215242-849e3549-ff7b-11e7-a5c6-5254005c3644; index_location_city=%E5%8C%97%E4%BA%AC; _gat=1; TG-TRACK-CODE=index_navigation; _gid=GA1.2.1188502030.1516629163; _ga=GA1.2.667506246.1516629163; LGSID=20180122215242-849e3278-ff7b-11e7-a5c6-5254005c3644; LGRID=20180122230310-5c6292b3-ff85-11e7-a5d5-5254005c3644; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1516629163,1516629182; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1516633389; SEARCH_ID=8d3793ec834f4b0e8e680572b83eb968'
    }
 dates={'first':'true',
   'pn': page,#頁(yè)數(shù)
   'kd': position#搜索的職位
 }

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

分享標(biāo)題:python爬取拉勾網(wǎng)職位數(shù)據(jù)的方法-創(chuàng)新互聯(lián)
文章鏈接:http://www.muchs.cn/article24/peije.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊(cè)定制網(wǎng)站、定制開(kāi)發(fā)響應(yīng)式網(wǎng)站、商城網(wǎng)站、網(wǎng)站維護(hù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

小程序開(kāi)發(fā)