資料分享——Python分析拉鉤職位-創(chuàng)新互聯(lián)

視頻

創(chuàng)新互聯(lián)公司從2013年成立,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項目成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)網(wǎng)站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元精河做網(wǎng)站,已為上家服務(wù),為精河各地企業(yè)和個人服務(wù),聯(lián)系電話:18982081108

PPT+ 視頻

鏈接: https://pan.baidu.com/s/1tzG1adgpn23TSKvnR6XmYg 提取碼: 2p2t

項目代碼:https://github.com/nicksors/JobAnalysis

前言

近年來 Python 之火大家都有感而知,那親們知道北京的 Python 開發(fā)崗位、運維開發(fā)崗位招聘地域都是如何分布的嗎?薪水如何?是否有前景等等,這些數(shù)據(jù)呢直接通過招聘信息來了解到企業(yè)用人是最直接的,也是最簡單的途徑。

那本次將通過分享 Python 來抓取拉鉤的招聘信息,然后加以分析,做一個北京的 Python 職位地域分布、薪資范圍、福利待遇等維度出一個簡單的分析報告,希望能幫助到想在 Python 這片田地耕耘的童鞋在發(fā)展方向上有所參考。

使用到的工具

使用 Python 的 requests 工具到招聘網(wǎng)站爬取我們想要的數(shù)據(jù),分析和可視化也使用 Python 的相關(guān)模塊來實現(xiàn),主要有如下:
Python 版本:Python 3.x
requests:發(fā)起請求,從網(wǎng)站抓取數(shù)據(jù)
math:數(shù)學(xué)運算函數(shù),向上取整,這里主要用于分析數(shù)據(jù)
time:時間模塊,主要是控制爬蟲不會因為頻繁請求而被網(wǎng)站拉進小黑屋
pandas:數(shù)據(jù)抓取后使用該模塊保存為 csv 文件到本地
matplotlib:可視化畫圖
pylab:設(shè)置畫圖能顯示中文
wordcloud、scipy、jieba(字符串分割成單詞):生成中文詞云

如何進行數(shù)據(jù)抓取

使用 Chrome 打開拉鉤網(wǎng)站,在網(wǎng)站輸入“Python開發(fā)” 職位,使用 “檢查” 功能查看網(wǎng)頁源碼。發(fā)現(xiàn)拉鉤有反爬機制,職位信息并不在源代碼里,而是在 JSON 文件里,因此直接通過 JSON 獲取數(shù)據(jù)即可。
資料分享—— Python 分析拉鉤職位

抓取信息時,需要加上頭部信息,才能獲取到數(shù)據(jù)。(原理很簡單:你得偽裝成一個 正常的 client 去請求網(wǎng)頁才能拿到想要的數(shù)據(jù))

def get_json(url, num):
   '''從網(wǎng)頁獲取JSON,使用POST請求,加上頭部信息'''
   headers = {
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
       'Host': 'www.lagou.com',

     'Referer':'https://www.lagou.com/jobs/list_python%E5%BC%80%E5%8F%91?labelWords=&;fromSearch=true&suginput=',
       'X-Anit-Forge-Code': '0',
     'X-Anit-Forge-Token': 'None',
     'X-Requested-With': 'XMLHttpRequest'
   }

   data = {
       'first': 'true',
       'pn': num,
       'kd': 'Python開發(fā)'}
   res = requests.post(url, headers=headers, data=data)
   res.raise_for_status()
   res.encoding = 'utf-8'
   # 得到包含職位信息的字典
   page = res.json()
   return page

在搜索結(jié)果的第一頁,我們可以從 JSON 里讀取總職位數(shù),按照每頁15個職位,獲得要爬取的頁數(shù)。再使用循環(huán)按頁爬取,將職位信息匯總,輸出為 CSV 格式。

序運行如下:
資料分享—— Python 分析拉鉤職位

抓取結(jié)果如下:
資料分享—— Python 分析拉鉤職位

數(shù)據(jù)可視化畫圖展示

1、根據(jù)薪資制作直方圖

薪資比例描述和可視化出圖
資料分享—— Python 分析拉鉤職位

資料分享—— Python 分析拉鉤職位

2、根據(jù)崗位地域分布制作餅圖

資料分享—— Python 分析拉鉤職位

3、制作詞云

將職位福利這一列數(shù)據(jù)進行匯總,按照詞語出現(xiàn)的頻率生成云詞實現(xiàn) Python 可視化,以下是原圖和云詞圖對比:
資料分享—— Python 分析拉鉤職位

Python 第20期入門班正在火熱招生中

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

當(dāng)前名稱:資料分享——Python分析拉鉤職位-創(chuàng)新互聯(lián)
分享網(wǎng)址:http://muchs.cn/article2/cddpoc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、用戶體驗、服務(wù)器托管、定制開發(fā)、靜態(tài)網(wǎng)站、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

商城網(wǎng)站建設(shè)