本站小編為你精心準備了探析數(shù)據(jù)挖掘的大學生就業(yè)市場需求參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:“擇業(yè)難”“就業(yè)難”已是大學生面臨的兩難問題。該文基于網(wǎng)絡校園招聘,利用Python和SPSS工具需求視角分析就業(yè)現(xiàn)狀。研究表明,熱門職位集中在計算機、互聯(lián)網(wǎng),主要分布在北上廣深城市,但“新一線”需求比例在上升,并且私營企業(yè)占比最大。另外,企業(yè)更看重大學生的基礎能力、工作態(tài)度和品質。該研究為大學生就業(yè)、擇業(yè)提供參考和借鑒。
關鍵詞:就業(yè)指導;大學生招聘;數(shù)據(jù)挖掘;Python
1 背景
隨著我國改革開放不斷深化,高校教育模式也從精英轉為大眾教育,導致大學生就業(yè)壓力日益增大。通過分析,人們發(fā)現(xiàn)“就業(yè)難”的影響因素之一就是“擇業(yè)難”。由于企業(yè)和學生存在信息不對稱問題[1],導致人才結構性化短缺。因此,本文用爬蟲算法收集招聘網(wǎng)站信息,分析需求的熱門區(qū)域、熱門職業(yè)、熱門職位的技能要求等。為高校和大學生解決“就業(yè)難”“擇業(yè)難”的問題。
2 大學生招聘方式分析
企業(yè)針對大學生招聘通常會采用校園招聘或者網(wǎng)絡招聘。校園招聘是專門針對應屆大學生的招聘方式。目前,應屆畢業(yè)生主要就業(yè)途徑就是校園招聘,但是,艾瑞咨詢在《中國校園招聘大學生洞察白皮書》中指出獲得1~3家企業(yè)面試的學生比例近 40%,這說明應屆畢業(yè)生雖然參與不少校園招聘,但成功獲取Offer還是具有一定難度。網(wǎng)絡招聘是以招聘平臺為載體,企業(yè)在平臺招聘信息,它可以將就業(yè)信息全方位地提供給學生[2],相較于傳統(tǒng)的線下招聘,它更節(jié)約時間成本和空間成本。典型的招聘網(wǎng)站如“前程無憂”“智聯(lián)招聘”等。網(wǎng)絡招聘發(fā)展至今,已經(jīng)積累了大量的職位信息,隨著AI技術的日漸成熟,依靠網(wǎng)絡就能夠實現(xiàn)精準的職位推薦[3],對于促進大學生就業(yè)是十分有意義的。
3 企業(yè)招聘市場需求數(shù)據(jù)挖掘
3.1 數(shù)據(jù)獲取
1)數(shù)據(jù)源的選擇。招聘網(wǎng)站有很多,但是最有影響力的綜合招聘網(wǎng)站非前程無憂(51job.com)莫屬。前程無憂招聘網(wǎng)站上具有海量的招聘信息,覆蓋的知名企業(yè)較多。所以本文選擇從前程無憂招聘網(wǎng)站上獲取職位信息。
2)Python爬蟲獲取數(shù)據(jù)。Python閱讀簡單,代碼結構清晰、明了[4]。利用爬蟲算法獲取以下信息。①獲取熱門職位名單。前程無憂網(wǎng)有各類職位信息,職位名稱眾多,為了 Python 爬蟲可以實現(xiàn),我們需要先確定職位名稱。由于前程無憂沒有提供職位名稱集合,我們選擇從 BOSS 直聘首頁獲取職位名稱。②獲取熱門職位信息。由于我們研究的市場需求是針對大學生就業(yè),所以在爬取職位信息時,將工作年限參數(shù)設置為“在校生/應屆生”。獲取熱門職位的爬蟲代碼如下:def count_page():"根據(jù)boss 直聘首頁的職位名獲取職位名稱集合,再從前程無憂上獲取熱門職位"driver_path = r"D:\Chrome\Downloads\chromedriver.exe"file_name = r"D:\Python_code\Python程序\爬蟲相關代碼\51job\原始數(shù)據(jù)\數(shù)量.xlsx"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;x64) Apple Web Kit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}browser = webdriver.Chrome(executable_path=driver_path)url = []browser.get(url)html = browser.page_sourceselector = etree.HTML(html)job_names += selector. xpath("http://div[@class= 'job-menu']//div[@class='menu-sub']//li/div[@class='text']/a/text()")name_nums = {}for name in job_names:browser = webdriver. Chrome(executable_path=driv⁃er_path)input_tag = browser.find_element_by_id("kwdselectid")input_tag.send_keys(name)input_tag.clear()click_tag = browser.find_element(By.LINK_TEXT, "搜索")click_tag.click()html = browser.page_sourcehtml = etree.HTML(html)job_url = html. xpath("http://div[contains(@id, 'filter_work⁃year')]//li[2]/a/@href")web = requests.get(job_url, headers=headers)web.encoding = "gbk"dom = etree.HTML(web.text)page_nums = dom.xpath("http://span[@class='td']/text()")[0]nums = page_nums.split(",")[0][1:-1]name_nums[name] = int(nums)browser.quit()names_nums = dict(sorted(name_nums.items(), key= lamb⁃da x: x[1], reverse=True))df_dic = {"崗位名": list(names_nums.keys()[:11]),"數(shù)量": list(names_nums.values()[:11])}end_df = pd.Data Frame(df_dic)end_df.to_excel(file_name, encoding="gbk",index=None)③爬取的結果。利用 Python 中的 requests 庫獲取職位信息,將其存入 EXCEL 表格,最后獲取職位信息原始數(shù)據(jù)量為68197條。如圖1所示。
3.2 數(shù)據(jù)預處理
由于網(wǎng)絡爬蟲獲取的職位信息是雜亂、殘缺的,還夾雜無意義字符,為此就需要進行預處理。首先,清理原始職位信息中重復、殘缺的;然后,根據(jù)需要對清洗后部分字段數(shù)值化。
1)數(shù)據(jù)清洗。通過數(shù)據(jù)審查,進行數(shù)據(jù)清洗。
2)數(shù)據(jù)數(shù)值化。對清洗后的數(shù)據(jù)進行灰色關聯(lián)度分析,對行業(yè)和公司類型進行主觀分析,完成數(shù)值化處理。本文對工作地點進行數(shù)值化時,將北京、上海、廣州和深圳歸為一類,“新一線”城市歸為一類,其余城市歸為一類;公司規(guī)模原本是一段區(qū)間表示,現(xiàn)在用區(qū)間的中間數(shù)來表示公司規(guī)模。3.3 數(shù)據(jù)分析與挖掘數(shù)據(jù)挖掘技術可以對就業(yè)信息進行優(yōu)化,更有針對性地就業(yè)指導[5]1)統(tǒng)計分析。根據(jù)研究需要,對相關字段進行詞頻統(tǒng)計,并將統(tǒng)計結果可視化。①熱門職位統(tǒng)計。由于職位種類眾多,本文運用職位列表頁數(shù)來判斷熱度;②熱門城市。利用經(jīng)過清洗后的職位信息進行詞頻統(tǒng)計;③熱門行業(yè)。與熱門城市統(tǒng)計類似,唯一不同的是按行業(yè)分組;④工作描述。本文針對職位中的工作描述、職位要求進行的詞頻統(tǒng)計分析,以詞云形式展示該職位求職者能力和技能要求;⑤其他統(tǒng)計分析。利用 Py⁃thon 對招聘組織類型進行歸類,再分析市場中招聘組織的比例、各熱門城市占行業(yè)的比例;利用SPSS計算各個行業(yè)的平均工資,計算得出平均工資最高的行業(yè);分析熱門職位的分布情況,職位主要集中在哪些區(qū)域;分析熱門職位的薪資水平,計算各個熱門的薪資情況等。2)灰色關聯(lián)度分析。一個職位的薪資水平受多個因素的影響,本文選取工作地點、公司類型、公司規(guī)模和行業(yè)對薪資的影響四個維度,分析每個職位受這四個因素的影響程度。
4 招聘市場需求數(shù)據(jù)挖掘結果分析
4.1 本年度企業(yè)招聘市場總體情況
1)熱門職位情況。如圖 2 所示,根據(jù)熱門職位統(tǒng)計結果。發(fā)現(xiàn)銷售是市場需求量最大的職位,其后是數(shù)據(jù)分析和運營;但是與計算機、互聯(lián)網(wǎng)相關技術的職位占據(jù)了熱門職位的一半左右,表明市場對計算機互聯(lián)網(wǎng)技術人才仍然有很大需求。
2)熱門行業(yè)。熱門行業(yè)統(tǒng)計可知,計算機軟件和互聯(lián)網(wǎng)的詞頻數(shù)遙遙領先,但是較為傳統(tǒng)的行業(yè),如房地產、金融貿易和教育行業(yè),仍占有一定的比例。
3)熱門城市。熱門統(tǒng)計結果顯示,北上廣深“老牌”一線城市的職位需求量仍是最大,其后是成都、杭州、南京和武漢等屬于“新一線”的城市。總之招聘需求主要集中在相對發(fā)達城市。
4)招聘組織類型。如圖3所示,招聘組織中私營企業(yè)的需求最大,其次是國企,而政府機關和外企代表處的招聘需求是最小的。
5)熱門城市行業(yè)發(fā)展情況。從統(tǒng)計結果可知,需求最大的三個行業(yè)是互聯(lián)網(wǎng)、網(wǎng)絡游戲和計算機軟件,總份額占百分之五十;而需求的角度判斷行業(yè)的發(fā)展,毫無疑問在廣州發(fā)展情況最好。
6)行業(yè)平均薪資。統(tǒng)計可知,薪資前十行業(yè)中,平均薪資最高的是銀行,其次是金融、房地產和學術,出乎預料的是招聘需求大的互聯(lián)網(wǎng)行業(yè)的平均薪資并不高。
4.2 具體崗位分析結果以Java技術崗位為例。
1)職位描述詞云。以Java崗位為例,對大學生有三方面要求,即技術能力、編程素養(yǎng)和個人品質方面的要求。如圖 4所示。
2)職位城市分布??梢钥吹?Java 職位數(shù)量最多的省份是廣東,而從整體上看,Java職位分布在廣東、上海和浙江等中國的東南區(qū)域。職位分布符合地區(qū)整體經(jīng)濟發(fā)展水平。
3)薪資分布區(qū)間。Java 技術崗的薪資主要集中在 2000-8000,其次是 8000-14000,而高于 14000 的 Java 崗位還是占少數(shù)。但整體情況是高于全國畢業(yè)生的平均工資的。
4)薪資的影響因素分析。根據(jù)統(tǒng)計結果發(fā)現(xiàn),公司類型與薪資的關聯(lián)度最高,其次是公司規(guī)模,出乎預料的是工作地點與薪資的關聯(lián)度較低。總之,公司類型的選擇對薪資影響最大,而城市對薪資影響反而不大。
4.3 大學生擇業(yè)對策建議
對高校而言,要加大對互聯(lián)網(wǎng)技術人才培養(yǎng)的力度,強化學生專業(yè)技術訓練;同時,高校還應該培養(yǎng)學生完整的知識體系,讓學生成為具有專業(yè)技能與通識能力的復合型人才。對學生而言,在做職業(yè)規(guī)劃時要了解市場,在將來工作的行業(yè)、城市和薪資都有整體規(guī)劃;同時,對于有能力、有愿望的非計算機專業(yè)學生,可以自學計算機技術;最后,學生要對自己有正確認知,不要盲目從。
參考文獻:
[1] 郜雙,羅慶玲.企業(yè)招聘中的信息不對稱問題分析及對策[J].現(xiàn)代商業(yè),2019(11):54-56.
[2] 趙婷婷,陳敏 . 智慧就業(yè)服務模式在高校大學生就業(yè)中的應用[J].科教導刊(上旬刊),2019(22):163-164.
[3] 董春輝 . 用好大數(shù)據(jù)實現(xiàn)大學生就業(yè)“私人訂制”[J]. 人民論壇,2020(4):116-117.
[4] 楊榮領.《Python語言程序設計基礎》課程教學改革實踐[J].高教學刊,2019(3):135-137.
[5] 王碩鵬.基于數(shù)據(jù)挖掘的畢業(yè)生就業(yè)信息管理決策模型研究[J].東北電力大學學報,2019,39(5):86-90.
作者:胡鵬 李長云 傅榮鑫 單位:哈爾濱理工大學