BOSS直聘上算法岗位的薪资分析

本文主要是介绍BOSS直聘上算法岗位的薪资分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、数据介绍及预处理

1、数据介绍

2、数据预处理

二、数据分析

1、缺失值统计

2、岗位数量、薪资水平统计

3、企业维度岗位数量

4、top薪资岗位

三、划重点

少走10年弯路

元旦抽空爬取了一下BOSS直聘上base北京的算法岗位的相关数据，本文简单分析拿给大家做参考，看完才发现算法薪资原来这么高啊、轻松秒掉数据分析。

在PC端上打开BOSS直聘网页搜索算法，只会显示10页岗位（每页30条），所以我按照工作经验要求对应届生、 1年以内、 1-3年、 3-5年、 5-10年、 10年以上分别爬了10页数据，总共1770条（漏了30条也不是算法岗位，就不补了）。

一、数据介绍及预处理

1、数据介绍

数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等文末获取数据集

2、数据预处理

（1）数据筛选

由于BOSS直聘上搜索算法岗位的结果中，包含一些数据开发、AI产品等其他岗位，因此按照岗位名称是否包含算法/机器学习等来做筛选，剩余1411条

（2）数据分割提取

在job_area中包括市、行政区、乡镇三级地址，tag_list中包含经验要求、学历要求，company_tag_list中包含行业、融资阶段、员工规模，所以结合split方法、正则表达式分别进行数据提取。


import re
def get_industry(string):try:result=re.findall('(.*?)[0-9].*[0-9].*',string)[0]l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']for s in l:result=result.replace(s,'')return resultexcept:return Nonedef get_scale(string):try:result=re.findall('([0-9].*[0-9].*)',string)[0]l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']for s in l:if s in result:result=result.split(s)[1]return resultexcept:return Nonedef dat_pred(data):df=data[data.job_name.str.contains('算法')|data.job_name.str.contains('机器学习')|data.job_name.str.contains('深度学习')|data.job_name.str.contains('自然语言')|data.job_name.str.contains('NLP')|data.job_name.str.contains('图像识别')].reset_index(drop=True).copy()df['district']=df.job_area.str.split('·').str[1]df['town']=df.job_area.str.split('·').str[2]df['experience']=df.tag_list.str.split('\\n').str[0]df['education']=df.tag_list.str.split('\\n').str[1]df['industry']=df.company_tag_list.apply(get_industry)
#     df['scale']=df.company_tag_list.apply(lambda x:re.findall('([0-9].*[0-9].*)',x)).str[0]df['scale']=df.company_tag_list.apply(get_scale)df['base_salary']=df.salary.str.split('-').str[0]df.base_salary=df.base_salary.astype(float)return dfdf_all_copy=df_all.pipe(dat_pred)
df_all_copy

（3）薪资数据处理

考虑到薪资待遇下限更贴近实际，因此提取左边界作为base_salary用于分析，此外发现大部分salary单位是k、但是还有部分为元，所以进行标准化处理、统一为k。