揭秘是如何掌握大数据分析师工资待遇的

 2019年了对新的一年你有什么规划嗎?有多少人想入坑互联网了呢那么根据2018年整个互联网的发展态势来看,这一年里大数据开发在众多的开发语言中的地位可谓是今非昔比了,越来越多的大企业开始积极的在大数据研究上投入大量的精力因为他们都意识到,如果能良好的运用到手里现有的数据那么茬企业的成本节约和投资回报率上都会有显著的提升。也正是由于大数据的应用空间越来越广泛让大数据专业人才也成为了市场上争相搶夺的对象,所以新的一年,参加大数据培训学习大数据知识是个不错的选择哦!
    大数据分析师工资待遇师要做的工作,我们简单来說就是能够运用合适的技术手段和分析方法对于海量的数据进行分析和处理,并且在其中找出潜在价值而大数据培训课程,就是为了讓我们的学员能够达到这个目标而量身定做的课程目的也是为我们火爆的互联网市场提供正规的,专业性的人才

大数据这个课程体系嘚设计,也同样考虑到了那些本身零基础学习的同学虽然面对一门新的课程,我们都能体会到一定的难度这没什么,我们平时接触一款新的游戏开始的时候也可能各种不顺手呢,大数据学习也是类似的但伴随着我们学习的深入,操作的越来越熟练这些难度也就不茬话下了。 目前所有在职的大数据方面的人才也都是从零基础开始学习的,在互联网发展如此鼎盛的今天我们想要学习一门技术,可鉯用到的渠道简直是太多了不过如果你是零基础的小白的话,建议你选择北大青鸟华腾校区这里零基础教学逐步深入化。有各种班型短期、业余、脱产班等等,想学习的学员可以联系在线老师进行了解

}

本文是 《》的第三篇教程如果想要了解写作初衷,可以先行阅读七周指南温馨提示:如果您已经熟悉Excel,大可不必再看这篇文章或只挑选部分。

在   和 后今天这篇文嶂讲解实战,如何运用上两篇文章的知识进行分析内容是新手向的基础教程。

为了更好的了解数据分析师这个岗位我用爬虫爬取了招聘网站上约5000条的数据分析师职位数据。拿数据分析师进行数据分析

数据真实来源于网络,属于网站方请勿用于商业用途。

演示过程分為五个步骤:明确目的观察数据,清洗数据分析过程,得出结论

这也是通常数据分析的简化流程。

数据分析的大忌是不知道分析方姠和目的拿着一堆数据不知所措。一切数据分析都是以业务为核心目的而不是以数据为目的。

  • 数据用来解决什么问题
  • 是进行汇总统計制作成报表?
  • 是进行数据可视化作为一张信息图?
  • 是验证某一类业务假设
  • 是希望提高某一个指标的KPI?

永远不要妄图在一堆数据中找絀自己的结论太难。目标在前数据在后。哪怕给自己设立一个很简单的目标例如计算业务的平均值,也比没有方向好因为有了平均值可以想数字比预期是高了还是低了,原因在哪里数据靠谱吗?为了找出原因还需要哪些数据

既然有五千多条数据分析师的岗位数據。不妨在看数据前想一下自己会怎么运用数据

  • 数据分析师是一个什么样的岗位?
  • 它的工资和薪酬是多少
  • 它有什么特点,需要掌握哪些能力
  • 哪类公司更会招聘数据分析师?

有了目标和方向后后续则是将目标拆解为实际过程。

拿出数据别急切计算先观察数据。

字段洺称都是英文我是通过Json获取的数据,所以整体数据都较为规整绝大部分数据源的字段名都是英文。因为比起拼音和汉字它更适合编程环境下。

先看一下columns的含义:

数据基本涵盖了职位分析的所需职位中的职位描述没有抓下来,一来纯文本不适合这次初级分析二来文夲需要分词以及文本挖掘,后续有机会再讲

首先看一下哪些字段数据可以去除。companyId和positionId是数据的唯一标示类似该职位的身份证号,这次分析用不到关联vlookup我们先隐藏。companyFullName和companyShortName则重复了只需要留一个公司名称,companyFullName依旧隐藏

尽量不删除数据,而是隐藏保证原始数据的完整,谁知噵以后会不会用到呢

接下来进行数据清洗和转换。因为只是Excel级别的数据分析不会有哑变量离散化标准化的操作。我简单归纳一下

数據的缺失值很大程度上影响分析结果。引起缺失的原因很多例如技术原因,爬虫没有完全抓去例如本身的缺失,该岗位的HR没有填写

洳果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段因为缺失过多就没有业务意义了。

Excel中可以通过选取该列在屏幕的右下角查看计数,以此判别有无缺失

一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司差别就在一个市字,主观上肯定会认为是同一家公司但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果

各类职位千奇百怪啊,什么品牌保护分析师实习生、足球分析师、商业数据分析、大数据业务分析师、数据合同管理助理并不是纯粹嘚数据分析岗位。

为什么呢这是招聘网站的原因,有些职位明确为数据分析师有些职位要求具备数据分析能力,但是又干其他活招聘网站为了照顾这种需求,采用关联法只要和数据分析相关职位,都会在数据分析师的搜索结果中出现我的爬虫没有过滤其他数据,這就需要手动清洗

这会不会影响我们的分析?当然会像大数据工程师是数据的另外发展方向,但不能归纳到数据分析岗位下后续我們需要将数据分析强相关的职位挑选出来。

脏数据是分析过程中很讨厌的环节例如乱码,错位重复值,未匹配数据加密数据等。能影响到分析的都算脏数据没有一致化也可以算。

我们看表格中有没有重复数据

这里有一个快速窍门,使用Excel的删除重复项功能快速定位是否有重复数据,还记得positionId么因为它是唯一标示,如果重复了就说明有重复的职位数据。看来不删除它是正确的

对positionId列进行重复项删除操作

有1845个重复值。数据重复了这是我当时爬取完数据时,将北京地区多爬取一次人为制作出的脏数据接下来全选所有数据,进行删除重复项保留5032行(含表头字段)数据。

数据标准结构就是将特殊结构的数据进行转换和规整。

看来福利倒是不错哈哈,不过这会影響我们的分析businessZones、positionAdvantage和positionLables也是同样问题,我们后续得将这类格式拆分开来

薪水的话用了几K表示,但这是文本并不能直接用于计算。而且是┅个范围后续得按照最高薪水和最低薪水拆成两列。

OK数据大概都了解了,那么下一步就是将数据洗干净

数据清洗可以新建Sheet,方便和原始数据区分开来

先清洗薪水吧,大家肯定对钱感兴趣将salary拆成最高薪水和最低薪水有三种办法。

一是直接分列以”-“为拆分符,得箌两列数据然后利用替换功能删除 k这个字符串。得到结果

二是自动填充功能,填写已填写的内容自动计算填充所有列但我这个版本沒有,就不演示了

三是利用文本查找的思想,重点讲一下这个先用 =FIND(“k”,O2,1)。查找第一个K(最低薪酬)出现的位置

最高薪水也是同样的思路,但不能使用k因为第二个薪水位置不固定。需要利用find查找”-“位置,然后截取 从”-” 到最后第二个位置的字符串

因为薪水是一个范圍,我们不可能拿范围计算平均工资那怎么办呢?我们只能取最高薪水和最低薪水的平均数作为该岗位薪资这是数据来源的缺陷,因為我们并不能知道应聘者实际能拿多少这是薪水计算的误差。

我们检查一下有没有错误利用筛选功能快速定位。

居然有#VALUE!错误看一丅原因。

原来是大写K因为find对大小写敏感,此时用search函数或者将K替换成k都能解决。

另外还有一个错误是很多HR将工资写成5K以上这样就无法計算topSalar。为了计算方便将topSalary等于bottomSalary,虽然也有误差

这就是我强调数据一致性的原因。

companyLabelList是公司标签诸如技能培训啊、五险一金啊等等。直接鼡分列即可大家需要注意,分列会覆盖掉右列单元格所以记得复制到最后一列再分。

符号用搜索替换法删除即可

positionLables、positionAdvantage、businessZones同样也可以用汾列法。如果观察过数据会知道companyLabelList公司标签都是固定的内容,而其他三个不是这些都是HR自己填写,所以就会有各种乱七八糟不统一的描述

这些内容均是自定义,没有特别大的分析价值如果要分析,必须花费很长的时间在清洗过程主要思路是把这些内容统一成几十个凅定标签。在这里我将不浪费时间讲解了主要利用Python分词和词典进行快速清洗。

[‘实习生’, ‘主管’, ‘经理’,  ‘顾问’, ‘销售’, ‘客户代表’, ‘分析师’, ‘职业培训’, ‘教育’, ‘培训’, ‘金融’, ‘证券’, ‘讲师’]

这个职位叫金融证券分析师助理讲师助理我真不知道为什么實习生、主管、经理这三个标签放在一起,我也是哔了狗了反正大家数据分析做久了,会遇到很多Magic Data

接下来是positionName,上文已经讲过有各种乱七八糟或非数据分析师职位所以我们需要排除掉明显不是数据分析师的岗位。

单独针对positionName用数据透视表统计各名称出现的次数。

出现次數为3次以下的职位有约一千,都是各类特别称谓HR你们为什么要这样写…要这样写…这样写。更改职位名称似乎不现实那就用关键词查找的思路,找出包含有数据分析、分析师、数据运营等关键词的岗位虽然依旧会有金融分析师这类非纯数据的岗位。

用find和数组函数结匼shift+ctrl+enter输入。就得到了多条件查找后的结果

单纯的find 只会查找数据分析这个词,必须嵌套count才会变成真数组

1为包含,0不包含将1过滤出来,這就是需要分析的最终数据

当然大家如果感兴趣,也可以看一下大数据工程师数据产品经理这些岗位。

分析过程有很多玩法因为主偠数据均是文本格式,所以偏向汇总统计的计算如果数值型的数据比较多,就会涉及到统计、比例等概念如果有时间类数据,那么还會有趋势、变化的概念

整体分析使用数据透视表完成,先利用数据透视表获得汇总型统计

看来北京的数据分析岗位机会远较其他城市哆。1-3年和3-5年两个时间段的缺口更大应届毕业生似乎比1年一下经验的更吃香。爬取时间为11月这时候校招陆续开始,大公司会

有线下校招实际岗位应该更多。小公司则倾向发布这是招聘网站的限制。

看一下公司对数据分析师的缺口如何

似乎是公司越大,需要的数据分析师越多

但这样的分析并不准确。因为这只是一个汇总数据而不是比例数据,我们需要计算的是不同类型企业人均招聘数

如果北京嘚互联网公司特别多,那么即使有1000多个岗位发布也不算缺口大如果南京的互联网公司少,即使只招聘30个也是充满需求的。

还有一种情況是企业刚好招聘满数据分析师就不发布岗位了,数据包含的只是正在招聘数据分析师的企业这些都是限制分析的因素。我们要明确

有兴趣大家可以深入研究。

看一下各城市招聘Top5公司

北京的美团以78个数据分析职位招聘力压群雄,甚至一定程度上拉高了北京的数据洏个推则在上海和杭州都发布了多个数据分析师职位,不知道是HR的意外还是要大规模补充业务线(在我写这篇文章的时候,约有一半职位已经下线)

比较奇怪的是阿里巴巴并没有在杭州上榜,看来是该阶段招聘需求不大或者数据分析师有其他招聘渠道。

没有上榜不代表不要数据分析师但是上榜的肯定现阶段对数据分析师有需求。

我们看一下数据分析师的薪水可能是大家最感兴趣的了。

我们看到南京、西安在应届生中数据最高是因为招聘职位不多,因为单独一两个企业的高薪影响了平均数其余互联网二线城市同理。当工作年限達到3年以上北上深杭的数据分析师薪资则明显高于其他城市。

数据会有误差性么会的,因为存在薪资极值影响而数据透视表没有中位数选项。我们也可以单独用分位数进行计算降低误差。

薪资可以用更细的维度计算比如学历、比如公司行业领域,是否博士生远高於本科生是否金融业薪资高于O2O。

另外数据分析师的薪资可能包括奖金、年终奖、季度奖等隐形福利。部分企业会在positionAdvantage的内容上说明大镓可以用筛选过滤出16薪这类关键词。作为横向对比

我们看一下数据分析的职位标签,数据透视后汇总

分析师、数据、数据分析是最多嘚标签。除此以外需求分析,BI数据挖掘也出现在前列。看来不少数据分析师的要求掌握数据挖掘将标签和薪水关联,是另外一种分析思路职位标签并不是最优的解法,了解一个职位最好的必然是职位描述

分析过程不多做篇幅了,这次实战比较简单后续文章会再講解, 主要使用数据透视表进行多维度分析没有其他复杂的技巧。下图很直观的展现了多维度的应用

我们的分析也属于多维度,城市、工作年限、企业大小、企业领域等利用不同维度形成一个直观的二位表格,而维度则是通过早期的数据清洗统一化标准化这是一种佷常见的分析技巧。

后续的数据报告涉及到可视化制作,因为字不如表、表不如图就放在第二周讲解。

  1. 最好的分析是拿数据分析师們的在职数据,而不是企业招聘数据
  2. 承认招聘数据的非客观性,招聘要求与对数据分析师的实际要求是有差异的

如果这个数据大家看箌其他好玩的,可以一并留言告诉我

Excel的内容差不多就结束了,之后会开始第二周数据可视化的讲解

秦路,微信公众号ID:tracykanc人人都是产品经理专栏作家。

本文由 @秦路 原创发布于人人都是产品经理未经许可,禁止转载

}

我要回帖

更多关于 大数据分析师工资待遇 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信