怎么分析大数据分析基础概念
本篇文章给大家分享的是有关怎么分析大数据分析基础概念,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
互联网进一步聚合,对大数据的分析必然会成为一个关键的策略部门的工作。
像很多事物先是存在,然后再变得合理一样,数据分析师也会因为一些公司的实际需求而存在,然后从事的工作与技能也会不断地变得丰富与完善。
说到数据分析,小程会想起Sherlock Home,破案是需要分析数据。
但作为一般的技术人员,读者并不需要像电视剧的人物那么"聪明",只需要掌握一般的知识与技能就有可能胜任工作了,然后才是不断的能力提升。
已经有一些机构根据自己的理解,定义了数据分析师应该掌握的技能,比如下面这个来自网上的图片:
这个图有一定的合理性,立志成为数据分析师的读者,可以参考一下其中提到的技能要求。
作为数据分析的开篇,本文介绍几个在数据分析时经常会说到的概念。
以下介绍的概念,读者有可能会觉得枯燥,建议跳读即可。
(1)平均数
平均数,指得是算术平均值,也就是总和除以个数(或其它单位的和)。平均值,是经常用到的概念,比如"平均每个同学可以分到2个苹果手机"、"下载的平均速度是1MB/s"、"一个月的花费平均是4千块"。
均值有一个缺陷就是在极端情况存在时,也就是极大与极小都很离谱时,平均出来的值就变得不合理,这也是投票取平均分时,可能会考虑把最高分与最低分去掉再作平均的原因。
对于这种缺陷的例子,可以看看下面来自网络的图片:
招聘者告诉读者,就职的话平均工资有1800,而实际当读者就的是员工一职时,工资就只有800了。
这个也是平均值谬误的一个例子。
再看另一张图:
不同等级的收入差距很大,假如收集到若干家庭的收入,并取平均数来代表普遍家庭收入的话,就是不靠谱的,富人把穷人平均了。
对于这种统计,可以去掉极端值再统计,或者取每个区间的比例,或者用下面介绍的中值或众数。
(2)中位数
中位数是大小值的分隔值,出现极大值或极小值都不影响到中位数,所以在这种极端的情况下,中位数是可用的一个参考值。
对于奇数个数的数值序列(已排序),中位数就是中间那个值。对于偶数个数的,中位数就是中间两个值的和除以2。
比如:1,2,3,4,5 中位数是3。
比如:1, 2, 3, 4, 5, 6 中位数是(3+4)/2=3.5。
(3)众数
众数,就是出现次数最多的值。可能一个众数都没有,也可能有多个众数。
比如:1, 1, 2, 5, 3, 5, 1 众数是1。
比如:5, 4, 6, 2, 5, 6 众数是5跟6。
众数就是"大家都这样",是具有一定参考意义的。
(4)绝对数与相对数
绝对数是没有对比的数,比如天气是27度、一个班有50名学生、月薪是5万块,等等。
相对数是一个比值,比如提升了10%、体重不到某人的一半、比例是1:3,等等。
简单来说,绝对数是自然数,而相对数一般是百分比(或能转为百分比)。
(5)百分比与百分点
成本上涨了80%、速度下降了30%,这些都是百分比,这是一个经常出现的形式。
一个点,或一个百分点,就是1%。
一般在百分比的幅度变化时,使用百分点,比如从3%到5%,提升了2个百分点。
(6)比例与比率
部分占总体的比重,为比例。比如失败率是0.01%(占失败与成功的总和)、男同事占所有同事的70%,等等。
比率,是各部分的比,比如女学员与男学员的比率是1:3,等等。
(7)倍数与番数
一般在上涨的情景,用倍数,比如涨了2倍。而在下降的情景要用百分比,比如收入减少了30%,当然在上涨的时候也可以使用百分比,比如参会人数增加了300%。
番数,表示2的N次方。
纯收益番了一番,表示增加1倍(2的1次方,也就是原来的2倍)。
番了两番,表示变成了4倍(2的2次方);番3番,表示8倍,等等。
(8)同比与环比
同比,用于比较,比如现在是5月,同比于去年的5月,这个月的重大故障下降了30%。
环比,用于趋势,比如环比上一周、环比上一个月,这一周或这一个月是怎么样的。
以上就是怎么分析大数据分析基础概念,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。