分析家数据(数据分析研究者)
本篇文章给大家谈谈分析家数据,分析以及数据分析研究者对应的家数据数据分究知识点,希望对各位有所帮助,析研不要忘了收藏本站喔。分析
数据分析师每天做什么
数据分析基本上有两个方向,家数据数据分究第一,析研技术方向,分析第二,家数据数据分究业务方向。析研
对于大厂而言,分析职能的家数据数据分究划分会非常详细,干技术方向不需要了解太多的析研业务,相反也是分析一样的。但是家数据数据分究对于小公司,数据分析师需要的析研技能更加多样,数据分析技能,沟通技能,对业务的了解,presentation等等不一而足。
一. 数据分析岗位介绍
1.1技术方向
走技术方向需要获得的技能大约分为三个方面,数据获取,数据处理,以及数据可视化。三个方面分别对应三个工具,即sql语言,python和excel,以及tableau。
对机器学习和大数据的的了解和实践会是很好的加分项。比如我现在在干的活要用到大数据的hadoop和impala,但查询取数依然是基于sql语言的。
走技术方向对业务的熟悉程度不需要太深,就像之前说的,大型企业会将技术方向和业务方向分得很细,业务方向的分析师是技术方向的分析师和业务部门的桥梁,而不是业务部门直接与技术沟通,这也是我所在的公司的真实情况。个人觉得虽然增加了一些沟通成本,但是员工确实可以更加专心于自己的工作。
1.2 业务方向
走业务方向的话,对技术的运用不需要特别熟练,我与业务方向的数据分析师聊过,在工作的空闲再深入学习sql语言或者可视化之类的技术都是可以的,但在投递简历之前,至少需要有一定的基础技能和基本了解,知道柱形图和折线图有什么样的特点这种基本概念。
业务方向的数据分析师需要与业务部门进行更深入的沟通,因此要求对业务有一定的了解,这样才能更好地结合数据和业务,提出有用的结论和建议,因此,最好是能够在你的本领域内转行。
除此之外,还需要了解数据分析师,数据工程师,和数据科学家的区别。
你可不想本来想转数据分析师,却学了数据工程师的技能。
简单来说,数据分析师主要工作是做取数,清洗和可视化,业务方向则更多专注于数据与业务的结合,可能还需要跟进运营,分析运营结果。
数据工程师,则专注于从每天的公司或用户行为中获取数据,主要做数据获取,数据库的搭建,维护和优化。
数据科学家,则专注于机器学习的算法,因此需要数学好。
二、硬技能学习
2.1 sql语言
sql语言主要用于从数据库中获取数据,公司一般不会让你用爬虫从网络爬取所需要的数据,因此爬虫并不是一个必要技能。
sql语言一定要做到熟练使用,而这个语言的重中之重就是数据查询语言(DQL),从最基础的select,到大数据常用的分区概念对应的partition。
在面试中,面试官通常会给你几张表,让你现场写下取数逻辑,因此写的又快又对,写完了反手就把逻辑给面试官看,战术后仰,岂不帅哉。
其他的sql语言包括数据定义语言(DDL),数据操作语言(DML)和数据控制语言(DCL)和数据分析师的关系不大,做到了解和简单使用就好。
sql语言一定要多练,这样才能做到面试时不慌,子查询和各种表连接一般在面试的时候都会面到。
2.2 excel
excel的学习不难,主要学习各类函数,从最基础的聚合函数sum到表查询函数vlookup都要学习。以及各类图怎么做,怎么用数据透视表等等。
这里说excel学习不难,并不是指excel比python低级,excel要做的好其实非常困难,但不管怎么说,目前公司都在要求比较新的python技术,excel做的再好,不符合职位要求也白搭。
从工作的角度来谈,通过excel对少量的数据做简单处理确实更加方便一些,也经常用excel先做简单的格式转换,排序和可视化。但复杂处理或者大量数据就不是excel力所能及的了。
2.3 python
python是数据分析的大头,当然选择学习r也可以,可是一定不要同时学,用熟一个比用会无数个要重要的多。
对python有一些了解的人应该都听说过numpy,pandas和matplotlib,这三个包是数据分析必会的包,先用熟这三个,之后更进一步可以学习os,seaborn,sklearn等。
2.4 tableau
tableau的基本使用在b站是可以学习到的,但是计算字段和其中的函数的使用仍然需要一定量的练习,并且需要一定的编程基础。
工作中用的最多的图就是柱状图,直方图,条形图,交叉表这几个,偶然见到热力图,桑椹图,甚至散点图和饼图出现都很少。当然这可能与业务需求有关,具体问题具体分析。
如果你会做那些复杂的图自然更好,说明你对tableau的理解较深,侧面表现了你的能力比别人强。
欢迎关注我们的公众号:聚数云海。免费获取数据分析师大厂真题和更多数据分析相关资讯。
如何成为一个数据分析师?需要具备哪些技能
学习数据分析师之前,你必须清楚自己想要达成什么目标。也就是说,你想通过这门技术来解决哪些问题或实现什么计划。有了这个目标,你才能清晰地开展自己的学习规划,并且明确它的知识体系。只有明确的目标导向,学习必备也是最有用的那部分,才能避免无效信息降低学习效率。
1、明确知识框架和学习路径
数据分析这件事,如果你要成为数据分析师,那么你可以去招聘网站看看,对应的职位的需求是什么,一般来说你就会对应该掌握的知识架构有初步的了解。你可以去看看数据分析师职位,企业对技能需求可总结如下:
SQL数据库的基本操作,会基本的数据管理;
会用Excel/SQL做基本的数据提取、分析和展示;
会用脚本语言进行数据分析,Python or R;
有获取外部数据的能力加分,如爬虫或熟悉公开数据集;
会基本的数据可视化技能,能撰写数据报告;
熟悉常用的数据挖掘算法:回归分析、决策树、分类、聚类方法;
高效的学习路径是什么?就是数据分析的流程。一般大致可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实现一个数据分析师的学成之旅。按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。然后每学习一个部分,你就能够有一些实际的成果输出,有正向的反馈和成就感,你才会愿意花更多的时间投入进去。以解决问题为目标,效率自然不会低。
按照上面的流程,我们分需要获取外部数据和不需要获取外部数据两类分析师,总结学习路径如下:
1.需要获取外部数据分析师:
python基础知识
python爬虫
SQL语言
python科学计算包:pandas、numpy、scipy、scikit-learn
统计学基础
回归分析方法
数据挖掘基本算法:分类、聚类
模型优化:特征提取
数据可视化:seaborn、matplotlib
2.不需要获取外部数据分析师:
SQL语言
python基础知识
python科学计算包:pandas、numpy、scipy、scikit-learn
统计学基础
回归分析方法
数据挖掘基本算法:分类、聚类
模型优化:特征提取
数据可视化:seaborn、matplotlib
接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。
数据获取:公开数据、Python爬虫
如果接触的只是企业数据库里的数据,不需要要获取外部数据的,这个部分可以忽略。
外部数据的获取方式主要有以下两种。
第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。
另一种获取外部数据费的方式就是爬虫。
比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。
在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)……以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。如果是初学,建议从 urllib 和 BeautifulSoup 开始。(PS:后续的数据分析也需要 Python 的知识,以后遇到的问题也可以在这个教程查看)
网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。
掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等,来应对不同网站的反爬虫限制。
除此之外,常用的的电商网站、问答网站、点评网站、二手交易网站、婚恋网站、招聘网站的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。
数据存取:SQL语言
你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也需要懂得SQL的操作,能够查询、提取数据。
SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:
提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2018年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。
数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。
数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。
数据预处理:Python(pandas)
很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。
比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。
那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。
对于数据预处理,学会 pandas 的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:
选择:数据访问(标签、特定值、布尔索引等)
缺失值处理:对缺失数据行进行删除或填充
重复值处理:重复值的判断与删除
空格和异常值处理:清楚不必要的空格和极端、异常数据
相关操作:描述性统计、Apply、直方图等
合并:符合各种逻辑关系的合并操作
分组:数据划分、分别执行函数、数据重组
Reshaping:快速生成数据透视表
概率论及统计学知识
数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、方差等基本的统计量如何应用?如果有时间维度的话随着时间的变化是怎样的?如何在不同的场景中做假设检验?数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:
基本统计量:均值、中位数、众数、百分位数、极值等
其他描述性统计量:偏度、方差、标准差、显著性等
其他统计知识:总体和样本、参数和统计量、ErrorBar
概率分布与假设检验:各种分布、假设检验流程
其他概率论知识:条件概率、贝叶斯等
有了统计学的基本知识,你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标,其实可以得出很多结论了,比如排名前100的是哪些,平均水平是怎样的,近几年的变化趋势如何……
你可以使用python的包 Seaborn(python包)在做这些可视化的分析,你会轻松地画出各种可视化图形,并得出具有指导意义的结果。了解假设检验之后,可以对样本指标与假设的总体指标之间是否存在差别作出判断,已验证结果是否在可接受的范围。
python数据分析
如果你有一些了解的话,就知道目前市面上其实有很多 Python 数据分析的书籍,但每一本都很厚,学习阻力非常大。但其实真正最有用的那部分信息,只是这些书里很少的一部分。比如用 Python 实现不同案例的假设检验,其实你就可以对数据进行很好的验证。
比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。比如DataCastle的训练竞赛“房价预测”和“职位预测”,都可以通过回归分析实现。这部分需要掌握的知识点如下:
回归分析:线性回归、逻辑回归
基本的分类算法:决策树、随机森林……
基本的聚类算法:k-means……
特征工程基础:如何用特征选择优化模型
调参方法:如何调节参数优化模型
Python 数据分析包:scipy、numpy、scikit-learn等
在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。
当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类,然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实一个好的数据分析师,应该算是一个初级的数据挖掘工程师了。
系统实战
这个时候,你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战。能够独立完成分析任务,那么你就已经打败市面上大部分的数据分析师了。
如何进行实战呢?
上面提到的公开数据集,可以找一些自己感兴趣的方向的数据,尝试从不同的角度来分析,看看能够得到哪些有价值的结论。
另一个角度是,你可以从生活、工作中去发现一些可用于分析的问题,比如上面说到的电商、招聘、社交等平台等方向都有着很多可以挖掘的问题。
开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度,比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测等等。随着经验的增加,你会有一些自己对于数据的感觉,这就是我们通常说的数据思维了。
你也可以看看行业的分析报告,看看优秀的分析师看待问题的角度和分析问题的维度,其实这并不是一件困难的事情。
在掌握了初级的分析方法之后,也可以尝试做一些数据分析的竞赛,比如 DataCastle 为数据分析师专门定制的三个竞赛,提交答案即可获取评分和排名:
员工离职预测训练赛
美国King County房价预测训练赛
北京PM2.5浓度分析训练赛
种一棵树最好的时间是十年前,其次是现在。现在就去,找一个数据集开始吧!!
如何成为数据分析专家?数据分析师要学什么?
【导读】大数据是未来发展必然趋势,不懂数据分析很可能在将来会被时代所淘汰,所以现在很多人都争抢学习数据分析,而且很多人都是零基础学习。零基础学习数据分析是有一定难度的,需要大家提前做一些准备。想知道如何成为数据分析专家?数据分析师要学什么吗?接着往下看吧!
1.统计学相关知识
统计学是数据分析的基础,因为数据分析需要对大量数据进行统计分析,大家可以通过对统计学的学习,培养数据分析最基本的一些逻辑思维。
2. EXCEL
不要小看EXCEL,它可是最初级的数据分析工具,在处理的数据量不是很大时,EXCEL完全可以胜任。而且大家都有一定基础,平时工作中也经常用,学习起来应该很容易,重点应该加强对于各类函数以及EXCEL数据可视化的学习。
3.代码语言的了解
数据分析需要使用的工具很多,例如python、SQL等,这些都需要强大的代码知识做支撑,所以有想学习数据分析的小伙伴可以在学习之前初步对代码有一个了解,这样不至于真正学习起来手足无措。
以上就是小编今天给大家整理发送的关于“如何成为数据分析专家?数据分析师要学什么?”的相关内容,希望对大家有所帮助。总的来说随着大数据在众多行业中的应用,大数据技术工作能力的工程师和开发人员是很吃香的。希望各位大家在备考或者学习之前做好准备,下足功夫不要凭空想象的想要取得优异的成绩。
数据分析需要哪些知识
CPDA数据分析师师兄告诉你,数据分析师需要掌握的知识,可以划分如下
1.初级分析师初级分析师是数据人员架构的基础组成部分,承担了数据工作中大多数最基础的工作,通常初级分析师的人员比例不应超过20%。初级分析师的定位是数据整理、数据统计和基本数据输出工作,服务的对象包括中、高级分析师和业务方等,对其素质的要求侧重于基本数据技能和业务常识。
•数据工具要求。基本的Excel操作能力和SQL取数能力、与工作相关工具的使用技能,顺利完成数据抽取和整理等工作;基本数据输出能力,包括PPT、邮件、Word等使用能力。
•数据知识要求。理解日常数据体系内涉及的维度、指标、模型,辅助中、高级分析师进行专项工作并承担其中的部分工作。
•业务知识要求。理解基本业务知识,能把业务场景和业务需求分别用数据转换和表达出来。
2.中级分析师中级分析师是数据人员架构中的主干。中级分析师承担着公司的专项数据分析工作,如各业务节点的项目类分析、专题报告等。通常中级分析师的人员比例在40%~60%之间。中级分析师的定位是数据价值挖掘、提炼和数据沟通落地,服务的对象主要是业务方,除此之外还可能参与高级分析师的大型项目并独立承担其中的某个环节。因此要求中级分析师对专项数据技能、业务理解及推动能力的要求较高。
•数据工具要求。熟练使用数据挖掘工具、网站分析工具。
•数据知识要求。了解不同算法和模型的差异点及最佳实践场景,根据工作需求应用最佳的实践方案。
•业务知识要求。深度理解业务知识,具有较强的数据解读和应用推动能力。
3.高级分析师高级分析师职位通常是数据职能架构中的火车头,承担了企业数据方向的领导职能。高级分析师的人员比例在20%~40%之间。高级分析师的定位是企业数据工作方向规则体系建设、流程建设、制度建设等,服务对象通常是业务及企业领导层。因此要求其除了要具备中级分析师的基本能力外,还需要具备宏观规划、时间把控、风险管理、效果管理、成本管理等项目管理能力。
•高级分析师需要能搭建企业数据体系,并根据企业发展阶段提出适合当前需求的数据职能和技术架构方案。 •高级分析师需要规划出所负责领域内数据工作方向、内容、排期、投入、产出等,并根据实际工作进行投入与产出分析,同时做好数据风险管理。
•高级分析师需要实时跟进项目的进度,监督数据项目落地执行,并通过会议、汇报、总结、阶段性目标、KPI等形式做好过程控制和结果控制。低、中、高级不同职位层次数据分析师的能力要求如图所示。注意,图像越向外代表对其相应能力的要求越高,反之则要求越低。
数据分析师入门需要学什么?
1、懂业务
从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。
2、懂管理
一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。
3、懂分析
指掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
4、懂工具
指掌握数据分析相关的常用工具。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,我们不能依靠计算器进行分析,必须依靠强大的数据分析工具帮我们完成数据分析工作。
5、懂设计
懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。
数据分析师需要学什么
首先你要知道成为一名数据分析师所需要具备的技能:
数学知识
对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等。当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计。
而对于高级数据分析师,必须具备统计模型的能力,线性代数也要有一定的了解。
分析工具
对于分析工具,SQL 是必须会的,还有要熟悉Excel数据透视表和公式的使用,另外,还要学会一个统计分析工具,SAS作为入门是比较好的,VBA 基本必备,SPSS/SAS/R 至少要熟练使用其中之一,其他分析工具(如 Matlab)可以视情况而定。
编程语言
数据分析领域最热门的两大语言是 R 和 Python。涉及各类统计函数和工具的调用,R无疑有优势。但是大数据量的处理力不足,学习曲线比较陡峭。Python 适用性强,可以将分析的过程脚本化。所以,如果你想在这一领域有所发展,学习 Python 也是相当有必要的。
当然其他编程语言也是需要掌握的。要有独立把数据化为己用的能力, 这其中SQL 是最基本的,你必须会用 SQL 查询数据、会快速写程序分析数据。当然,编程技术不需要达到软件工程师的水平。要想更深入的分析问题你可能还会用到:Exploratory analysis skills、Optimization、Simulation、Machine Learning、Data Mining、Modeling 等。
业务理解
对业务的理解是数据分析师工作的基础,数据的获取方案、指标的选取、还有最终结论的洞察,都依赖于数据分析师对业务本身的理解。
对于初级数据分析师,主要工作是提取数据和做一些简单图表,以及少量的洞察结论,拥有对业务的基本了解就可以。对于高级数据分析师,需要对业务有较为深入的了解,能够基于数据,提炼出有效观点,对实际业务能有所帮助。对于数据挖掘工程师,对业务有基本了解就可以,重点还是需要放在发挥自己的技术能力上。
逻辑思维
对于初级数据分析师,逻辑思维主要体现在数据分析过程中每一步都有目的性,知道自己需要用什么样的手段,达到什么样的目标。对于高级数据分析师,逻辑思维主要体现在搭建完整有效的分析框架,了解分析对象之间的关联关系,清楚每一个指标变化的前因后果,会给业务带来的影响。对于数据挖掘工程师,罗辑思维除了体现在和业务相关的分析工作上,还包括算法逻辑,程序逻辑等,所以对逻辑思维的要求也是最高的。
数据可视化
数据可视化主要借助于图形化手段,清晰有效地传达与沟通信息。听起来很高大上,其实包括的范围很广,做个 PPT 里边放上数据图表也可以算是数据可视化。
对于初级数据分析师,能用 Excel 和 PPT 做出基本的图表和报告,能清楚地展示数据,就达到目标了。对于稍高级的数据分析师,需要使用更有效的数据分析工具,根据实际需求做出或简单或复杂,但适合受众观看的数据可视化内容。
协调沟通
数据分析师不仅需要具备破译数据的能力,也经常被要求向项目经理和部门主管提供有关某些数据点的建议,所以,你需要有较强的交流能力。
对于高级数据分析师,需要开始独立带项目,或者和产品做一些合作,因此除了沟通能力以外,还需要一些项目协调能力。
分析家数据的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于数据分析研究者、分析家数据的信息别忘了在本站进行查找喔。
本文地址:http://54929777.lmz-soft.de/news/875c7399051.html
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。