• 登录
Skip to content

一起大数据-技术文章心得

一起大数据网由数据爱好者发起并维护,专注数据分析、挖掘、大数据相关领域的技术分享、交流。不定期组织爱好者聚会,期待通过跨行业的交流和碰撞,更好的推进各领域数据的价值落地。

Menu
  • 首页
  • 大数据案例
  • 数据&电子书
  • 视频
    • Excel视频
    • VBA视频
    • Mysql视频
    • 统计学视频
    • SPSS视频
    • R视频
    • SAS视频
    • Python视频
    • 数据挖掘视频
    • 龙星计划-数据挖掘
    • 大数据视频
    • Machine Learning with Python
  • 理论
    • 统计学
    • 数据分析
    • 机器学习
    • 大数据
  • 软件
    • Excel
    • Modeler
    • Python
    • R
    • SAS
    • SPSS
    • SQL
    • PostgreSQL
    • KNIME
  • 技术教程
    • SQL教程
    • SPSS简明教程
    • SAS教程
    • The Little SAS Book
    • SAS EG教程
    • R语言教程
    • Python3教程
    • IT 技术速查手册
    • Data Mining With Python and R
    • SAS Enterprise Miner
  • 问答社区
  • 我要提问
Menu
数据分析入门指导服务

数据分析入门指导服务

Posted on 2020年6月6日

要学习数据分析的时候,我们需要学习Excel、数据可视化、数据库知识、Python和R语言、统计知识、分析思维、业务知识,学会了这些知识才能够做好数据分析工作。

很多同学都倾向自己学习,但是学习的过程中其实会遇到各种各样的问题,比如:

内容那么多,侧重点怎么把握?(学习的优先级很重要,不是要面面俱到,正所谓,啥都会,啥都不会!)

经常被个别知识点卡住,求百度,问群友,都不得其解,效率低下。有的时候即使找到了一些解答,也是好像明白了,但是并没有真正理解。

学习资料很杂,不知道怎么选择,或者只是想学习,但是没有合适的学习资料,包括电子书和视频。

在学习的过程中,经常会感到迷茫。

为了帮助想自学入行的同学们,我们推出入门的指导服务:

形式以QQ群问答为主,我们会提供相应的学习资料(文章,电子书,视频,练习题),学习过程中有任何问题可以直接在群里提问,或者发布到本站的问答社区,我们会及时回复,针对大家共同的问题,我们会不定期搞线上交流。感兴趣的同学可以直接联系小编。

希望通过这样的形式,让你不再迷茫,知道学什么?

学的过程中遇到问题,能及时解决,不再止步不前。

学完之后通过练习和测试,强化学习效果。

当然,这只是入门的指导,更多的学习还是靠自己。如果自驱力比较弱的同学,建议参加更深入的指导服务,或者市面上其他机构推出深入培训。

学习并不难,贵在坚持,希望大家能不断的克服盲目和困难,尽早入门数据分析。当然,数据分析并不是很多人想象的那么简单,反而,数据分析是一个综合素质要求很高的职位,决定入行之前请参考:

数据分析入门及职业规划

作者:秦路
链接:https://www.zhihu.com/question/28945531/answer/234894185

有不少同学问我数据分析的职业发展相关,这里起一个大纲。它更多是以我所在的互联网行业展开的。

入门和职业规划应该从两个角度考虑:

领域和路线。

领域是不少新人常忽略的要素,其实数据分析不会脱离业务存在。你进入哪个行业,很大程度会决定你初期的技能树和技能点。譬如金融领域的风控模型、营销领域的生命周期、广告领域的点击率预估等,各有各的特色。

如果是一位应届生,不妨多了解自己感兴趣的领域,多积累相关的经验,为面试做准备。

如果已经有一定行业履历,只是想要转岗数据分析师,那么跨岗不跨行,尽量避免跳到一个陌生的领域。

领域经验我给不了太多的指点,主要也就三点:1.自己感兴趣的,2.自己擅长的,3.有钱途的。成为某领域的数据专家,会是一个更好的筹码。

而路线大致可以划分成四大方向:

数据分析,数据挖掘,数据产品,数据工程。

数据分析/数据运营/商业分析

这是业务方向的数据分析师。

绝大部分人,都是从这个岗位开始自己的数据之路,也是基数最大的岗位。

因为基数大,所以这类岗位通常鱼龙混杂。有些虽然叫数据分析师,但是每天只需要和Excel打交道,完成leader布置的表格整理工作就行。混个几年,成为一位数据分析主管,给下面的新人继续布置Excel任务。

又有一种数据分析师,岗位职责要求你掌握常用的机器学习算法,面试首先推导一个决策树或者逻辑回归。

都叫数据分析师,其实天差地别。

这里更多指代互联网行业,偏业务的数据分析师,一般属于运营部门。不少公司也称数据运营或者商业分析。

这类岗位的职位描述一般是:

  • 负责和支撑各部门相关的报表;
  • 建立和优化指标体系;
  • 监控数据的波动和异常,找出问题;
  • 优化和驱动业务,推动数据化运营;
  • 找出可增长的市场或产品优化空间;
  • 输出专题分析报告;

实际的岗位中,不少业务端的数据分析师,主要工作都是第一点。别管它用汇总、分析、数据支持什么修饰词,基本是跑SQL,做报表。硬生生活成了业务端的表哥。

这是很常见的情况,也是入门新人的第一个坑。因为从头到尾,这类分析师,都没有解决问题。

业务部门往往更关心,某个指标为什么下跌或者上升。产品的用户是什么样的?怎么能更好的完成自己的KPI。

以活跃指标的下跌举例:

  • 活跃指标下跌了多少?是属于合理的数据波动,还是突发式?
  • 什么时候开始的下跌?
  • 是整体的活跃用户下跌,还是部分用户?
  • 为什么下跌?是产品版本,还是运营失误?
  • 怎么解决下跌的问题

这是一套标准的解决思维。分别对应what、when、who、why、how,每一部分都不是三言两语可以解释清楚。不要看它很简单,例如你通过多维分析,发现某个地区的活跃下跌了,不要急着把它作为分析的结论,这是不合格的数据分析。某地区的活跃下跌,只是现象,不是原因,把它作为结论提交,肯定会被骂的。

你要解决的是,为什么这个地区的活跃下跌了。是该地渠道,是该地竞争对手,是该地市场环境?这些问题都是细化的范畴。并且,它们要能以量化解释,而不是我认为。

做好了这点,才是一个真正的业务端的数据分析师。

解决问题是一方面工作,另外一方面,数据分析师的职责是将业务数据体系化,建立一套指标框架。活跃下跌的问题,本质上也是指标问题。什么时候开始下跌,哪部分下跌,都能转化成对应指标,如日活跃用户数,新老用户活跃数,地区活跃数。

你不能衡量它,就无法增长它,指的就是指标体系。指标体系可以业务部门建立,但数据分析师也挺合适。一方面他们比数据挖掘这类技术岗位更贴合业务,一方面不像业务岗位对数据抓瞎。

两者结合,这岗位也能称为数据运营。

指标体系如果工程化自动化,也就是BI,所以数据分析师可以算半个BI分析师,这里不包括BI报表开发。BI如果采购第三方,数据分析师负责BI没问题,如果自有开发,那么BI岗技术的色彩更浓厚。

数据分析思维和业务的理解,是分析师赖以生存的技能。很多时候,工具是锦上添花的作用。掌握Excel+SQL/hive,了解描述统计学,知道常见的可视化表达,足够完成大部分任务。机器学习这类能力,对此类数据分析师不是必须的,Python也一样,只是加分项。毕竟为什么下跌,你无法用数据挖掘解答。

数据分析师是一个基础岗位,如果专精于业务,更适合往管理端发展,单纯的工具和技巧很难拉开差距。Title比较常见的有数据运营经理/总监,数据分析经理等。

商业/市场分析是另外一个方向,更多见于传统行业。你要开一家超市,你得考虑哪里开,这就要考虑居民密度,居民消费能力,竞争对手的多寡,步行交通距离,开车交通距离等。这些数据是宏观的大指标,往往靠搜索和调研完成,这是和互联网数据分析师最大的差异。

如果往其他分支发展,比如数据挖掘工程师,则要继续掌握Python和机器学习等。从业务型发展上来的好处是接地气,具备商业洞察力(天天搞报表,怎么可能不熟),这点是直接做数据挖掘,或者程序员转岗,所不具备的。

新人,比较普适的发展路线是先成为一位数据分析师。积累相关的经验,在一两年后,决定往后的发展,是数据挖掘,还是专精数据分析成为管理岗。

学习资料:

Excel和SQL可以网上搜索,也能买书,不多推荐。

指标体系的建立,可以看精益数据分析。另外有一本数据化决策,讲如何量化,比较宽泛。

统计学可以看商务与经济统计,主要是前半部分。

还有一本数据挖掘技术——应用于市场营销、销售与客户关系管理。我推荐它是比较纠结的,这本书的知识点比较丰富,非技术人员也能理解,但是翻译太糟糕了…

学习数据化运营,可以看数据化运营速成手册,对新人比较友好的。

业务和数据分析思维,了解金字塔原理,看看case in point、 crack the case、BCG系列也不错。

我以前也有相关的集合回答,可见:如何快速成为数据分析师?

数据挖掘/算法专家

这是技术向的数据岗,有些归类在研发部门,有些则单独成立数据部门。

数据挖掘工程师要求更高的统计学能力、数理能力以及编程技巧。

从概念上说,数据挖掘Data mining是一种方式,机器学习Machine learing是一门方法/学科。机器学习主要是有监督和无监督学习,有监督又可划分成回归和分类,它们是从过去的历史数据中学习到一个模型,模型可以针对特定问题求解。

数据挖掘的范围则大得多,即可以通过机器学习,而能借助其他算法。比如协同过滤、关联规则、PageRank等,它们是数据挖掘的经典算法,但不属于机器学习,所以在机器学习的书籍上,你是看不到的。

除此之外,还有一个领域,属于最优化问题的运筹学。现实中的问题往往有很多约束,比如护士排班,一共有三班(早、中、晚),现在要求每班满足最低护士人数,每位护士尽量不能连班,每位护士不能连续工作5天。每位护士的夜班数要均衡,每位护士每月的班数要均衡…这些问题很难用机器学习的方法完成,而在最优化领域,则有遗传算法、模拟退火算法、蚁群算法等。

实际的应用场景中,如外卖行业,如何寻找骑手效率最大化的最优路径,同样属于最优化,也是数据挖掘的工作范畴。

数据挖掘工程师,除了掌握算法,同样需要编程能力去实现,不论R、Python、Scala/Java,至少掌握一种。模型的实施,往往也要求Hadoop/Spark的工程实践经验,精通SQL/Hive是必须的。

常见数据挖掘项目的闭环如下:

  • 定义问题
  • 数据抽取
  • 数据清洗
  • 特征选取/特征工程
  • 数据模型
  • 数据验证
  • 迭代优化

单看环节,数据挖掘对分析能力没有业务型那么高。这不代表业务不重要,尤其在特征选取方面,对业务的理解很大程度会影响特征怎么选取,进而影响模型质量。

数据挖掘的业务领域一样可以细分。金融行业的信用模型和风控模型/反欺诈模型、广告模型的点击预估模型、电商行业的推荐系统和用户画像系统。从需求提出到落地,数据挖掘工程师除了全程跟进也要熟悉业务。

因为要求高,所以数据挖掘的平均薪资高于普通的数据分析师。

一个分工明确的团队,数据分析师负责将业务需求抽象成一个具体的数据假设或者模型。比如,运营希望减少用户流失,那么设立一个流失指标,现在需要预测用户流失率的模型。模型可以是数据分析师完成,也能是数据挖掘工程师。最终由数据挖掘团队部署到线上。

在一些公司,高级数据分析师会等价于数据挖掘工程师,只是工程能力可以稍弱,模型部署由专门的工程团队完成。

数据挖掘工程师,往后发展,称为算法专家。后者对理论要求更严苛,几乎都要阅读国外的前沿论文。方向不局限于简单的分类或者回归,还包括图像识别、自然语言处理、智能量化投顾这种复合领域。如果从业者本身有相关的名校高学历,硕士起,这无疑是一个大优势。

深度学习则更前沿,它由神经网络发展而来,是机器学习的一个子集。因为各类框架开枝散叶,诸多模型百花齐放,也可以算一个全新的分支。除了要求熟悉TensorFlow, Caffe, MXNet等深度学习框架,对模型的理论应用和调参也是必备的。

算法专家和深度学习专家,薪资level会更高一级,一般对应于业务型的数据运营/分析总监。

数据科学家是上述岗位的最终形态之一,要么理论能力非常强,往往担任研究院的一把手。要么工程能力突出,上述的系统都能完成平台化的部署。

学习资料:

这类岗位对基础知识要求扎实,所以书籍需要比较大的阅读量,而且要保持领域新论文的吸收。

统计学习,除了商务与经济统计外,国外有一本The Elements of Statistical Learning,评价不错。

机器学习的入门,李航的统计学习方法,周志华的机器学习,择其一。英文好也能看PRML。

Python,入门书籍的推荐太多,略过。用Python进行数据分析是必备的,当然这本书有点老,活用官网最新文档和stackoverflow,基本无碍。

再进一步,则是机器学习的代码实现,比较知名的有集体智慧编程,机器学习实战等。其实最近还有不少新书,Python DataScience Handbook等,我当然不可能都看过,所以也不好推(hu)荐(you)。

除了基础,行业领域的也不能落下,诸如推荐系统实战、计算广告…按需学习。

知乎上相关的书籍推荐比我齐全多了。

数据产品经理

这个岗位比较新兴,它有两种理解,一种是具备强数据分析能力的PM,一种是公司数据产品的规划者。

前者,以数据导向优化和改进产品。在产品强势的公司,数据分析也会划归到产品部门,甚至运营也属于产品部。这类产品经理有更多的机会接触业务,属于顺便把分析师的活也干了,一专多能的典型。

他们会运用不同的数据源,对用户的行为特征分析和挖掘,达到改进产品。最典型的场景就是AB测试。大到页面布局、路径规划、小到按钮的颜色和样式,均可以通过数据指标评估。

下图的案例,就是弱化心愿单按钮的存在感,让用户更多的聚焦在直接购买而不是收藏,最终让销售额提高了35%。

俗话说,再优秀的产品经理也跑不过一半AB测试。此类数据产品经理,更多是注重数据分析能力,擅长用分析进行决策。数据是能力的一部分。

后者,是真正意义上的数据产品经理。在公司迈大迈强后,数据量与日俱增,此时会有不少数据相关的产品项目:包括大数据平台、埋点采集系统、BI、推荐系统、广告平台等。这些当然也是产品,自然需要提炼需求、设计、规划、项目排期,乃至落地。

我们不妨看几个数据产品经理要求:

  • 负责大数据产品的设计,输出需求文档、产品原型;
  • 负责推荐算法的产品策略,完成相关推荐及个性化推荐产品的需求分析;
  • 负责分析和挖掘用户消费内容的行为数据,为改进算法策略提供依据;
  • 负责客户端数据需求的对接,制定相关埋点规范及口径,相关业务指标验证;
  • 报表展示工具的落地和应用;

和C端注重用户体验不同,数据产品,更注重整体的分析能力和逻辑。除了产品经理最基础的Axure、Visio、MindManager等工具。往往还需要很多技术型的能力。比如了解BI/DW原理和实施、了解常用的推荐算法、了解机器学习模型等。这也很容易理解,C端要求你了解用户需求,而在数据端,主要用户就是数据。

这当然不是说,用户体验不重要,拿推荐算法来说,除了满足用户最基本的感兴趣,也要考虑时效性,考虑新兴趣的挖掘,考虑无数据时的冷启动问题…这些一样是用户体验,只是解决方案也得从数据出发。后端的数据产品,如报表,用户往往是你隔壁工位的小秦或小路,设计得丑一点不要紧,要是数据指标口径不统一,那才会分分钟骂街。

虽然数据PM需要熟悉各类数据模型、指标、数据挖掘和数据工程的实现,但是聚焦点是把它作为一个项目去实现,而不是考虑技术的细节。故而不用精通。

数据产品经理是一个比较新兴的岗位,所以有丰富经验的从业者并不多,我个人认为,还是存在比较大的职业缺口。当然也有其他问题,一是因为新兴,部门负责人本身也没有想好他们能干什么,不少数据PM还从事表哥的工作。二是数据产品本身可借鉴的经验不多,像APP产品,可以下载体验,总归有一个学习了解的过程。然而用户画像、BI、算法策略,都是其他公司的内部机密,无从参考,我就遇到不少对用户画像实现非常感兴趣的数据PM。

从职业发展上看,数据分析师做数据产品经理更合适。普通的产品经理,对前端、后端的技术栈尚未熟悉,何况日新月异的数据栈。这个岗位,适合对数据特别感兴趣,但是数理天赋不高的职场人,那么以沟通、项目管理和需求规划为目标,也不错。

学习资料:

数据产品经理,如果有数据挖掘经验,那么技术相关的书籍倒不重要,更关注产品经理本身的能力,包括Axure,各类文档的编写、项目管理、需求整理等,市面上资料比较多。

这里再补充一本,数据挖掘与数据化运营实战,没啥高深技术,但是能够了解体系的初步建立。

其他书籍参考其他岗位即可。

数据工程

数据工程其实更偏技术,从职业道路上看,程序员走这条道路更开阔。

在很多中小型的公司,一方面数据是无序的、缺失的、原始的,另外一方面各种业务报表又嗷嗷待哺。没办法,分析师只能自己撸起袖子,一个人当两个人用。兼做数据清洗+ETL+BI。

数据分析踏上数据工程的不归路如下:

  • 每天都要从五六张表上join,那么不妨加工成一张中间表;
  • ETL的依赖关系越来越复杂,尝试用kettle/airflow等框架搞定,弄个DAG美滋滋;
  • 运营部门的周报次次都要这几个指标,看看能否做一个自动化BI;
  • 数据量逐日增多,最近T+1的日报需要几个小时完成,研究下查询语句的优化;
  • 查询语句的优化空间也不大了,开始迁移到Hadoop/Spark分布式平台,新技术栈的学习;
  • 新平台,原有的工具也不管用了,某大牛说apache上有工具能解决这个问题,于是阅读文档;
  • 公司部署了私有化的埋点采集,数据缺失比较厉害,业务部门天天骂娘,继续埋Flume/Kafka的坑;
  • 等等…

如果分析师在技术方面的灵性不错,那么技能点会往技术栈方向迁移。从最初的SQL,到了解Hadoop集群、了解presto/impala/spark、了解ELK、了解分布式存储和NoSQL……

这也是一个不错的发展方向,因为数据挖掘需要了解算法/模型,理论知识要求过高,不少硕士和博士还过来抢饭碗,如果自己不擅长容易遇到天花板。选择更底层的工程实现和架构,也是出路,薪资也不会低于数据挖掘。

部分公司会将机器学习模型的部署和实现交给数据工程团队,这要求数据工程师熟悉sparkMLlib、Mahout此类框架。

数据工程师,可以从数据分析师的SQL技能,往数据的底层收集、存储、计算、运维拓展。往后发展则是数据总监、或者数据架构师。因为数据分析出身,与纯技术栈的程序员比,思考会更全面一些,虽然技术底子的薄弱需要弥补。

另外,DBA、BI这些传统的数据库从业者,也是能按这条路线进阶,或者选择数据产品经理方向。

数据工程类的书籍,我看的不多,给不了建议。主要按各类名词搜索吧,什么linux、数据仓库、Hadoop、Spark、Storm、Elasticsearch等。

 

 

发表评论 取消回复

要发表评论,您必须先登录。

推荐访问


数据分析交流:数据分析交流
Excel学习: Excel学习交流
Python交流:一起学习Python(数据分
SQL交流:一起学习SQL(数据分析
微博:一起大数据

最新提问

  • SQL Chat
  • sql server 不允许保存更改。您所做的更改要求删除并重新创建以下表。您对无法重新创建的表进行了更改或者启用了”阻止保存要求重新创建表的更改”选项。
  • 偏相关分析
  • 复相关系数
  • 【R语言】熵权法确定权重
  • 如何破解Excel VBA密码
  • 解决 vba 报错:要在64位系统上使用,请检查并更新Declare 语句
  • 基于 HuggingFace Transformer 的统一综合自然语言处理库
  • sqlserver分区表索引
  • Navicat连接数据库后不显示库、表、数据

文章标签

ARIMA CBC Excel GBDT KNN Modeler Mysql pandas PostgreSQL python python数据可视化 R SAS sklearn SPSS SQL SVM Tableau TensorFlow VBA 主成分分析 关联规则 决策树 协同过滤 可视化 因子分析 大数据 大数据分析 推荐系统 数据分析 数据可视化 数据挖掘 数据透视表 文本挖掘 时间序列 机器学习 深度学习 神经网络 结构方程 统计学 联合分析 聚类 聚类分析 逻辑回归 随机森林
©2023 一起大数据-技术文章心得 | Design: Newspaperly WordPress Theme