自学大数据分析,如何提升项目能力?因为它是个非常好的行业,那我们在自学的路上,遇到的问题就是我们如何去提升自己的项目经验,那么这是我们今天要给大家分享的主题。
项目阶段
一个企业真实项目到底是怎么回事?那还是和我们今天讲的还是有点区别,但是你在自学的时候完全可以自己做一些小的项目,训练自己工具使用和具体的工作流程都能做到的。
比如说网上看一些其他人做的项目案例视频,学习他们的分析流程,像一些天池大赛上的作品,这里有往年同学做的项目,也做出了结果,顺着他的结果和项目的要求去思考,想想能不能做出更好的。
所以最开始做的时候可能是复制人家的学习,然后再用自己的思维去创造一些新的项目。
关键是在分析流程,分析师的分析流程是有标准的,一般情况下:
要先明确项目的目标(你要干嘛);
- 之后采集数据;
- 数据采集下来之后你要开始去数据的清洗(保证数据的质量),数据清洗有很多的工具有很多的一些工具,比如说ETL;
- 做完这些之后,你要去做简单的分析和统计,如果遇到复杂一点的,那你还要用到算法和模型;
- 做完了之后开始做可视化,你的客户是没有学过的,你不能那一堆代码一堆表格给人家看,所以你要把它做成他能够看得懂的图片或者是精简的表格;
做分析的报告,做项目过程中的情况结果写出来,为什么这样做?理由是什么?最后发现了什么?我是怎么去进行的?结果是什么样子?这个过程完全是可以在自学的时候自己做的。
当然的话如果说有经验的老师带着做的话,基本上就很快能完成一个项目。
在往上一层是复杂的项目层,这一层包括了商业逻辑、分析工具、模型算法(逻辑回归、线性回归、关联分析、聚类分析、决策树等,还有顾客的模型等我们经常用到的)、说服演讲(让人认可)。
企业项目层,这一层就是要真实做企业的项目,我们实训里面第四个阶段就是做企业真实项目,直接和企业签订保密协议,把企业的需求讲清楚,问企业要相关的数据进行分析。
这里就涉及到行业数据、业务数据、商业价值、数据补全(企业数据不足以完成这个项目,所以要去网上补全数据)、说服执行。
我把一个自学项目的流程分为四个层面,我相信有很多的同学在第一层已经做了很久了,那么很多同学在这个阶段做的时间长的原因是什么?一不知道如何下手如何学,学的过程中比较乱,什么都想学,但是学了什么就忘了什么,没有相应的项目练手。
当你真正做一个的项目的时候,你就会发现常用的东西也就是这么多,并不需要你把python里面的知识全部学会。
项目流程
做到一个项目首先要确定目标,搞清楚项目的那个目标是什么?
有老板会这样说,你看我这两年来销售额下降地挺厉害的,那“销售额下降”就是一个明确的目标吗?
比如说他有5个产品,要看他的整体数据,销售额下降了但是利润反而高了。所以在看到这些数据之后,想明白他到底是要解决一个什么样的问题,是销售额的问题?还是说只关心利润?
你们去公司的时候就会知道一些公司是比较注重销售额一些公司是注重利润的,另外有公司在某阶段是关心利润,某阶段关心销售额。
帮助企业明确问题之后,开始思考怎么去解决这个问题。哪个产品的利润下降了?哪个利润上升了?原因是什么?分析之后得出结论,到底问题出在什么地方,这就是我们讲的原因分析。分析里面我强调三个分析:现状分析、原因分析和预测分析。
案例分享
我们来看一个案例,这是我们的学生用了10天做的,因为我们的时间是有限的。从数据收集到的分析到报告,通过网上查询办法,统一指标指标,进行分析。
我当时把14年到16年的数据都采集下来了,然后开始进行相关分析,我要求他们用项目制做,他的目标是“预测2019年球员能力值以及后赛季球队的胜负情况”,目标的前半部分个人值做得挺好,但是后半部分的球队情况就难免有些差强人意,因为这个数据集太大了。
在完成了工作分配、进度控制、费用管理、风险管理之后,开始做项目
首先就是数据收集,主要通过网上数据的采集,在kaggle网站上找到相应的球员信息,我记得这个采集下来有30多个G,还有些数据要通过网络爬虫进行补全。
数据清洗的时候,有缺失值需要去做,指标的定义,指标定义比较关键,同时做好统一的指标之后,做好数据的去重,做成数据可视化。
相对来说考虑问题已经比较全面,红色是进球率特别高的地方,在三分球这块进球率就不是很高,我们要把球员在球场上的弱点、优势都要搞清楚,看看有没有一些特殊的情况。
拿出了两个球员做对比,那可以很清楚地看出两个球员命中率的状况。
最后一个就是项目总结,他们在项目的过程中,觉得这些东西对他们来说还是比较困难的。
因为我们这个项目只有10天的时间,有些人还是python、数据库小白或者懂一点点,但是他们能做出这种结果,我已经很满意了。在这个过程里面主要就是训练他们python的使用、数据使用、可视化、爬虫。
一边学一边做,在这样一个过程中,他们会成长的比较快,如果你单独的去学python,你就会发现python比较枯燥。
自己在做项目的过程中,完全是可以去一些网站上下载一些相关的数据集。
比如说我想去做外卖的项目分析,想知道哪些地方适合开什么店,店铺选址该在哪里。之后把整个城市的外卖数据爬下来,然后你通过分析,知道哪个外卖点的人是最多的,做食品类的店多还是做茶饮类的店多,消费情况又是什么样的。这个时候你会发现如果要开食品店,应该选在什么位置。这个完全是可以通过python、爬虫、可视乎、热力图做出来的。