提及数据分析工具相信小伙伴们都不陌生,但是很多人都会有个疑惑?
数据分析工具这么多,它们有什么区别?哪个更好?哪个更强?我应该学习哪个?
虽然这个问题有点俗套,但是很重要,我也一直努力在追求这个终极问题的答案。如果大家在网上去搜索这方面相关的信息,你又很难看到一个公平的观点。因为评价某一个工具的好坏评论者都可能站在不同的角度,带上一些个人的感情色彩。
今天我们抛开这些个人色彩的东西,力求客观地与大家浅谈一下我个人对市面上几款数据分析工具的看法,供大家参考。
我共选了三类工具:
- Excel
- BI工具
- R、Python等编程类语言
下面我一一来介绍:
Excel
如果说BI工具是战斗机,R语言、Python是轰炸机,那么Excel就是数据分析里的航空母舰,表格制作、数据透视表、VBA等等功能强大,Excel的体系庞大到没有任何一个分析工具能够超过它,保证人们能够按照需求进行分析。
当然也有人认为自己非常精通计算机编程语言,不屑于使用Excel这种工具,因为Excel不能处理大数据。但换个思维想想,我们在日常中用到的数据是否超过了大数据这个极限呢?在我看来,Excel属于万能型的选手,解决小数据当然最适合,加上插件也可以处理百万级的数据。
总结一下,基于Excel的强大的功能和它的用户规模,我的看法是,它是必备工具,你要是想学数据分析Excel绝对是首选,而且是必选!
BI工具
BI也就是商业智能,这是为了数据分析而生的,它诞生的起点就非常高,目标是把从业务数据到经营决策的时间缩短,如何利用数据来影响决策。
而我们看Excel的产品目标不是这样的,Excel可以做很多事情,你用Excel可以画一张课程表,做一份调查问卷,当作计算器来算数,甚至还可以用来画画,用VBA写个小游戏,这些其实都不是数据分析功能。
但是术业有专攻,BI是专攻数据分析的。
就拿现在市面上比较常见的powerBI、FineBI、tableau这些BI工具来说,你会发现它是完全按照数据分析的流程来设计的,先是数据处理、整理清洗,再到数据建模,最后数据可视化,展现图表,用图来讲故事,发掘问题影响决策。
这些是数据分析的必经之路,同时这个流程里面也存在着从业者的一些痛点:
- 比如清洗数据这种重复性、低附加值的工作,可以用BI工具简单化;
- 做数据透视分析,由于数据量很大,传统Excel工具就很吃力,卡掉、死机;
- 做图形展现,用Excel可能会花费很多时间编辑图表,包括颜色、字体的设定;
这些痛点都是BI工具能够给我们带来改变和增值的地方。
那么再来谈谈PowerBI、FineBI、Tableau等BI工具之间的对比:
1、Tableau:
Tableau的核心本质其实就是excel的数据透视表和数据透视图,可以说它敏锐地发觉了Excel的这个数据透视特性,较早地切入了BI市场,把这个核心价值发扬光大了。
从发展历史和当前的市场的反馈情况看,Tablueau在可视化方面更胜一筹。这个优势我认为并不是图表有多炫酷,而是它的设计、色彩、操作界面给人一种简单,清新的感觉。这一点的确是像Tableau自己所宣传的,投入了很多学术性精力研究人们喜欢什么样的图表,怎样在操作和视觉上给使用者带来极致的体验。
此外,Tableau也在日趋完善,比如加入数据清洗功能和更多智能分析功能。这也都是Tableau可预计的产品发展优势。
2、Power BI
power bi胜在微软的商业模式和产品的数据分析功能:
PowerBI之前是以Excel插件作为产品,受限于Excel本身这个航母,发展情况并不理想,于是从Excel的插件中剥离出来,独立成一门派,脱胎换骨。但作为后来者,每个月都有迭代跟新,追赶速度非常快。
powerBI的商业模式是软件免费,这样你不用担心盗版、破解版的问题,因为正版都是免费的,这一点相比Tableau的动辄几千元的售价实在是很有诱惑力;另一方面是数据分析功能,就是PowerPivot,DAX语言,它可以让我用类似Excel写公式的方式,实现很多非常复杂的高级分析。
3、Fine BI
再说Fine BI,它的独到之处就在于自助式BI更适合企业级用户。
比如取数,业务人员一会一个需求,这里数据不对、那里报表格式不对,效率很低。像有些企业是没有数据分析师这样的岗位,FineBI的自助化就能够实现在权限内自己取数分析,不再让业务和IT互相扯皮。
传统的BI方式可能会需要ETL架构师或者是数据建模师等,但是自助式BI所需要的就很少了,基本上是可以完成人工的解放,尽可能地去减少成本。
还有一个比较重要的点是,FineBI是通过拖拽字段的方式,实现数据透视分析的,可以一键生成图表,入门门槛比较低,对于数据分析新手来说,比powerBI和tableau要好学一点。
R语言和python
第三类工具,这是最难的回答的。虽然像Excel,Bi工具这些软件的设计已经尽最大努力考虑到大部分数据分析的应用场景,但本质上他们都是定制化的,如果没有设计某一项功能,或者开发某项功能的按钮,很有可能你就不能完成你的工作。
对于这一点,编程语言就不一样了,语言是非常强大非常灵活的,你可以随心所欲地写代码执行你想要的东西。比如R和Python语言,作为数据科学家的必备工具,从职业高度上讲,这绝对是高于Excel、BI工具的。
那么有哪些应用场景,R、Python 可以做,而Excel和BI工具比较难实现呢?
1、专业的统计分析
以R语言来讲,它最擅长的是统计型分析,比如求正态分布,利用算法归类聚群,回归分析等。这种分析就好比把数据当做一种实验品,它能够帮助我们回答的问题:
比如数据的分布情况,是正态分布、三角分布还是其他类型的分布?离散情况如何?是否在我们想要达到的统计可控范围内呢?不同参数对结果的影响的量级是多少?以及假设性模拟分析,如果某一参数变化,会带来多大的影响?
2、个体预测分析
比如我们想要预测一位消费者的行为,他会在我们的店里停留多长时间,消费多少,或者通过一个人的淘宝消费记录判断他的个人信用情况,制定贷款额度;再或者根据你在网页上的浏览记录,推送不同的商品。这也是涉及到目前比较火的机器学习、人工智能概念。
总结
以上的对比说明了几个软件的差别,我想总结的是,存在即合理。Excel\BI\编程语言,这些工具在应用上有交叉重叠的地方,也有互补的地方。对于重叠的地方,无论是哪种工具,只要你能利用它解决你遇到的问题,它就是最棒的。
选择哪个工具,首先要了解你自己的工作,是否会用到我刚才提到的那些应用场景。或者想想你的从业方向,是朝着偏重数据的数据科学方向发展,还是偏业务的商业分析方向。