大数据时代,大数据技术的应用随着信息化的发展越发深入社会各行各业,大数据技术体系庞大且复杂,其核心的技术有哪些呢?加米谷大数据简单归纳下。
大数据行业中,主要工作环节包括:
大数据采集
大数据预处理
大数据存储及管理
大数据分析及挖掘
大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
简单说是这三种:拿数据,算数据,用数据。
一、拿数据
大数据的采集与预处理。
大数据采集一般分为:
大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。
基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。
大数据预处理:完成对已接收数据的初步辨析、抽取、清洗等操作。
常见的相关技术:
Flume NG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理;
Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到“存储库”中;
Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库中的数据导入到Hadoop中,也可以将Hadoop中的数据导入到关系型数据库中;
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。
二、算数据
大数据的存储、管理、分析与挖掘。
大数据存储与管理:要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。
大数据挖掘:就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
大数据分析:对规模巨大的数据进行采集、存储、管理和分析,这里侧重分析部分。
算数据需要计算平台,数据怎么存(HDFS, S3, HBase, Cassandra),怎么算(Hadoop, Spark)。
这部分包含的较多,其中一些重点:
Hadoop:一种通用的分布式系统基础架构,具有多个组件;Hadoop 的生态系统,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心组件构成;
Spark:专注于在集群中并行处理数据,使用RDD(弹性分布式数据集)处理RAM中的数据。
Storm:对源源导入的数据流进行持续不断的处理,随时得出增量结果。
HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
MapReduce:作为Hadoop的查询引擎,用于大规模数据集的并行计算
Hive: 的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。
大数据时代想学习大数据技术,可以考虑下加米谷大数据机构,理论与实践结合小班教学,可以试听,每月预报名中,已培养出许多大数据人才。
三、用数据
大数据的展现和应用。
数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。在大数据分析的应用过程中,可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的数据,可视化与可视分析能够迅速和有效地简化与提炼数据流,帮助用户交互筛选大量的数据,有助于使用者更快更好地从复杂数据中得到新的发现。
Python爬虫:掌握requests库、lxml库(或beautifulsoup4库)的使用基本上可以入门了;
熟练操作数据分析工具(比如Excel、SPSS、SAS等);
掌握数据分析思路,能将数据进行可视化,能够对分析结果进行正确的业务数据解读等。
大数据的应用:大数据的实际应用场景,如金融大数据、教育大数据、餐饮大数据、交通大数据、工业大数据、农业大数据等。加米谷大数据培训。