今でもあなたは私の光丶

大数据基础入门

什么是大数据

举例:

商品推荐:问题(1)大量的订单如何储存(2)大量的订单如何计算
天气预报:问题(1)大量天气数据如何存储?(2)大量的天气数据如何计算

什么是大数据,本质?

数据的存储:分布式文件系统(分布式存储)
数据的计算:分布式计算

java和大数据是什么关系?

举例

Hadoop:基于java语言开发
spark:基于Scala语言,Scala基于java语言

学习大数据的基础和路线

学习大数据需要的基础

java基础(javaSE)-->类、继承、多态、I/O、反射、泛型…
Linux基础(Linux的操作)-->创建文件、目录,vi编辑器…

学习路线

java基础和linux基础

Hadoop的学习:体系机构、运行机制、原理、编程

阶段:

  1. HDFS(分布式文件系统)、MapReduce(Java程序,用于数据计算)、Hbase(NoSQL数据库)
  2. 数据分析引擎--->Hive、Pig 数据采集引擎-->Sqoop、Flume
  3. HUE:Hadoop WEB管理工具 ZooKeeper:实现Hadoop的HA Oozie:工作流引擎

Spark学习

阶段:

  1. Scala编程语言
  2. Spark Core -->解决数据的计算,基于内存
  3. Spark SQL -->类似于Oracle中的SQL语句
  4. Spark Streaming --> 进行实时计算(流式计算)

Apache Storm:类似于Spark Streaming --> 进行实时计算(流式计算)

NoSQL:Redis基于内存的数据库

发表评论

99 条评论 “大数据基础入门”