随着Hadoop的不断发展,Hadoop生态体系越来越完善,现如今已经发展成一个庞大的生态体系,Hadoop生态体系包含了很多子系统,下面介绍一些常见的子系统,具体如下: 查看全文>>
大数据技术文章2021-03-11 |传智教育 |Hadoop生态圈子系统
在Scala中,它和Java一样也是拥有方法和函数。Scala的方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说,在类中定义的函数即是方法。 查看全文>>
大数据技术文章2021-03-08 |传智教育 |Scala的方法和函数
对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,当Spark集群中的某一个节点由于宕机导致数据丢失,就可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式,分别是血统(Lineage)方式和设置检查点(checkpoint)方式。下面,我们就来介绍一下这两种方式。 查看全文>>
大数据技术文章2021-03-05 |传智教育 |RDD,操作,spark,RDD容错机制
为什么选择kafka采集数据?大数据采集层主要可以使用Flume, Kafka两种技术。 查看全文>>
大数据技术文章2021-03-04 |传智教育 |kafka,数据采集
本地和远程模式安装配置方式大致相同,本质上是将Hive默认的元数据存储介质由自带的Derby数据库替换为MySQL数据库,这样无论在任何目录下以任何方式启动Hive,只要连接的是同一台Hive服务,那么所有节点访问的元数据信息是一致的,从而实现元数据的共享。下面就以本地模式为例,讲解安装过程。 查看全文>>
大数据技术文章2021-03-04 |传智教育 |Hive安装,Hive本地,安装Hive远程安装
HBase数据库最常见的操作就是读写数据,接下来,针对HBase读写数据的流程进行详细介绍。 查看全文>>
大数据技术文章2021-03-04 |传智教育 |HBase读写数据,HBase
与其他语言相比,Scala中的所有值都有一个类型,包括数值和函数。接下来,通过一张图来描述Scala数据类型的层次结构,具体如图1所示。 查看全文>>
大数据技术文章2021-03-04 |传智教育 |Scala,数据类型,Scala基础语法
Hadoop集群的安装和配置完成之后。并不能直接启动集群,因为在初次启动HDFS集群时,必须对主节点进行格式化处理,具体指令如下。 查看全文>>
大数据技术文章2021-02-28 |传智教育 |Hadoop格式化,文件Hadoop集群格式化