排序
Spark RDD持久化缓存机制
RDD 持久化是 Spark 非常重要的特性之一。用户可显式将一个 RDD 持久化到内存或磁盘中,以便重用该RDD。RDD 持久化是一个分布式的过程,其内部的每个 Partition 各自缓存到所在的计算节点上。RD...
Spark RDD的依赖关系以及DAG划分stage
由于 RDD 是粗粒度的操作数据集,每个 Transformation 操作都会生成一个新的 RDD,所以 RDD 之间就会形成类似流水线的前后依赖关系;RDD 和它依赖的父 RDD(s)的关系有两种不同的类型,即窄依...
Spark集群安装部署
安装基础 Java8安装成功 zookeeper安装成功 下载安装包 spark官网下载链接 作者百度网盘链接: https://pan.baidu.com/s/1ytjRn231Gx3RFDSncrj5qQ 密码: 77tm 上传安装包到服务器 cd /opt/softwa...
Spark初识
spark 是高性能 DAG 计算引擎,一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使...
scala语言学习(十一)、scala隐式转换和隐式参数
scala提供的隐式转换和隐式参数功能,是非常有特色的功能。是Java等编程语言所没有的功能。它可以允许你手动指定,将某种类型的对象转换成其他类型的对象或者是给一个类增加方法。通过这些功能...
scala语言学习(九)、scala提取器(Extractor)
提取器(Extractor) 提取器是从传递给它的对象中提取出构造该对象的参数。(回想样例类进行模式匹配提取参数) scala 提取器是一个带有unapply方法的对象,unapply方法算是apply方法的反向操作,un...