Spark RDD持久化缓存机制 原创 spark 13 分钟 读完 (大约 1978 个字) 2020-08-02 RDD 持久化是 Spark 非常重要的特性之一。用户可显式将一个 RDD 持久化到内存或磁盘中,以便重用该RDD。RDD 持久化是一个分布式的过程,其内部的每个 Partition 各自缓存到所在的计算节点上。RDD 持久化存储能大大加快数据计算效率,尤其适合迭代式计算和交互式计算。 大数据spark 阅读更多>>
Spark RDD的依赖关系以及DAG划分stage 原创 spark 7 分钟 读完 (大约 979 个字) 2020-08-02 由于 RDD 是粗粒度的操作数据集,每个 Transformation 操作都会生成一个新的 RDD,所以 RDD 之间就会形成类似流水线的前后依赖关系;RDD 和它依赖的父 RDD(s)的关系有两种不同的类型,即窄依赖(Narrow Dependency)和宽依赖(Wide Dependency)。 大数据spark 阅读更多>>
Spark的算子Transformation和Action 原创 spark 15 分钟 读完 (大约 2199 个字) 2020-08-02 Spark的算子Transformation和Action 大数据spark 阅读更多>>
Spark之RDD 原创 spark 8 分钟 读完 (大约 1273 个字) 2020-08-02 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。 大数据spark 阅读更多>>
Spark学习之路(二):Spark伪分布式安装 原创 spark 3 分钟 读完 (大约 430 个字) 2020-07-28 由于之前在网上找的关于Spark搭建的资料都很老旧,大多之前的版本,于是自己安装后总结了一些相关知识,希望能和初学者共勉,也希望各位大神批评指正 大数据spark 阅读更多>>
Spark学习之路(一):Spark初识 原创 spark 14 分钟 读完 (大约 2065 个字) 2020-07-27 spark 是高性能 DAG 计算引擎,一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的 MapReduce 计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark 的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算。Spark 依然比 MapReduce 更加高效。 大数据spark 阅读更多>>
pyspark 如何设置python的版本 原创 spark 2 分钟 读完 (大约 259 个字) 2020-05-04 PySpark 在工作程序中都需要使用的为默认环境的python版本,怎样把python的版本切换成3的版本,您可以通过 `PYSPARK_PYTHON` 指定要使用的Python版本。 大数据pythonsparkpyspark 阅读更多>>