大数据技术共46篇

大数据技术
最全面的Hive开窗函数讲解和实战指南(必看)-白程序员的自习室

最全面的Hive开窗函数讲解和实战指南(必看)

在报表等数据分析场景中,你会发现窗口函数真的很强大,灵活运用串口函数可以解决很多复杂问题,比如去重、排名、同比及环比、连续登录等等。本文将对窗口函数进行一个全面的整理,讲一讲窗口函...
2个月前
027020
pyspark 如何设置python的版本-白程序员的自习室

pyspark 如何设置python的版本

PySpark 在工作程序中都需要使用的为默认环境的python版本,怎样把python的版本切换成3的版本,您可以通过 `PYSPARK_PYTHON` 指定要使用的Python版本。
Spark集群安装部署-白程序员的自习室

Spark集群安装部署

安装基础 Java8安装成功 zookeeper安装成功 下载安装包 spark官网下载链接 作者百度网盘链接: https://pan.baidu.com/s/1ytjRn231Gx3RFDSncrj5qQ 密码: 77tm 上传安装包到服务器 cd /opt/softwa...
Spark之RDD-白程序员的自习室

Spark之RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
Spark的算子Transformation和Action-白程序员的自习室

Spark的算子Transformation和Action

Spark的算子Transformation和Action
Spark RDD的依赖关系以及DAG划分stage-白程序员的自习室

Spark RDD的依赖关系以及DAG划分stage

由于 RDD 是粗粒度的操作数据集,每个 Transformation 操作都会生成一个新的 RDD,所以 RDD 之间就会形成类似流水线的前后依赖关系;RDD 和它依赖的父 RDD(s)的关系有两种不同的类型,即窄依...
Spark初识-白程序员的自习室

Spark初识

spark 是高性能 DAG 计算引擎,一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使...
SSpark伪分布式安装-白程序员的自习室

SSpark伪分布式安装

由于之前在网上找的关于Spark搭建的资料都很老旧,大多之前的版本,于是自己安装后总结了一些相关知识,希望能和初学者共勉,也希望各位大神批评指正
Spark RDD持久化缓存机制-白程序员的自习室

Spark RDD持久化缓存机制

RDD 持久化是 Spark 非常重要的特性之一。用户可显式将一个 RDD 持久化到内存或磁盘中,以便重用该RDD。RDD 持久化是一个分布式的过程,其内部的每个 Partition 各自缓存到所在的计算节点上。RD...
HDFS的shell常用命令操作-白程序员的自习室

HDFS的shell常用命令操作

HDFS的命令有两种风格: hadoop fs开头 hdfs dfs开头 两种命令都可以使用,效果相同,建议使用hdfs dfs,因为hadoop fs为老版本用法,兼容保留。 启动集群 start-dfs.sh start-yarn.sh 帮助命令...