大数据技术共46篇

大数据技术
超赞的kafka可视化客户端工具,让你嗨皮起来!-白程序员的自习室

超赞的kafka可视化客户端工具,让你嗨皮起来!

Kafka Tool提供了一个较为直观的UI可让用户快速查看Kafka集群中的对象以及存储在topic中的消息,提供了一些专门面向开发人员和管理员的功能
2年前
029651
Hive 系列文章(二)安装及部署说明-白程序员的自习室

Hive 系列文章(二)安装及部署说明

Hive 是基于 Hadoop 的数据仓库解决方案,所以默认代表已经安装 Hadoop,本文只要整理了伪分布式场景下的安装和简单实用案例。
1年前
06221
一文搞懂Hive存储格式及压缩格式,太清晰了!-白程序员的自习室

一文搞懂Hive存储格式及压缩格式,太清晰了!

Hive底层数据是以HDFS文件的形式存储在Hadoop中的,选择一个合适的文件存储格式及压缩方式,也是 Hive 优化的一个重点。不同的文件存储格式及压缩格式,同时代表着不同的数据存储组织方式,对于...
2个月前
022471
2022 高效Flink学习路线经验分享(持续更新中)-白程序员的自习室

2022 高效Flink学习路线经验分享(持续更新中)

2021 高效Flink学习路线经验分享
2年前
011341
HDFS的shell常用命令操作-白程序员的自习室

HDFS的shell常用命令操作

HDFS的命令有两种风格: hadoop fs开头 hdfs dfs开头 两种命令都可以使用,效果相同,建议使用hdfs dfs,因为hadoop fs为老版本用法,兼容保留。 启动集群 start-dfs.sh start-yarn.sh 帮助命令...
hive 自定义函数浅谈(UDF、UDAF、UDTF)-白程序员的自习室

hive 自定义函数浅谈(UDF、UDAF、UDTF)

hive的内置函数满足不了所有的业务需求,hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。
2个月前
013190
Spark RDD的依赖关系以及DAG划分stage-白程序员的自习室

Spark RDD的依赖关系以及DAG划分stage

由于 RDD 是粗粒度的操作数据集,每个 Transformation 操作都会生成一个新的 RDD,所以 RDD 之间就会形成类似流水线的前后依赖关系;RDD 和它依赖的父 RDD(s)的关系有两种不同的类型,即窄依...
Hive 系列文章(一)初识hive-白程序员的自习室

Hive 系列文章(一)初识hive

Hive 是基于 Hadoop 的数据仓库解决方案。由于 Hadoop 本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用 Hive 构建的数据仓库也秉承了这些特性。
1年前
04230
图解HDFS存储原理-白程序员的自习室

图解HDFS存储原理

HDFS是现在最受欢迎和被人们说熟知的分布式文件系统。本文翻译了经典的 HDFS 原理讲解漫画,以一种通俗易懂的方式帮助 HDFS 初学者理解HDFS 的原理。 HDFS写数据原理 HDFS读数据原理 HDFS故障类...
最全面的Hive开窗函数讲解和实战指南(必看)-白程序员的自习室

最全面的Hive开窗函数讲解和实战指南(必看)

在报表等数据分析场景中,你会发现窗口函数真的很强大,灵活运用串口函数可以解决很多复杂问题,比如去重、排名、同比及环比、连续登录等等。本文将对窗口函数进行一个全面的整理,讲一讲窗口函...
2个月前
027030