大数据技术共46篇

大数据技术
Kafka浅谈、什么是AR、OSR、ISR、HW和LEO以及之间的关系-白程序员的自习室

Kafka浅谈、什么是AR、OSR、ISR、HW和LEO以及之间的关系

Kafka 为分区引入了多副本(Replica)机制,通过增加副本数量可以提升容灾能力。同一分区的不同副本中保存的是相同的消息(当然在同一时刻,副本之间可能并非完全一样),副本之间是“一主多从...
2个月前
033040
超赞的kafka可视化客户端工具,让你嗨皮起来!-白程序员的自习室

超赞的kafka可视化客户端工具,让你嗨皮起来!

Kafka Tool提供了一个较为直观的UI可让用户快速查看Kafka集群中的对象以及存储在topic中的消息,提供了一些专门面向开发人员和管理员的功能
2年前
029641
最全面的Hive开窗函数讲解和实战指南(必看)-白程序员的自习室

最全面的Hive开窗函数讲解和实战指南(必看)

在报表等数据分析场景中,你会发现窗口函数真的很强大,灵活运用串口函数可以解决很多复杂问题,比如去重、排名、同比及环比、连续登录等等。本文将对窗口函数进行一个全面的整理,讲一讲窗口函...
2个月前
027030
介绍一款Hive数仓可视化神器、Dbeaver的配置和使用方法-白程序员的自习室

介绍一款Hive数仓可视化神器、Dbeaver的配置和使用方法

Dbeaver是一个图形化的界面工具,专门用于与各种数据库的集成,通过dbeaver我们可以与各种数据库进行集成。通过图形化界面的方式来操作我们的数据库与数据库表,类似于我们的sqlyog或者navicat...
2个月前
124260
一文搞懂Hive存储格式及压缩格式,太清晰了!-白程序员的自习室

一文搞懂Hive存储格式及压缩格式,太清晰了!

Hive底层数据是以HDFS文件的形式存储在Hadoop中的,选择一个合适的文件存储格式及压缩方式,也是 Hive 优化的一个重点。不同的文件存储格式及压缩格式,同时代表着不同的数据存储组织方式,对于...
2个月前
022471
Flink如何自定义 mysql source与sink,实现mysql的读取和写入-白程序员的自习室

Flink如何自定义 mysql source与sink,实现mysql的读取和写入

Flink 如何自定义mysql source与sink,实现mysql的读取和写入
3年前
017180
hive 自定义函数浅谈(UDF、UDAF、UDTF)-白程序员的自习室

hive 自定义函数浅谈(UDF、UDAF、UDTF)

hive的内置函数满足不了所有的业务需求,hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。
2个月前
013190
讲一讲Hive的分区表与分桶表概念和使用场景, 顺便聊聊动态分区的实现-白程序员的自习室

讲一讲Hive的分区表与分桶表概念和使用场景, 顺便聊聊动态分区的实现

Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快,也就是说,在加载数据的时候可以指定加载某一部分数据,并不是全量的数据。分桶表通常是在原始数据中加...
2个月前
011690
2022 高效Flink学习路线经验分享(持续更新中)-白程序员的自习室

2022 高效Flink学习路线经验分享(持续更新中)

2021 高效Flink学习路线经验分享
2年前
011331
Hive系统函数一览 (建议收藏)-白程序员的自习室

Hive系统函数一览 (建议收藏)

Hive 提供了较完整的 SQL 功能,HQL 与 SQL 基本上一致,旨在让会 SQL 而不懂 MapReduce 编程的用户可以调取 Hadoop 中的数据,进行数据处理和分析。这里记录了个人日常数据分析过程中 Hive SQL...
2个月前
08280