大数据技术共46篇

大数据技术
hadoop集群配置LZO压缩以及支持Hive-白程序员的自习室

hadoop集群配置LZO压缩以及支持Hive

hadoop集群配置LZO压缩,在集群上运行jar包生成loz文件,以及支持Hive.
HBase三节点分布式集群搭建-白程序员的自习室

HBase三节点分布式集群搭建

HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是横向扩展的。
2年前
02940
Flume 学习之路(四)Flume 的部署安装-白程序员的自习室

Flume 学习之路(四)Flume 的部署安装

Flume 框架对 Hadoop 和 Zookeeper 的依赖只是在 jar 包上,并不要求 Flume 启动时必须将 Hadoop 和 Zookeeper 服务也启动。
3年前
0900
介绍一款Hive数仓可视化神器、Dbeaver的配置和使用方法-白程序员的自习室

介绍一款Hive数仓可视化神器、Dbeaver的配置和使用方法

Dbeaver是一个图形化的界面工具,专门用于与各种数据库的集成,通过dbeaver我们可以与各种数据库进行集成。通过图形化界面的方式来操作我们的数据库与数据库表,类似于我们的sqlyog或者navicat...
2个月前
124260
Spark初识-白程序员的自习室

Spark初识

spark 是高性能 DAG 计算引擎,一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使...
HBase常用shell操作-白程序员的自习室

HBase常用shell操作

本内容整理了部分常用命令、以及实验案例。
2年前
02860
Flume 学习之路(五)Flume 的监控-白程序员的自习室

Flume 学习之路(五)Flume 的监控

使用 Flume 实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注 Source、Channel、Sink 之间的消息传输是否正常。比如,SouceChannel 传输了多少消息,ChannelSink 又传...
3年前
01460
一文搞懂Hive存储格式及压缩格式,太清晰了!-白程序员的自习室

一文搞懂Hive存储格式及压缩格式,太清晰了!

Hive底层数据是以HDFS文件的形式存储在Hadoop中的,选择一个合适的文件存储格式及压缩方式,也是 Hive 优化的一个重点。不同的文件存储格式及压缩格式,同时代表着不同的数据存储组织方式,对于...
2个月前
022471
SSpark伪分布式安装-白程序员的自习室

SSpark伪分布式安装

由于之前在网上找的关于Spark搭建的资料都很老旧,大多之前的版本,于是自己安装后总结了一些相关知识,希望能和初学者共勉,也希望各位大神批评指正
2022 高效Flink学习路线经验分享(持续更新中)-白程序员的自习室

2022 高效Flink学习路线经验分享(持续更新中)

2021 高效Flink学习路线经验分享
2年前
011341