作者博客公众号 dabaispace
欢迎关注微信公众号:
白程序员的自习室
Hbase学习之路(一)初识与扩展
大数据集群搭建 (三)、HBase三节点分布式集群搭建
Dbeaver解决无法下载数据库驱动

Dbeaver解决无法下载数据库驱动

Dbeaver是一个图形化的界面工具,专门用于与各种数据库的集成,通过dbeaver我们可以与各种数据库进行集成,不同的数据库类型连接其需要下载不同的驱动,往往驱动包都是国外,因为都知道的原因会出现下载慢和无法下载驱动的问题,下面整理了解决驱动下载问题的方法。

讲一讲Hive的分区表与分桶表概念和使用场景, 顺便聊聊动态分区的实现

讲一讲Hive的分区表与分桶表概念和使用场景, 顺便聊聊动态分区的实现

Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快,也就是说,在加载数据的时候可以指定加载某一部分数据,并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构,这些结构可以用于高效的查询,例如,基于ID的分桶可以使得用户的查询非常的块。

HDFS 小文件治理方案

HDFS小文件是指文件远远小于HDFS配置的block文件大小的文件。在HDFS上中block的文件目录数、或增删改查操作等都是存储在内存中,以对象的方式存储,每个对象约占150byte。若大量的小文件存储占用一个block,则会占用大量NameNode内存。而集群存储文件的多少,由NameNode管理,

Hadoop 基础

hdfs是大数据系统的基础,它提供了基本的存储功能,由于底层数据的分布式存储,上层任务也可以利用数据的本地性进行分布式计算。hdfs思想上很简单,就是namenode负责数据存储位置的记录,datanode负责数据的存储。使用者client会先访问namenode询问数据存在哪,然后去datanode存储;写流程也基本类似,会先在namenode上询问写到哪,然后把数据存储到对应的datanode上。所以namenode作为整个系统的灵魂,一旦它挂掉了,整个系统也就无法使用了。在运维中,针对namenode的高可用变得十分关键。