5000字长文解析:带你解读阿里大数据建设方法论OneData 原创 数仓建设 24 分钟 读完 (大约 3624 个字) 2021-07-24 在建设大数据数据仓库时,首先要进行充分的业务调研和需求分析,这是数据仓库建设的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功。其次进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度。再次,对报表需求进行抽象整理出相关指标体系,使用OneData工具完成指标规范定义和模型设计。 数仓 阅读更多>>
一文搞懂Hive存储格式及压缩格式,太清晰了! 原创 大数据 / hive 22 分钟 读完 (大约 3304 个字) 2021-07-18 Hive底层数据是以HDFS文件的形式存储在Hadoop中的,选择一个合适的文件存储格式及压缩方式,也是 Hive 优化的一个重点。不同的文件存储格式及压缩格式,同时代表着不同的数据存储组织方式,对于性能优化表现会有很大不同。 大数据hive 阅读更多>>
90后程序员职场报告:月薪普遍过万 超七成有房有车 女性程序员不足一成 原创 life 27 分钟 读完 (大约 4104 个字) 2021-07-16 您知道吗程序员群体已经高达200万,学历和收入双高,月薪普遍过万;社交圈子相对单一,能够忍受孤独寂寞;理性的消费者,崇尚技术实力。他人眼中的程序员黑眼圈、青年肥、胡子拉碴、枯燥乏味,他们眼中的自己自信、强大、自制力强,乐观开朗。 life 阅读更多>>
最全面的数仓分层剖析,一文搞定企业数仓分层 原创 数仓建设 32 分钟 读完 (大约 4748 个字) 2021-07-13 从事数仓相关工作的人员都知道数仓模型设计的首要工作之一就是模型分层,可见模型分层在模型实际过程中的重要性,确实优秀的分层设计是一个数仓项目能否建设成功的核心要素,让数据易理解和高复用是分层的核心目标。 数仓 阅读更多>>
都说数仓是面向主题建设的,那数仓的主题和主题域又应该怎么划分呢? 原创 数仓建设 22 分钟 读完 (大约 3337 个字) 2021-07-28 数仓在建设过程中,对数据的组织管理上,不仅仅要进行横向的分层,也需要根据业务情况进行纵向的主题域划分。为保证整个数仓体系的生命力,数据域需要抽象提炼,长期维护及更新,但不要轻易变动,在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务接入时无影响的包含进已有的数据域中或者扩展新的数据域。 数仓 阅读更多>>
一文掌握OLAP和DataCube数据魔方应用 原创 数仓建设 15 分钟 读完 (大约 2287 个字) 2021-07-06 OLAP( On-Line Analytical Processing),联机分析处理过程。个人理解为主要场景针对大批量数据,实时性无要求,基于数仓多维模型,进行分析操作的系统中。Hadoop体系中MapReduce、Hive、Spark、Flink等都可以进行为OLAP实现。 数仓 阅读更多>>
很开心今天参加「一个数据人的自留地」组织的数据人大会 原创 life 5 分钟 读完 (大约 770 个字) 2021-07-04 很感谢「一个数据人的自留地」组织的这次大会,让我能和这么多的数据人大佬认识和接触,这也是我第二次参加类似大会,上次是在深圳参加的产品经理大会,两次大会都让我感触颇深,感叹优秀的人,努力的人真的很多。 life 阅读更多>>
Hive 系列文章(三)Hive高可用部署 HiveServer2高可用及Metastore高可用 原创 大数据 / hive 9 分钟 读完 (大约 1417 个字) 2021-07-01 当部署的 Metastore 宕机或 HiveServer2 服务宕机时,两个服务可能持续相当长的时间不可用,直到服务被重新拉起。为了避免这种服务中断情况,在真实生产环境中需要部署Hive Metastore 高可用及HiveServer2的高可用。 大数据hive 阅读更多>>
Hive 系列文章(二)安装及部署说明 原创 大数据 / hive 10 分钟 读完 (大约 1449 个字) 2021-06-30 Hive 是基于 Hadoop 的数据仓库解决方案,所以默认代表已经安装 Hadoop,本文只要整理了伪分布式场景下的安装和简单实用案例。 大数据hive 阅读更多>>
Hive 系列文章(一)初识hive 原创 大数据 / hive 17 分钟 读完 (大约 2516 个字) 2021-06-29 Hive 是基于 Hadoop 的数据仓库解决方案。由于 Hadoop 本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用 Hive 构建的数据仓库也秉承了这些特性。 大数据hive 阅读更多>>