作者博客公众号 dabaispace
欢迎关注微信公众号:
白程序员的自习室

你真的了解数仓元数据吗,数据地图你又知道多少?

5000字长文解析:带你解读阿里大数据建设方法论OneData

5000字长文解析:带你解读阿里大数据建设方法论OneData

在建设大数据数据仓库时,首先要进行充分的业务调研和需求分析,这是数据仓库建设的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功。其次进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度。再次,对报表需求进行抽象整理出相关指标体系,使用OneData工具完成指标规范定义和模型设计。

最全面的数仓分层剖析,一文搞定企业数仓分层

都说数仓是面向主题建设的,那数仓的主题和主题域又应该怎么划分呢?

都说数仓是面向主题建设的,那数仓的主题和主题域又应该怎么划分呢?

数仓在建设过程中,对数据的组织管理上,不仅仅要进行横向的分层,也需要根据业务情况进行纵向的主题域划分。为保证整个数仓体系的生命力,数据域需要抽象提炼,长期维护及更新,但不要轻易变动,在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务接入时无影响的包含进已有的数据域中或者扩展新的数据域。

一文掌握OLAP和DataCube数据魔方应用

一文掌握OLAP和DataCube数据魔方应用

OLAP( On-Line Analytical Processing),联机分析处理过程。个人理解为主要场景针对大批量数据,实时性无要求,基于数仓多维模型,进行分析操作的系统中。Hadoop体系中MapReduce、Hive、Spark、Flink等都可以进行为OLAP实现。

💡 数仓命名规范

😊  数仓开发规范

最值得阅读的数据仓库书籍推荐


浅谈数仓三、浅谈数仓分层和模型

浅谈数仓三、浅谈数仓分层和模型

数仓为空间换时间,通过大量预处理,提升用户数据效率体现等。故而存在大量数据冗余。如果不分层,源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。