浅谈数仓四 、数仓元数据管理和上下游约定

浅谈数仓四 、数仓元数据管理和上下游约定

元数据(Meta Data),不仅记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。元数据把数据仓库系统中各个松散的组件联系起来,组成了一个整体数据仓库解决方案。
浅谈数仓三、浅谈数仓分层和模型

浅谈数仓三、浅谈数仓分层和模型

数仓为空间换时间,通过大量预处理,提升用户数据效率体现等。故而存在大量数据冗余。如果不分层,源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。
浅谈数仓二、OLAP和DataCube数据魔方

浅谈数仓二、OLAP和DataCube数据魔方

OLAP( On-Line Analytical Processing),联机分析处理过程。个人理解为主要场景针对大批量数据,实时性无要求,基于数仓多维模型,进行分析操作的系统中。Hadoop体系中MapReduce、Hive、Spark、Flink等都可以进行为OLAP实现。
浅谈数仓一、数仓概念和数仓建设