原创2020-11-15 大数据 / sqoop1 小时 读完 (大约 6933 个字)sqoop数据抽取同步工具Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具。 大数据sqoop 阅读更多>>
原创2020-11-10 大数据 / hadoop10 分钟 读完 (大约 1483 个字)HDFS 文件读写流程HDFS是一个分布式文件系统,在HDFS上读写文件的过程与我们平时使用的单机文件系统非常不同。 大数据hadoop 最后修改: 2020-11-10 阅读更多>>
原创2020-11-04 大数据 / Kafka9 分钟 读完 (大约 1368 个字)Kafka浅谈、kafka简介Kafka起初由Linkedin公司开发的一个多分区、多副本、多订阅者,基于zookeeper协调的分布式消息系统,常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。目前kafk已经定位于一个分布式流失处理平台。它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。 kafka 最后修改: 2020-11-04 阅读更多>>
原创2020-11-02 大数据 / Kafka6 分钟 读完 (大约 944 个字)Kafka浅谈、kafka集群部署与安装kafka集群部署与安装. kafka 最后修改: 2020-11-02 阅读更多>>
原创2020-11-01 大数据 / Kafka11 分钟 读完 (大约 1708 个字)Kafka浅谈、什么是AR、OSR、ISR、HW和LEO以及之间的关系Kafka 为分区引入了多副本(Replica)机制,通过增加副本数量可以提升容灾能力。同一分区的不同副本中保存的是相同的消息(当然在同一时刻,副本之间可能并非完全一样),副本之间是“一主多从”的关系,其中leader副本负责处理读写请求,follower副本只负责与leader副本的消息同步。 kafka 阅读更多>>
原创2020-07-23 大数据 / hive10 分钟 读完 (大约 1490 个字)hive 自定义函数浅谈(UDF、UDAF、UDTF)hive的内置函数满足不了所有的业务需求,hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。 hive 阅读更多>>
转载2020-06-30 大数据23 分钟 读完 (大约 3380 个字)浅谈用户行为数据采集方案本文将重点探讨数据采集层中的用户行为数据采集系统。这里的用户行为,指的是用户与产品UI的交互行为,主要表现在Android App、IOS App与Web页面上。 大数据数据采集 最后修改: 2020-06-30 阅读更多>>
原创2020-06-28 大数据 / hadoop3 分钟 读完 (大约 504 个字)hadoop集群配置LZO压缩以及支持Hivehadoop集群配置LZO压缩,在集群上运行jar包生成loz文件,以及支持Hive. 大数据hadoophive 最后修改: 2020-06-28 阅读更多>>
原创2020-06-14 大数据 / hbase6 分钟 读完 (大约 919 个字)Hbase学习之路(六)HBase表的设计原则HBase表的合理设计,对HBase高性能的使用是至关重要。 bigdatahbase 最后修改: 2020-06-14 阅读更多>>
原创2020-06-13 大数据 / hbase31 分钟 读完 (大约 4672 个字)Hbase学习之路(五)HBase数据存储机制HBase 采用了经典的 master/slave 架构,与 Hdfs 不同的是,他的 master 与 slave 不直接互联,而是引入 zookeeper 让两类服务解耦,这样使得 master 变得完全无状态,而避免了 master 宕机导致的整个集群不可用。 bigdatahbase 最后修改: 2020-06-13 阅读更多>>