大数据技术共46篇

大数据技术
Flume 学习之路(六) 思维导图知识点-白程序员的自习室

Flume 学习之路(六) 思维导图知识点

以思维导图形式梳理flume知识点
3年前
01430
Spark的算子Transformation和Action-白程序员的自习室

Spark的算子Transformation和Action

Spark的算子Transformation和Action
Hive系统函数一览 (建议收藏)-白程序员的自习室

Hive系统函数一览 (建议收藏)

Hive 提供了较完整的 SQL 功能,HQL 与 SQL 基本上一致,旨在让会 SQL 而不懂 MapReduce 编程的用户可以调取 Hadoop 中的数据,进行数据处理和分析。这里记录了个人日常数据分析过程中 Hive SQL...
2个月前
08280
Hive 系列文章(二)安装及部署说明-白程序员的自习室

Hive 系列文章(二)安装及部署说明

Hive 是基于 Hadoop 的数据仓库解决方案,所以默认代表已经安装 Hadoop,本文只要整理了伪分布式场景下的安装和简单实用案例。
1年前
06221
Hadoop 发展背景和简介-白程序员的自习室

Hadoop 发展背景和简介

Hadoop产生的背景 HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决...
pyspark 如何设置python的版本-白程序员的自习室

pyspark 如何设置python的版本

PySpark 在工作程序中都需要使用的为默认环境的python版本,怎样把python的版本切换成3的版本,您可以通过 `PYSPARK_PYTHON` 指定要使用的Python版本。
Hive的企业级调优-白程序员的自习室

Hive的企业级调优

整理汇总hive使用过程中企业级调优。
2个月前
01260
HBase表的设计原则-白程序员的自习室

HBase表的设计原则

HBase表的合理设计,对HBase高性能的使用是至关重要。
3年前
01700
Hive 系列文章(一)初识hive-白程序员的自习室

Hive 系列文章(一)初识hive

Hive 是基于 Hadoop 的数据仓库解决方案。由于 Hadoop 本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用 Hive 构建的数据仓库也秉承了这些特性。
1年前
04230
Flume 学习之路(一)Flume 概述和基本架构-白程序员的自习室

Flume 学习之路(一)Flume 概述和基本架构

Flume 是一个分布式、可靠且高可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据的简单灵活架构,良好的可靠性机制、故障转移和恢复机制,具有强大的容错性。它支持在系统...
3年前
01130