Hive系统函数一览 (建议收藏)
Hive 提供了较完整的 SQL 功能,HQL 与 SQL 基本上一致,旨在让会 SQL 而不懂 MapReduce 编程的用户可以调取 Hadoop 中的数据,进行数据处理和分析。这里记录了个人日常数据分析过程中 Hive SQL...
Hadoop 发展背景和简介
Hadoop产生的背景 HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决...
pyspark 如何设置python的版本
PySpark 在工作程序中都需要使用的为默认环境的python版本,怎样把python的版本切换成3的版本,您可以通过 `PYSPARK_PYTHON` 指定要使用的Python版本。
Hive 系列文章(一)初识hive
Hive 是基于 Hadoop 的数据仓库解决方案。由于 Hadoop 本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用 Hive 构建的数据仓库也秉承了这些特性。
Flume 学习之路(一)Flume 概述和基本架构
Flume 是一个分布式、可靠且高可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据的简单灵活架构,良好的可靠性机制、故障转移和恢复机制,具有强大的容错性。它支持在系统...