一、概述
Hive是基于Hadoop的一个数据仓库(Data Aarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。
2025年08月31日
Hive是基于Hadoop的一个数据仓库(Data Aarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。
2025年08月31日
1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。
2025年08月31日
与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业上。
2025年08月31日
在目前的大数据架构中hive是用来做离线数据分析的,而在Spark1.4版本中 spark 加入了spark sql , 我们知道spark的优势是速度快,那么到底spark sql 会比hive 快多少呢。
Spark 1.4 在spark sql中加入了 窗口函数,这降低了hive 向spark sql迁移的难度。
本文有两个目的,一是hive 与spark sql 整合,二是测试 spark sql 与 hive的效率。
2025年08月31日
@Author :Runsen
Python字符串总结
字符串是由独立字符组成的一个序列,通常包含在单引号(‘ ’),双引号(”“)
2025年08月31日
前段时间我们讲解了flink1.11中如何将流式数据写入文件系统和hive [flink 1.11 使用sql将流式数据写入hive],今天我们来从源码的角度深入分析一下。以便朋友们对flink流式数据写入hive有一个深入的了解,以及在出现问题的时候知道该怎么调试。
2025年08月31日
在阿里巴巴的二面中,面试官可能会问到如何在使用Kafka时保证消息不丢失且不重复。这是一个非常实际的问题,因为消息丢失和重复是消息队列中常见的痛点。以下是一些解决方案和建议,帮助你在技术选型时做出更明智的决策。
2025年08月31日
作为消息队列来说,企业中选择mq的还是多数,因为像Rabbit,Rocket等mq中间件都属于很成熟的产品,性能一般但可靠性较强,
而kafka原本设计的初衷是日志统计分析,现在基于大数据的背景下也可以做运营数据的分析统计,而redis的主要场景是内存数据库,作为消息队列来说可靠性太差,而且速度太依赖网络IO,在服务器本机上的速度较快,且容易出现数据堆积的问题,在比较轻量的场合下能够适用。
RabbitMQ,遵循AMQP协议,由内在高并发的erlanng语言开发,用在实时的对可靠性要求比较高的消息传递上。
2025年08月31日
RabbitMQ 是一个轻量级、高可用的消息中间件,在分布式系统中扮演着“异步解耦、流量削峰、可靠通信”的重要角色。本文将带你从 环境准备 → 基础配置 → 常见模式 → 高级特性 → 可靠性保障 → 实战案例 → 集群与监控,完整掌握 SpringBoot 集成 RabbitMQ 的最佳实践。