1、Hive表关联查询,如何解决数据倾斜的问题?
1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。
2025年08月31日
1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。
2025年08月31日
与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业上。
2025年08月31日
在目前的大数据架构中hive是用来做离线数据分析的,而在Spark1.4版本中 spark 加入了spark sql , 我们知道spark的优势是速度快,那么到底spark sql 会比hive 快多少呢。
Spark 1.4 在spark sql中加入了 窗口函数,这降低了hive 向spark sql迁移的难度。
本文有两个目的,一是hive 与spark sql 整合,二是测试 spark sql 与 hive的效率。
2025年08月31日
@Author :Runsen
Python字符串总结
字符串是由独立字符组成的一个序列,通常包含在单引号(‘ ’),双引号(”“)
2025年08月31日
前段时间我们讲解了flink1.11中如何将流式数据写入文件系统和hive [flink 1.11 使用sql将流式数据写入hive],今天我们来从源码的角度深入分析一下。以便朋友们对flink流式数据写入hive有一个深入的了解,以及在出现问题的时候知道该怎么调试。