醋醋百科网

Good Luck To You!

大数据Hadoop之——数据仓库Hive_数据仓库 hadoop

一、概述

Hive是基于Hadoop的一个数据仓库(Data Aarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。

Hive面试题整理(一)_hive面试题sql

1、Hive表关联查询,如何解决数据倾斜的问题?

1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。

HIVE SQL基础语法_hive sql常用函数

引言

与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业上。

1. HIVE的特点

[干货]Hive与Spark sql整合并测试效率

在目前的大数据架构中hive是用来做离线数据分析的,而在Spark1.4版本中 spark 加入了spark sql , 我们知道spark的优势是速度快,那么到底spark sql 会比hive 快多少呢。

Spark 1.4 在spark sql中加入了 窗口函数,这降低了hive 向spark sql迁移的难度。

本文有两个目的,一是hive 与spark sql 整合,二是测试 spark sql 与 hive的效率。

Python字符串总结_python里字符串

@Author :Runsen



Python字符串总结

什么字符串

字符串是由独立字符组成的一个序列,通常包含在单引号(‘ ’),双引号(”“)

Flink源码分析之深度解读流式数据写入hive

  • 前言
  • 数据流处理
  • 详解StreamingFileWriter
  • 简述StreamingFileSink
  • 分区信息提交
  • 总结


前言

前段时间我们讲解了flink1.11中如何将流式数据写入文件系统和hive [flink 1.11 使用sql将流式数据写入hive],今天我们来从源码的角度深入分析一下。以便朋友们对flink流式数据写入hive有一个深入的了解,以及在出现问题的时候知道该怎么调试。

阿里二面:如何保证Kafka消息不丢失且不重复

在阿里巴巴的二面中,面试官可能会问到如何在使用Kafka时保证消息不丢失且不重复。这是一个非常实际的问题,因为消息丢失和重复是消息队列中常见的痛点。以下是一些解决方案和建议,帮助你在技术选型时做出更明智的决策。

大数据相关,Kafka与MQ的区别_kafka对比mq

作为消息队列来说,企业中选择mq的还是多数,因为像Rabbit,Rocket等mq中间件都属于很成熟的产品,性能一般但可靠性较强,

而kafka原本设计的初衷是日志统计分析,现在基于大数据的背景下也可以做运营数据的分析统计,而redis的主要场景是内存数据库,作为消息队列来说可靠性太差,而且速度太依赖网络IO,在服务器本机上的速度较快,且容易出现数据堆积的问题,在比较轻量的场合下能够适用。

RabbitMQ,遵循AMQP协议,由内在高并发的erlanng语言开发,用在实时的对可靠性要求比较高的消息传递上。

那些Java架构师必知必会的技术_java架构从入门到架构师

Java基础#

  • Java对象的内存布局
  • MapStruct 解了对象映射的毒

SpringBoot集成RabbitMQ实战指南_springboot集成flowable工作流

SpringBoot集成RabbitMQ实战指南(增强版)

RabbitMQ 是一个轻量级、高可用的消息中间件,在分布式系统中扮演着“异步解耦、流量削峰、可靠通信”的重要角色。本文将带你从 环境准备 → 基础配置 → 常见模式 → 高级特性 → 可靠性保障 → 实战案例 → 集群与监控,完整掌握 SpringBoot 集成 RabbitMQ 的最佳实践。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言