2025年08月07日

二十、图解Spark的Shuffle原理（说一下sparkshuffle）

1.概述

Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂。

在MR框架中，Shuffle是连接Mapper和Reducer之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce, 而Reduce阶段负责从Map端拉取数据并行计算。在整个shuffle过程中，往往伴随着大量的磁盘IO和网络的数据传输。所以，shuffle性能的高低也直接决定了整个应用程序性能的高低。相比较于MR的shuffle, Spark框架也有自己的独特的shuffle实现过程。

2025年08月07日

今日面试题分享:请介绍一下Spark中资源调度和任务调度

Spark比MR快的原因

1、Spark基于内存的计算

2025年08月07日

三十五、SparkSQL: RDD、DataFrame和Dataset的关系

在SparkSQL中，在Spark1.3版本时为SparkSQL提供了一种新的数据集结构DataFrame, 而从Spark1.6开始提供了一种新的弹性的、懒执行的、分布式的抽象数据集Dataset，那么它与RDD之前有着什么样的关联呢？

来看看源码中的介绍：

1.RDD、DataFrame和Dataset

2025年08月07日

大数据内存计算Spark框架原理详细整理

《大数据和人工智能交流》头条号向广大初学者新增C 、Java 、Python 、Scala、javascript 等目前流行的计算机、大数据编程语言，希望大家以后关注本头条号更多的内容。

（一）Spark简介

2025年08月07日

SparkSQL——DataFrame的创建与使用

本文主要从以下几个方面介绍SparkSQL中的DataFrame:

第一，SparkSQL的作用

第二，什么是DataFrame

第三，DataFrame与RDD的区别

第四，DataFrame的创建与使用（Spark1.x与Spark2.x两种不同版本）

第一，SparkSQL的作用

SparkSQL是spark处理结构化数据的一个模块，它的前身是shark，与基础的spark RDD不同，SparkSQL提供了结构化数据及计算结果等信息的接口，在内部，SparkSQL使用这个额外的信息去执行额外的优化，有几种方式可以跟SparkSQL进行交互，包括SQL和DataSet API，使用相同的执行引擎进行计算的时候，无论是使用哪一种计算引擎都可以快速的计算。

2025年08月07日

字节跳动在 Spark SQL 上的核心优化实践

作者 | 郭俊

封图 | BanburyTang

字节跳动数据仓库架构团队负责数据仓库领域架构设计，支持字节跳动几乎所有产品线（包含但不限于抖音、今日头条、西瓜视频、火山视频）数据仓库方向的需求，如 Spark SQL / Druid 的二次开发和优化。字节跳动数据仓库架构负责人郭俊从 SparkSQL 的架构简介、字节跳动在 SparkSQL 引擎上的优化实践，以及字节跳动在 Spark Shuffle 稳定性提升和性能优化三个方面全方位地分享了字节跳动在 Spark SQL 上的核心优化的探索与实践。

2025年08月07日

大佬用10小时就把Spark讲完了，附6大技术文档

前言

Apache Spark是一个开源集群运算框架，相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。
Spark 在存储器内运行程序的运算速度能做到比 Hadoop MapReduce 的运算速度快上 100 倍，即便是运行程序于硬盘时，Spark 也能快上 10 倍速度。Spark 允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。

2025年08月07日

第三篇|Spark SQL编程指南（spark sql开发）

在第二篇|Spark core编程指南一文中，对Spark的核心模块进行了讲解。本文将讨论Spark的另外一个重要模块--Spark SQL，Spark SQL是在Shark的基础之上构建的，于2014年5月发布。从名称上可以看出，该模块是Spark提供的关系型操作API，实现了SQL-on-Spark的功能。对于一些熟悉SQL的用户，可以直接使用SQL在Spark上进行复杂的数据处理。通过本文，你可以了解到：

2025年08月07日

8 RDD 常用算子(3)（d算子法）

双值类型

两个数据源之间的关联操作。

intersection

函数签名

醋醋百科网

Good Luck To You!

二十、图解Spark的Shuffle原理（说一下sparkshuffle）

1.概述

今日面试题分享:请介绍一下Spark中资源调度和任务调度

Spark比MR快的原因

三十五、SparkSQL: RDD、DataFrame和Dataset的关系

1.RDD、DataFrame和Dataset

最新Spark面试题精选（spark面试知识点）

1、driver的功能是什么？

大数据内存计算Spark框架原理详细整理

SparkSQL——DataFrame的创建与使用

第一，SparkSQL的作用

字节跳动在 Spark SQL 上的核心优化实践

大佬用10小时就把Spark讲完了，附6大技术文档

前言

第三篇|Spark SQL编程指南（spark sql开发）

8 RDD 常用算子(3)（d算子法）

intersection