在SparkSQL中，在Spark1.3版本时为SparkSQL提供了一种新的数据集结构DataFrame, 而从Spark1.6开始提供了一种新的弹性的、懒执行的、分布式的抽象数据集Dataset，那么它与RDD之前有着什么样的关联呢？

来看看源码中的介绍：

1.RDD、DataFrame和Dataset

RDD

RDD是一个弹性的、可容错的分布式的数据集，在Spark中是最基本的抽象，它代表一个不可变的，可并行化操作的分区集合。
RDD提供了基本的转换操作，比如map, filter等算子。
RDD有五大特性：

RDD由一系列分区组成
提供了方法、操作作用于于每一个split
RDD之间有依赖关系
分区器是作用于key-value格式的RDD上
为每个split,提供了最佳的计算位置信息

DataFrame

DataFrame也是一个弹性的，分布式的，懒执行的抽象的数据集容器。
DataFrame更像传数据库中的二维表，除了存储数据的计算逻辑外，它还记录了数据的结构信息，即schema。
与Hive类似，DataFrame也支持嵌套数据类型，如struct, array和map。
DataFrame的API提供了一套高层的关系操作，主要用来处理结构化的数据。

Dataset

Dataset也是一种分布式的数据集合，在Spark1.6版本中引入，是DataFrame API的扩展，它提供了类型安全的(type-safe)、面向对象的编程接口，Dataset利用Catalyst的优化器可以让用户通过lambda表达式的方式对数据进行查询和操作。
在Spark2.0以后，为了方便开发者，Spark将DataFrame和Dataset的API进行了整合，为用户提供了一套标准的丰富的API。
在Scala中，DataFrame = Dataset[Row]
Dataset其实是对RDD的更高层的封装，每个切片上也会有对应的算子作用于分区上
Dataset支持更加智能的数据源，如jdbc, json, parquet等。

2.RDD、DataFrame和Dataset三者之间的关系

RDD和DataFrame最主要的区别在于DataFrame面向的是结构化的数据，而RDD即可以是非结构化的数据也可以是非结构化的数据。
DataFrame内部除了存储数据的计算逻辑，还存储了明确的元数据schema信息，即列的名称、类型、是否为空等信息，这样带来的好处是可以减少数据读取以有更好地优化执行计划，从而保证查询的效率。

上面图中直观地描述了DataFrame和RDD的区别

RDD中虽然以Person作为类型参数，但是Spark框架不了解Person的内部结构
DataFrame中提供了详细的结构信息，有列名，列的类型，SparkSQL中可以清楚地知道它包含哪些元数据信息，即所谓的schema信息；
DataFrame是分布式的Row对象的集合，DataFrame底层有catalyst优化生成器，可生成执行计划，比如谓词下推、列裁剪等。

Dataset和DataFrame的关系

Dataset也是分布式的数据集，它集成了RDD和DataFrame的优点，在Scala和Java的API中提供了丰富的lambda函数。
Spark 2.0以后，为了方便开发者，Spark将DataFrame和Dataset的API进行了整合，提供了结构化的API，用户可通过一套标准的API就能完成两者的操作。
其实，在Scala中， DataFrame就是Dataset[Row], 即Dataset存放了Row类型的数据，二者的关系如下图：

3.Untyped的DataFrame和Typed的Dataset

在SparkSQL中，DataFrame的API被标记为Untyped API, 而Dataset API被标记为Typed API。其中，DataFrame的Untyped是相对于语言或API层面，它确实有明确的schema信息，但是这些信息完全由Spark维护，Spark只会在实际运行时检查这些类型的一致性。

Spark2.0版本以后，官方重新更新了API： type DataFrame = Dataset[Row], 即DataFrame是存放了Row类型的Dataset, 其中的Row是Spark中定义的一个特质特性trait, 实现Row的子类中封装了schema信息。

而Dataset被标记为Typed的强类型，实质上，Dataset的类型由scala中的样例类或者Java中的Java Bean来明确指定，例如：

case class Animal(name:String, age: Int)
val animalDs: Dataset[Animal] = session.read.json("animal.json").as[Animal]

4.RDD, DataFrame和Dataset使用总结

RDD是Spark偏底层的API, 适合非结构化数据的处理，而Dataset和DataFrame更适合结构化数据和半结构化数据的处理；
DataFrame和Dataset可以通过统一的Structured API进行访问，而RDD则更适合函数式编程的场景；
相比于DataFrame而言，Dataset是强类型的, 有着更为严格的静态的类型检查；
Dataset、DataFrame、SQL的底层都依赖于RDD API, 并对外提供结构化的访问接口;

醋醋百科网

Good Luck To You!

三十五、SparkSQL: RDD、DataFrame和Dataset的关系

1.RDD、DataFrame和Dataset

2.RDD、DataFrame和Dataset三者之间的关系

3.Untyped的DataFrame和Typed的Dataset

4.RDD, DataFrame和Dataset使用总结