弹性分布式数据集(Resilient Distributed Dataset,RDD)是 Spark 中的核心概念。本质是一个泛型的数据对象,可以理解为数据容器,本身是一个复合型的数据结构...
DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数