一、概述以及文档 1、Spark Sql Spark sql是spark用来处理结构化和半结构化数据的高级部分; Spark sql的核心数据抽象DataFrame; 2、DataFrame DataFrame和RDD类似,都是spark平台用以分布式并行计算的不可变的分布式数据集; 介绍文档 二、代码操作 ETL相关操作 相关源码阅读 三、学习文档 1、官网 2、博客网站 3、相关书籍