Spark之RDD、Dataset和DataFrame | DataLearnerAI

Spark之RDD、Dataset和DataFrame | DataLearnerAI

// 读取
val people = spark.read.parquet("...").as[Person]  // Scala
Dataset<Person> people = spark.read().parquet("...").as(Encoders.bean(Person.class)); // Java

// 转换
val names = people.map(_.name)  // in Scala; names is a Dataset[String]
Dataset<String> names = people.map((Person p) -> p.name, Encoders.STRING));

val people = spark.read.parquet("...").as[Person]  // Scala
Dataset<Person> people = spark.read().parquet("...").as(Encoders.bean(Person.class)); // Java

trait Encoder[T] extends Serializable {
  def schema: StructType
  def clsTag: ClassTag[T]
}