DataFrame的创建与使用方法:
创建DataFrame:
- 从已有的数据源(如CSV、JSON等)读取数据创建DataFrame。
- 使用内置的数据结构(如列表、字典等)创建DataFrame。
- 将RDD转换为DataFrame。
DataFrame操作:
- 查看DataFrame的schema和数据:
df.printSchema()
和df.show()
- 获取列信息:
df.columns
- 选择指定列:
df.select("col1", "col2")
- 过滤行记录:
df.filter(df["col"] > 10)
- 添加新列或替换现有列:
df.withColumn("new_col", expr)
或df.withColumnRenamed("old_col", "new_col")
- 聚合操作:
df.groupBy("col").agg(expr)
- 排序:
df.orderBy("col")
- 查看DataFrame的schema和数据:
SparkSQL操作接口的方法:
注册临时表:
df.createOrReplaceTempView("table_name")
执行SQL查询:
result = spark.sql("SELECT * FROM table_name WHERE condition")
缓存表(可选):
spark.catalog.cacheTable("table_name")
检索结果集:
result.show()
常用函数和表达式:
- 聚合函数:COUNT、SUM、AVG、MIN、MAX等
- 条件判断函数:CASE WHEN、IF/ELSE等
- 字符串处理函数:SUBSTRING、CONCAT、LOWER/UPPER等
- 数值处理函数:ROUND、FLOOR/CEIL等
- 时间日期处理函数:DATE_FORMAT、YEAR/MONTH/DAY等
请注意,以上是DataFrame和SparkSQL的一些基本操作方法,具体使用还需根据实际需求进行调整和扩展。你可以在官方文档或相关教程中进一步学习和练习这些方法。
内容由零声教学AI助手提供,问题来源于学员提问