DataFrame的创建与使用方法:
创建DataFrame:
- 从已有的数据源(如CSV、JSON等)读取数据创建DataFrame。
 - 使用内置的数据结构(如列表、字典等)创建DataFrame。
 - 将RDD转换为DataFrame。
 
DataFrame操作:
- 查看DataFrame的schema和数据:
df.printSchema()和df.show() - 获取列信息:
df.columns - 选择指定列:
df.select("col1", "col2") - 过滤行记录:
df.filter(df["col"] > 10) - 添加新列或替换现有列:
df.withColumn("new_col", expr)或df.withColumnRenamed("old_col", "new_col") - 聚合操作:
df.groupBy("col").agg(expr) - 排序:
df.orderBy("col") 
- 查看DataFrame的schema和数据:
 
SparkSQL操作接口的方法:
注册临时表:
df.createOrReplaceTempView("table_name")执行SQL查询:
result = spark.sql("SELECT * FROM table_name WHERE condition")缓存表(可选):
spark.catalog.cacheTable("table_name")检索结果集:
result.show()常用函数和表达式:
- 聚合函数:COUNT、SUM、AVG、MIN、MAX等
 - 条件判断函数:CASE WHEN、IF/ELSE等
 - 字符串处理函数:SUBSTRING、CONCAT、LOWER/UPPER等
 - 数值处理函数:ROUND、FLOOR/CEIL等
 - 时间日期处理函数:DATE_FORMAT、YEAR/MONTH/DAY等
 
请注意,以上是DataFrame和SparkSQL的一些基本操作方法,具体使用还需根据实际需求进行调整和扩展。你可以在官方文档或相关教程中进一步学习和练习这些方法。
内容由零声教学AI助手提供,问题来源于学员提问


        
        
        
        
        
        
        
        
        
        
                
                
                
                
                
                