ZBLOG

from pyspark.sql import SparkSession from pyspark.sql.types import * ss = SparkSession.builder.getOrCreate() sc = ss.sparkContext rdd = sc.parallelize([[1, 'apple', 22], [2, 'banana', 12], [3, 'cat', 8], [4, 'dog', 10]]) schemaType = StructType...

你的代码几乎正确,只有一个小错误。在构建StructType时,将列名age和是否允许为NULL值(nullable)的标志放在一起时需要加上括号,以便正确解析。

以下是修正后的代码:

from pyspark.sql import SparkSession
from pyspark.sql.types import *

ss = SparkSession.builder.getOrCreate()
sc = ss.sparkContext

rdd = sc.parallelize([[1, 'apple', 22], [2, 'banana', 12], [3, 'cat', 8], [4, 'dog', 10]])

schemaType = StructType().add('id', IntegerType()). \
    add('name', StringType()). \
    add(StructField('age', IntegerType(), nullable=False))

df = ss.createDataFrame(rdd, schemaType)
df.show()

sc.stop()

运行以上代码会显示如下结果:

+---+------+---+
| id|  name|age|
+---+------+---+
|  1| apple| 22|
|  2|banana| 12|
|  3|   cat|  8|
|  4|   dog| 10|
+---+------+---+

注意:这里使用了SparkSession来创建DataFrame,并且在输出结果之后停止了SparkContext。确保你已经根据自己的需求进行了适当的调整。


内容由零声教学AI助手提供,问题来源于学员提问

本站部分文章来源于网络,版权归原作者所有,如有侵权请联系站长删除。
转载请注明出处:https://sdn.0voice.com/?id=3943

分享:
扫描分享到社交APP
上一篇
下一篇
发表列表
游客 游客
此处应有掌声~
评论列表

还没有评论,快来说点什么吧~

联系我们

在线咨询: 点击这里给我发消息

微信号:3007537140

上班时间: 10:30-22:30

关注我们
x

注册

已经有帐号?