Pysparkを使用してJSONのスキーマを取得する方法

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("SchemaExtractor").getOrCreate()

data = spark.read.json("path/to/json/file.json")

schema = data.schema

schema.printTreeString()

上記のコードを使用すると、Pysparkを使用してJSONデータのスキーマを取得できます。スキーマは、データの構造やフィールドの型に関する情報を提供します。

また、以下のコードを使用すると、スキーマをDataFrameの列名と型のリストとして取得することもできます。

fields = [(field.name, field.dataType) for field in schema.fields]

この方法を使用すると、スキーマの情報を簡単に抽出できます。