-
Pysparkをインストールします。PysparkはPythonのライブラリであり、Apache SparkのPython APIを提供します。
-
Pysparkをインポートします。
from pyspark.sql import SparkSession
- SparkSessionを作成します。
spark = SparkSession.builder.appName("SchemaExtractor").getOrCreate()
- JSONデータを読み込みます。
data = spark.read.json("path/to/json/file.json")
- スキーマを取得します。
schema = data.schema
- スキーマを表示します。
schema.printTreeString()
上記のコードを使用すると、Pysparkを使用してJSONデータのスキーマを取得できます。スキーマは、データの構造やフィールドの型に関する情報を提供します。
また、以下のコードを使用すると、スキーマをDataFrameの列名と型のリストとして取得することもできます。
fields = [(field.name, field.dataType) for field in schema.fields]
この方法を使用すると、スキーマの情報を簡単に抽出できます。