Pysparkを使用したデータ品質チェックの基本


  1. 欠損値のチェック: データフレーム内の欠損値を確認するには、isNull()メソッドを使用します。例えば、dfという名前のデータフレームにおいて、カラムcol1の欠損値をチェックする場合、以下のようなコードを使用します。
from pyspark.sql.functions import col
missing_values = df.filter(col("col1").isNull())
missing_values.show()
  1. 重複値のチェック: データフレーム内の重複したレコードを確認するには、dropDuplicates()メソッドを使用します。例えば、dfという名前のデータフレームにおいて、カラムcol2を基準に重複値をチェックする場合、以下のようなコードを使用します。
duplicate_rows = df.dropDuplicates(['col2'])
duplicate_rows.show()
  1. データ型のチェック: データフレーム内の各カラムのデータ型を確認するには、dtypesプロパティを使用します。例えば、dfという名前のデータフレームのデータ型を確認する場合、以下のようなコードを使用します。
data_types = df.dtypes
for column, data_type in data_types:
    print(f"Column '{column}' has data type '{data_type}'.")
  1. 範囲チェック: データフレーム内の数値カラムの範囲をチェックするには、agg()メソッドと組み合わせて統計情報を計算します。例えば、dfという名前のデータフレームにおいて、カラムcol3の最小値と最大値をチェックする場合、以下のようなコードを使用します。
from pyspark.sql.functions import min, max
column_range = df.agg(min("col3").alias("min_value"), max("col3").alias("max_value"))
column_range.show()

これらはPysparkを使用したデータ品質チェックの基本的な手法の一部です。プロジェクトに応じてさまざまなチェックを実行することができます。以上の例はあくまで参考ですので、具体的な要件に合わせてカスタマイズしてご利用ください。