Home > データ品質チェック


PySparkを使用した基本的なデータ品質チェック方法

データの読み込みと確認 まず、PySparkを使用してデータを読み込みます。一般的なデータ形式には、CSV、Parquet、JSONなどがあります。データを読み込んだ後、show()メソッドを使用してデータの一部を表示し、データの構造と内容を確認します。>>More


Pysparkを使用したデータ品質チェックの基本

欠損値のチェック: データフレーム内の欠損値を確認するには、isNull()メソッドを使用します。例えば、dfという名前のデータフレームにおいて、カラムcol1の欠損値をチェックする場合、以下のようなコードを使用します。>>More