Pandasデータフレームでの欠損値やNaN値の処理方法


  1. 欠損値の確認 データフレーム内の欠損値を確認するには、isnull()メソッドを使用します。これにより、各要素が欠損値の場合はTrue、それ以外の場合はFalseを持つブール型のデータフレームが返されます。 例:

    import pandas as pd
    
    df = pd.DataFrame({'A': [1, 2, None], 'B': [4, None, 6]})
    print(df.isnull())
  2. 欠損値の削除 欠損値を含む行または列を削除するには、dropna()メソッドを使用します。dropna()はデフォルトで行を削除しますが、axis引数を指定して列を削除することもできます。 例:

    # 欠損値を含む行を削除
    df.dropna(inplace=True)
    
    # 欠損値を含む列を削除
    df.dropna(axis='columns', inplace=True)
  3. 欠損値の置換 欠損値を別の値で置換するには、fillna()メソッドを使用します。引数には置換する値を指定します。 例:

    # 欠損値を0で置換
    df.fillna(0, inplace=True)
  4. 欠損値の補間 欠損値を補間するには、interpolate()メソッドを使用します。このメソッドは、欠損値を周囲の値に基づいて推測し、補間します。 例:

    df.interpolate(inplace=True)

これらは一部の基本的な方法ですが、Pandasにはさまざまな欠損値処理のメソッドやオプションがあります。データの性質や分析の目的に応じて最適な方法を選択してください。