Pandasを使用して欠損値を平均値で埋める方法

この記事では、Pythonのデータ処理ライブラリであるPandasを使用して、欠損値を平均値で埋める方法について説明します。

欠損値は、データセットの中で値が欠けている箇所を指します。欠損値が含まれるデータをそのまま使用すると、データ分析やモデルの構築に影響を与える可能性があります。そのため、欠損値を適切に処理する必要があります。

Pandasでは、fillnaメソッドを使用して欠損値を特定の値で埋めることができます。ここでは、欠損値を列の平均値で埋める方法を紹介します。

まず、Pandasをインポートします:

import pandas as pd

次に、データを読み込みます。例として、"data.csv"という名前のCSVファイルを読み込みます:

data = pd.read_csv("data.csv")

欠損値を平均値で埋めるには、fillnaメソッドを使用します。以下のコードを使用して、欠損値を平均値で埋めたデータフレームを作成します:

mean_filled_data = data.fillna(data.mean())

上記のコードでは、fillnaメソッドの引数にdata.mean()を指定しています。これにより、各列の平均値が計算され、欠損値がそれぞれの列の平均値で置き換えられます。

最後に、平均値で欠損値が埋められたデータフレームを表示します:

print(mean_filled_data)

以上で、Pandasを使用して欠損値を平均値で埋める方法が説明されました。この方法を使うことで、データセットの欠損値を効果的に処理することができます。