-
統計的な方法による外れ値の除去:
- Zスコア法: データの平均値と標準偏差を計算し、それらの値を使用して各データポイントのZスコアを計算します。一般的に、Zスコアが3以上のデータポイントを外れ値とみなし、除去します。
- IQR法: データの四分位範囲(IQR)を計算し、上位および下位の外れ値を特定します。一般的に、1.5倍のIQRを超えるデータポイントを外れ値とみなし、除去します。
-
データの可視化による外れ値の検出:
- ヒストグラム: データの分布をヒストグラムで可視化し、極端な値や異常な値を視覚的に検出します。
- 箱ひげ図: データの統計的な要約を提供し、外れ値を特定するために使用されます。
-
外れ値の除去によるデータセットのクリーニング:
- データフレームのフィルタリング: 特定の条件を満たすデータポイントを除去します。
- データポイントの補完: 外れ値を他の値で置き換えます。
以下に、これらの手法を実装するためのPythonコード例を示します。
import pandas as pd
import numpy as np
# データセットの読み込み
data = pd.read_csv('dataset.csv')
# Zスコア法による外れ値の除去
z_scores = np.abs((data - data.mean()) / data.std())
data_cleaned_zscore = data[(z_scores < 3).all(axis=1)]
# IQR法による外れ値の除去
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
data_cleaned_iqr = data[~((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1)]
# ヒストグラムによる外れ値の検出
data.hist(bins=20)
plt.show()
# 箱ひげ図による外れ値の検出
data.boxplot()
plt.show()
これらのコード例を使用して、データセットから外れ値を除去し、クリーンなデータを取得することができます。外れ値の除去は、データの品質向上や正確な分析結果の得られるため、重要なステップです。