-
Min-Maxスケーリング: Min-Maxスケーリングは、データの値を特定の範囲(通常は0から1)にスケーリングする方法です。これにより、データの範囲が一定になります。
from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() scaled_data = scaler.fit_transform(data)
-
標準化: 標準化は、データの平均が0で標準偏差が1になるようにデータを変換する方法です。この方法は、データが正規分布に従っている場合に特に有用です。
from sklearn.preprocessing import StandardScaler scaler = StandardScaler() scaled_data = scaler.fit_transform(data)
-
Robustスケーリング: Robustスケーリングは、データの中央値と四分位範囲を使用してデータをスケーリングします。外れ値の影響を受けにくい方法です。
from sklearn.preprocessing import RobustScaler scaler = RobustScaler() scaled_data = scaler.fit_transform(data)
-
対数変換: 対数変換は、データの対数を取ることによってデータを変換する方法です。対数変換は、データが右に偏っている(正の裾を持つ)場合に有効です。
import numpy as np scaled_data = np.log(data)
これらは一般的なデータのスケーリング方法のいくつかですが、他にもさまざまな方法があります。データの性質や使用するモデルによって、適切なスケーリング方法を選択する必要があります。