-
標準化(Standardization): 標準化は、特徴を平均が0で標準偏差が1になるように変換する方法です。これにより、異なるスケールの特徴を同じスケールに揃えることができます。
from sklearn.preprocessing import StandardScaler scaler = StandardScaler() scaled_features = scaler.fit_transform(data[['feature1', 'feature2']])
-
正規化(Normalization): 正規化は、特徴を0から1の範囲にスケーリングする方法です。これにより、特徴の値を0から1の間に収めることができます。
from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() scaled_features = scaler.fit_transform(data[['feature1', 'feature2']])
-
ロバストスケーリング(Robust Scaling): ロバストスケーリングは、データの中央値と四分位範囲を使用して特徴をスケーリングする方法です。外れ値の影響を受けにくく、データの分布に頑健です。
from sklearn.preprocessing import RobustScaler scaler = RobustScaler() scaled_features = scaler.fit_transform(data[['feature1', 'feature2']])
-
対数変換(Log Transformation): 対数変換は、特徴の値に対して対数関数を適用する方法です。これにより、データの非線形性や右に偏った分布を補正することができます。
import numpy as np scaled_features = np.log1p(data[['feature1', 'feature2']])
これらの方法を使用して、データセット内の特徴をスケーリングすることができます。適用する方法は、データの性質や機械学習モデルによって異なります。効果的な特徴スケーリングは、モデルのパフォーマンス向上につながることがあります。