Pythonでデータを標準化する方法


  1. NumPyを使用した標準化:

    import numpy as np
    data = [10, 20, 30, 40, 50]
    mean = np.mean(data)
    std = np.std(data)
    standardized_data = (data - mean) / std
    print(standardized_data)
  2. scikit-learnを使用した標準化:

    from sklearn.preprocessing import StandardScaler
    data = [[10], [20], [30], [40], [50]]
    scaler = StandardScaler()
    standardized_data = scaler.fit_transform(data)
    print(standardized_data)
  3. pandasを使用した標準化:

    import pandas as pd
    data = {'A': [10, 20, 30, 40, 50]}
    df = pd.DataFrame(data)
    standardized_data = (df['A'] - df['A'].mean()) / df['A'].std()
    print(standardized_data)

これらの例では、NumPy、scikit-learn、およびpandasライブラリを使用してデータを標準化しています。NumPyを使用すると、配列全体を標準化することができます。scikit-learnを使用すると、データフレームや行列を標準化することができます。pandasを使用すると、データフレームの特定の列を標準化することができます。

これらの方法を使用すると、データを平均が0で標準偏差が1の正規分布に基づいて標準化することができます。データの標準化により、異なる尺度や範囲のデータを比較することが容易になり、機械学習モデルの性能を向上させることができます。