-
データの読み込み: データをPythonに読み込むためには、pandasライブラリを使用します。pandasは、データをテーブル形式で扱うための強力なツールです。
import pandas as pd # CSVファイルからデータを読み込む例 data = pd.read_csv('data.csv')
-
欠損値の処理: データには欠損値が含まれる場合があります。欠損値を処理するためには、次のような方法があります。
-
欠損値の削除:
# 欠損値を含む行を削除する data.dropna(inplace=True)
-
欠損値の補完:
# 欠損値を平均値で補完する data.fillna(data.mean(), inplace=True)
-
-
カテゴリカルデータのエンコーディング: カテゴリカルな特徴量を数値に変換するためには、エンコーディングが必要です。以下にいくつかのエンコーディングの手法を示します。
-
ダミー変数化:
# カテゴリカル変数をダミー変数化する encoded_data = pd.get_dummies(data, columns=['category'])
-
ラベルエンコーディング:
from sklearn.preprocessing import LabelEncoder # カテゴリカル変数をラベルエンコーディングする le = LabelEncoder() data['category'] = le.fit_transform(data['category'])
-
-
スケーリング: 特徴量を同じスケールにするためには、スケーリングが必要です。以下にいくつかのスケーリングの手法を示します。
-
標準化:
from sklearn.preprocessing import StandardScaler # 特徴量を標準化する scaler = StandardScaler() scaled_data = scaler.fit_transform(data)
-
正規化:
from sklearn.preprocessing import MinMaxScaler # 特徴量を正規化する scaler = MinMaxScaler() normalized_data = scaler.fit_transform(data)
-
これらはPythonを使用してデータを前処理するための一般的な手法です。データの特性や目的に応じて、適切な前処理手法を選択してください。