-
欠損値の処理: データにはしばしば欠損値が含まれています。欠損値を処理するためには、以下の方法があります。
- 欠損値を含む行または列を削除する:
df.dropna()
- 欠損値を特定の値で置き換える:
df.fillna(value)
- 欠損値を含む行または列を削除する:
-
データのスケーリング: データのスケーリングは、異なる範囲の値を持つ特徴量を統一するために行われます。一般的なスケーリング手法には、以下のようなものがあります。
- 標準化:
StandardScaler
を使用して平均を0、標準偏差を1に変換する - 正規化:
MinMaxScaler
を使用してデータを0から1の範囲に変換する
- 標準化:
-
カテゴリカルデータのエンコーディング: カテゴリカルデータは通常、数値で表現される必要があります。以下の方法でエンコーディングできます。
- ダミー変数化:
pd.get_dummies()
を使用してカテゴリカル変数をバイナリ変数に変換する - ラベルエンコーディング:
LabelEncoder
を使用してカテゴリカル変数を整数に変換する
- ダミー変数化:
これらはデータ前処理の一部ですが、よく使用される手法です。ほかにもさまざまなデータ前処理手法がありますので、具体的なデータや分析の目的に応じて適切な手法を選択してください。また、各手法の詳細な使用方法については、公式のドキュメントやオンラインのリソースを参照することをおすすめします。