- get_dummies関数の基本的な使用法 get_dummies関数は、データフレームの指定した列に対してダミー変数を作成します。例えば、以下のようなデータフレームがあるとします。
import pandas as pd
data = {'color': ['Red', 'Blue', 'Green', 'Red', 'Yellow']}
df = pd.DataFrame(data)
この場合、"color"列をダミー変数に変換するには、以下のようにget_dummies関数を使用します。
dummy_df = pd.get_dummies(df['color'])
これにより、元のデータフレームには"color"列が残り、新しいダミー変数の列が追加されます。
- ダミー変数のカテゴリ名の指定 get_dummies関数では、ダミー変数のカテゴリ名を指定することもできます。例えば、以下のようにカテゴリ名を指定する場合です。
dummy_df = pd.get_dummies(df['color'], prefix='color')
この場合、ダミー変数の列名は"color_Red"、"color_Blue"、"color_Green"、"color_Yellow"となります。
- ダミー変数の結合 複数のデータフレームに対してダミー変数を作成し、それらを結合することもできます。例えば、以下のようなデータフレームがあるとします。
data = {'color': ['Red', 'Blue', 'Green', 'Red', 'Yellow'],
'size': ['S', 'M', 'L', 'M', 'S']}
df = pd.DataFrame(data)
この場合、"color"列と"size"列の両方をダミー変数に変換し、元のデータフレームと結合するには、以下のようにします。
color_dummy = pd.get_dummies(df['color'], prefix='color')
size_dummy = pd.get_dummies(df['size'], prefix='size')
merged_df = pd.concat([df, color_dummy, size_dummy], axis=1)
これにより、元のデータフレームにダミー変数の列が追加されたデータフレームが作成されます。
以上がget_dummies関数の基本的な使用方法と応用例の一部です。これを活用することで、カテゴリカルな変数を適切に扱いながらデータの分析や予測モデルの構築が行えます。