-
カテゴリー型データの作成: カテゴリー型データは、有限の一意の値を持つ列です。Pandasでは、
astype
メソッドやCategorical
クラスを使用して、既存の列をカテゴリー型に変換することができます。import pandas as pd # 列をカテゴリー型に変換 df['カラム名'] = df['カラム名'].astype('category') # 既存の列をCategoricalオブジェクトとして作成 df['カラム名'] = pd.Categorical(df['カラム名'])
-
カテゴリー型データの利点: カテゴリー型データを使用すると、メモリ使用量を削減し、処理速度を向上させることができます。また、カテゴリー型データには順序がある場合にも利用できます。
-
カテゴリー型データの操作: カテゴリー型データを操作するためのいくつかの便利なメソッドや属性があります。
.cat.categories
: カテゴリーの一覧を取得します。.cat.codes
: カテゴリーを整数コードに変換します。.cat.rename_categories()
: カテゴリーの名称を変更します。.cat.reorder_categories()
: カテゴリーの順序を変更します。
# カテゴリーの一覧を取得 categories = df['カラム名'].cat.categories # カテゴリーを整数コードに変換 codes = df['カラム名'].cat.codes # カテゴリーの名称を変更 df['カラム名'] = df['カラム名'].cat.rename_categories({'元のカテゴリー名': '新しいカテゴリー名'}) # カテゴリーの順序を変更 df['カラム名'] = df['カラム名'].cat.reorder_categories(['カテゴリー1', 'カテゴリー2', 'カテゴリー3'], ordered=True)
-
カテゴリー型データの集計と分析: カテゴリー型データを使って集計や分析を行うこともできます。例えば、特定のカテゴリーの出現回数をカウントすることや、カテゴリーごとの統計量を計算することができます。
# カテゴリーの出現回数をカウント count_by_category = df['カラム名'].value_counts() # カテゴリーごとの統計量を計算 stats_by_category = df.groupby('カラム名')['数値列'].mean()
この投稿では、PythonのPandasでカテゴリー型データを活用する方法について説明しました。カテゴリー型データを使うことで、効率的なデータ処理や分析が可能になります。以上が、シンプルで簡単な方法とコード例の一部ですが、さまざまな操作や応用が可能です。ぜひこれらの手法を活用して、データ分析の効率化を図ってください。