-
データセットの読み込みと基本統計量の確認 データセットを読み込み、基本統計量を確認することで、データの全体像を把握できます。例えば、Pandasライブラリを使用して以下のように実装することができます。
import pandas as pd # データセットの読み込み df = pd.read_csv('データセット.csv') # 基本統計量の確認 print(df.describe())
-
欠損値の処理 データセットに欠損値が含まれている場合、これらの欠損値を処理する必要があります。欠損値の確認と処理方法にはさまざまなアプローチがありますが、以下は欠損値を削除する方法の例です。
# 欠損値の確認 print(df.isnull().sum()) # 欠損値の削除 df = df.dropna()
-
データの可視化 データを可視化することで、パターンや相関関係を視覚的に理解することができます。MatplotlibやSeabornなどのライブラリを使用して、グラフを作成することができます。以下はヒストグラムを作成する例です。
import matplotlib.pyplot as plt # ヒストグラムの作成 plt.hist(df['列名'], bins=10) plt.xlabel('値') plt.ylabel('頻度') plt.title('ヒストグラム') plt.show()
-
外れ値の検出 データセットには、異常な値や外れ値が含まれている場合があります。外れ値を検出することで、データの品質を向上させることができます。以下は、Tukeyの外れ値検出法を使用した例です。
import numpy as np # 外れ値の検出 Q1 = np.percentile(df['列名'], 25) Q3 = np.percentile(df['列名'], 75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR outliers = df[(df['列名'] < lower_bound) | (df['列名'] > upper_bound)]
これらは、データ分析手法(EDA手法)の一部の例です。実際のデータに応じて、さまざまな手法を組み合わせることができます。データセットの特性に基づいて最適な手法を選択し、データの理解を深めることが重要です。