-
データセットの読み込みと確認: 最初に、使用するデータセットを読み込みます。データの形式や構造を確認し、データのサイズや変数の種類などの基本的な情報を取得します。
import pandas as pd # データセットの読み込み df = pd.read_csv('データセットのファイルパス') # データの確認 print(df.head()) # 最初の数行を表示 print(df.shape) # データの形状を表示 print(df.info()) # データの情報を表示
-
欠損値の処理: データセットに欠損値が含まれる場合、これらの欠損値を適切に処理する必要があります。欠損値の数や欠損値のパターンを確認し、適切な方法で欠損値を補完することが重要です。
# 欠損値の数を確認 print(df.isnull().sum()) # 欠損値の補完 df = df.fillna(df.mean()) # 平均値で補完する例
-
変数の可視化: データセットの変数の分布や関係性を可視化することで、データの特徴やパターンを把握することができます。
import matplotlib.pyplot as plt # ヒストグラムの作成 plt.hist(df['変数名'], bins=10) plt.xlabel('値') plt.ylabel('頻度') plt.show()
-
変数間の相関分析: 変数間の相関関係を調べることで、データの特徴やパターンをより深く理解することができます。
# 相関行列の計算 correlation_matrix = df.corr() # 相関行列のヒートマップ表示 import seaborn as sns sns.heatmap(correlation_matrix, annot=True) plt.show()
-
外れ値の検出: データセットには時折、異常な値や外れ値が含まれることがあります。外れ値を検出し、適切に処理することで、データの品質を向上させることができます。
# 外れ値の検出 from scipy import stats z_scores = stats.zscore(df['変数名']) threshold = 3 outliers = np.where(np.abs(z_scores) > threshold) # 外れ値の処理 df = df.drop(outliers[0])
以上がEDAプロセスの一般的な手法とコード例です。これらの手法を使用して、データセットを詳細に分析し、有益な情報を抽出することができます。