-
データの読み込みと基本統計量の確認: データを読み込み、基本統計量(平均、中央値、標準偏差など)を計算してデータの概要を把握します。Pythonのpandasライブラリを使うと便利です。
import pandas as pd # データの読み込み data = pd.read_csv('データファイル.csv') # 基本統計量の確認 print(data.describe())
-
データの可視化: データを視覚化することで、特徴や相関関係を把握することができます。Pythonのmatplotlibやseabornライブラリを使ってグラフを描画することができます。
import matplotlib.pyplot as plt import seaborn as sns # ヒストグラムの描画 sns.histplot(data['列名']) plt.show() # 散布図の描画 sns.scatterplot(data=data, x='列名1', y='列名2') plt.show()
-
欠損値の処理: データセットに欠損値がある場合、それらの値を処理する必要があります。欠損値の有無やパターンを確認し、適切な処理方法を選択します。pandasライブラリを使って欠損値を処理することができます。
# 欠損値の確認 print(data.isnull().sum()) # 欠損値の削除 data = data.dropna() # 欠損値の補完 data['列名'] = data['列名'].fillna(data['列名'].mean())
-
変数間の相関分析: 変数間の相関を調査することで、データ内のパターンや関係性を把握することができます。pandasやseabornライブラリを使って相関行列やヒートマップを作成することができます。
# 相関行列の計算 correlation_matrix = data.corr() # ヒートマップの描画 sns.heatmap(correlation_matrix, annot=True) plt.show()
これらはEDAの一部ですが、データの理解と洞察を得るための重要な手法です。データセットに合わせて適切なEDA手法を選択し、データ分析の基盤を築いてください。