- データの読み込み: データをPythonに取り込みます。一般的には、pandasライブラリを使用してCSVファイルやExcelファイルを読み込むことが多いです。
import pandas as pd
# CSVファイルの読み込み
data = pd.read_csv('データファイル.csv')
# Excelファイルの読み込み
data = pd.read_excel('データファイル.xlsx')
- データの基本的な統計量の確認: データの基本的な統計量(平均、中央値、最小値、最大値など)を確認します。
# データの先頭行を表示
print(data.head())
# データの基本的な統計量を表示
print(data.describe())
- 欠損値の処理: データセットに欠損値がある場合、これらの欠損値を処理する必要があります。
# 欠損値の数を確認
print(data.isnull().sum())
# 欠損値を含む行を削除
data = data.dropna()
# 欠損値を別の値で埋める(例: 平均値で埋める)
data = data.fillna(data.mean())
- データの可視化: データの可視化により、特徴やパターンを視覚的に理解することができます。
import matplotlib.pyplot as plt
# ヒストグラムの作成
plt.hist(data['カラム名'])
plt.xlabel('値')
plt.ylabel('頻度')
plt.title('ヒストグラム')
plt.show()
# 散布図の作成
plt.scatter(data['カラム1'], data['カラム2'])
plt.xlabel('カラム1')
plt.ylabel('カラム2')
plt.title('散布図')
plt.show()
これらはEDAの基本的な手順と方法の一部です。データの特性に応じて、さまざまな統計手法や可視化手法を適用することができます。また、seabornやplotlyなどのライブラリを利用することで、より高度な可視化やパターンの発見が可能です。