-
データセットの読み込み: データセットをPythonのパンダス(Pandas)ライブラリを使用して読み込みます。以下は一般的なコード例です。
import pandas as pd # CSVファイルを読み込む df = pd.read_csv('データセットのファイルパス.csv')
-
データセットの概要の確認: データセットの最初の数行やカラムの情報を確認します。これにより、データの構造や欠損値の有無などがわかります。
# 最初の5行を表示 print(df.head()) # カラムの情報を表示 print(df.info())
-
データの可視化: データの特徴を視覚化することで、傾向やパターンを把握することができます。以下は、MatplotlibとSeabornを使用した基本的な可視化の例です。
import matplotlib.pyplot as plt import seaborn as sns # ヒストグラムの表示 plt.hist(df['カラム名']) plt.xlabel('値') plt.ylabel('頻度') plt.title('ヒストグラム') plt.show() # 散布図の表示 plt.scatter(df['カラム1'], df['カラム2']) plt.xlabel('カラム1') plt.ylabel('カラム2') plt.title('散布図') plt.show()
-
データの統計的な概要の取得: データセットの統計的な要約や集計を取得します。以下は、パンダスの統計メソッドの例です。
# 数値列の統計的な概要を表示 print(df.describe()) # カテゴリ列の値の頻度を表示 print(df['カテゴリ列'].value_counts())
-
欠損値の処理: データセット内の欠損値を確認し、適切な方法で処理します。以下は、パンダスの欠損値処理の例です。
# 欠損値の数を確認 print(df.isnull().sum()) # 欠損値を削除 df = df.dropna() # 欠損値を平均値で補完 df['カラム名'].fillna(df['カラム名'].mean(), inplace=True)