- データの読み込み: データを読み込む最初のステップです。PythonのPandasライブラリを使用して、CSVファイルやExcelファイルなどの様々な形式のデータを読み込むことができます。
import pandas as pd
# CSVファイルの読み込み
data = pd.read_csv('data.csv')
- 欠損値の処理: データには欠損値(NaNやnull)が含まれることがあります。これらの欠損値を処理する方法として、以下のような手法があります。
- 欠損値の削除:
# 欠損値のある行を削除
data.dropna(inplace=True)
- 欠損値の補完:
# 欠損値を平均値で補完
data.fillna(data.mean(), inplace=True)
- データのクリーニング: データには異常値やノイズが含まれることがあります。これらを処理する方法として、以下の手法があります。
- 異常値の除去:
# 3標準偏差以上離れているデータを除去
data = data[(data['column'] - data['column'].mean()) / data['column'].std() < 3]
- ノイズの除去:
# 移動平均を使用してノイズを平滑化
data['column'] = data['column'].rolling(window=5).mean()
- データの変換: データを適切な形式に変換することがあります。以下は一般的な変換手法の例です。
- カテゴリ変数のエンコーディング:
# ダミー変数化
encoded_data = pd.get_dummies(data, columns=['column'])
- スケーリング:
from sklearn.preprocessing import MinMaxScaler
# データのスケーリング
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)
これらはデータの前処理の一部です。プロジェクトの要件やデータの特性に応じて、さまざまな手法を組み合わせて使用することができます。