データの前処理: シンプルで簡単な方法

データの読み込み: データを読み込む最初のステップです。PythonのPandasライブラリを使用して、CSVファイルやExcelファイルなどの様々な形式のデータを読み込むことができます。

import pandas as pd
# CSVファイルの読み込み
data = pd.read_csv('data.csv')

# 欠損値のある行を削除
data.dropna(inplace=True)

# 欠損値を平均値で補完
data.fillna(data.mean(), inplace=True)

# 3標準偏差以上離れているデータを除去
data = data[(data['column'] - data['column'].mean()) / data['column'].std() < 3]

# 移動平均を使用してノイズを平滑化
data['column'] = data['column'].rolling(window=5).mean()

# ダミー変数化
encoded_data = pd.get_dummies(data, columns=['column'])

from sklearn.preprocessing import MinMaxScaler
# データのスケーリング
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)

これらはデータの前処理の一部です。プロジェクトの要件やデータの特性に応じて、さまざまな手法を組み合わせて使用することができます。