- データの読み込みと前処理:
データ分析の最初のステップは、データを読み込んで前処理することです。Pandasライブラリを使用すると、CSVやExcelなどのさまざまな形式のデータを簡単に読み込むことができます。以下は、CSVファイルを読み込む例です。
import pandas as pd
# CSVファイルの読み込み
data = pd.read_csv('data.csv')
# データの確認
print(data.head())
- データの可視化:
データを可視化することは、パターンや傾向を理解するのに役立ちます。MatplotlibやSeabornなどのライブラリを使用して、データをグラフやプロットとして表示することができます。以下は、折れ線グラフを描画する例です。
import matplotlib.pyplot as plt
# データの折れ線グラフ表示
plt.plot(data['x'], data['y'])
plt.xlabel('X軸')
plt.ylabel('Y軸')
plt.title('データの折れ線グラフ')
plt.show()
- データの統計的な分析:
データの統計的な特性を理解することは、意思決定や予測モデルの構築に役立ちます。NumPyやSciPyなどのライブラリを使用して、データの平均、分散、相関係数などを計算することができます。以下は、データの平均と標準偏差を計算する例です。
import numpy as np
# データの平均と標準偏差の計算
mean = np.mean(data)
std = np.std(data)
print('平均:', mean)
print('標準偏差:', std)
- 機械学習モデルの構築と評価:
データ分析の目的は、データから予測モデルを構築することです。Scikit-learnなどのライブラリを使用して、機械学習モデルを構築し、評価することができます。以下は、線形回帰モデルを構築して予測を行う例です。
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
# 特徴量とターゲット変数の分割
X = data.drop('target', axis=1)
y = data['target']
# データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 線形回帰モデルの構築と学習
model = LinearRegression()
model.fit(X_train, y_train)
# テストデータの予測
predictions = model.predict(X_test)
# 予測結果の評価
score = model.score(X_test, y_test)
print('予測精度:', score)