- ライブラリのインストール: 最初に、scikit-learnというPythonの機械学習ライブラリをインストールします。以下のコマンドを使用して、必要なライブラリをインストールします。
pip install scikit-learn
- データの準備: 分類木を作成するためには、適切なデータセットが必要です。例として、アヤメの花のデータセット (Iris dataset) を使用してみましょう。scikit-learnには、このデータセットを直接ロードするための便利な関数が用意されています。
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data # 特徴量
y = iris.target # ターゲット変数
- 分類木の作成と訓練:
scikit-learnの
DecisionTreeClassifier
クラスを使用して、分類木を作成しましょう。以下は、分類木を訓練する基本的な手順です。
from sklearn.tree import DecisionTreeClassifier
# 分類木のインスタンス化
clf = DecisionTreeClassifier()
# モデルの訓練
clf.fit(X, y)
- 予測と評価: 訓練されたモデルを使用して新しいデータのクラスを予測することができます。また、モデルの性能を評価するために、テストデータセットを使用することもできます。
# 新しいデータの予測
new_data = [[5.1, 3.5, 1.4, 0.2]]
predicted_class = clf.predict(new_data)
print(predicted_class)
# テストデータの評価
y_pred = clf.predict(X_test)
accuracy = clf.score(X_test, y_test)
print("Accuracy:", accuracy)
これで、Pythonで分類木を実装し、データの分類や予測を行う基本的な手順を学びました。さらに高度なテクニックやパラメータの調整についても学ぶことができますが、上記の手順は初心者にとっては十分なスタート地点となるでしょう。