Pythonを使用したテキストベクトル化の方法


  1. Bag-of-Words (BoW) モデル: BoWモデルは、文書内の単語の出現回数を数える方法です。以下のコード例は、CountVectorizerを使用してBoWモデルを実装する方法を示しています。
from sklearn.feature_extraction.text import CountVectorizer
# テキストデータのリスト
texts = ["これはサンプルテキストです。",
         "これは別のテキストです。",
         "さらに別のテキストがあります。"]
# CountVectorizerのインスタンス化
vectorizer = CountVectorizer()
# テキストデータをベクトル化
vectorized_texts = vectorizer.fit_transform(texts)
# ベクトル化されたテキストの表示
print(vectorized_texts.toarray())
# 特徴ワードの表示
print(vectorizer.get_feature_names())
  1. TF-IDF モデル: TF-IDF (Term Frequency-Inverse Document Frequency) モデルは、単語の出現頻度と文書の逆文書頻度を組み合わせて、単語の重要度を計算します。以下のコード例は、TfidfVectorizerを使用してTF-IDFモデルを実装する方法を示しています。
from sklearn.feature_extraction.text import TfidfVectorizer
# テキストデータのリスト
texts = ["これはサンプルテキストです。",
         "これは別のテキストです。",
         "さらに別のテキストがあります。"]
# TfidfVectorizerのインスタンス化
vectorizer = TfidfVectorizer()
# テキストデータをベクトル化
vectorized_texts = vectorizer.fit_transform(texts)
# ベクトル化されたテキストの表示
print(vectorized_texts.toarray())
# 特徴ワードの表示
print(vectorizer.get_feature_names())

これらはPythonを使用してテキストベクトル化を行う2つの一般的な方法です。適用するモデルは、データやタスクによって異なる結果をもたらす場合があるため、実際のデータに応じて適切なモデルを選択する必要があります。