Pythonを使用した単語ベクトルの分析とコーディング例


  1. 単語埋め込みの読み込みと表示: 単語埋め込みは、単語をベクトルで表現する方法です。PythonのGensimライブラリを使用して、事前学習済みの単語埋め込みモデルを読み込み、単語ベクトルを表示する方法を示します。

    from gensim.models import KeyedVectors
    # 事前学習済みの単語埋め込みモデルを読み込む
    model = KeyedVectors.load_word2vec_format('path_to_pretrained_model.bin', binary=True)
    # 単語ベクトルの表示
    word_vector = model['word']
    print(word_vector)
  2. 単語の類似度の計算: 単語ベクトルを使用して、単語間の類似度を計算することができます。以下は、Cosine類似度を使用して2つの単語の類似度を計算する例です。

    from scipy import spatial
    word1 = model['word1']
    word2 = model['word2']
    similarity = 1 - spatial.distance.cosine(word1, word2)
    print(similarity)
  3. 単語のクラスタリング: 単語ベクトルを使用して、単語を意味的に似たグループにクラスタリングすることができます。以下は、K-meansクラスタリングアルゴリズムを使用して単語をクラスタリングする例です。

    from sklearn.cluster import KMeans
    # 単語ベクトルのリストを作成
    word_vectors = [model[word] for word in word_list]
    # K-meansクラスタリングを実行
    kmeans = KMeans(n_clusters=5)
    kmeans.fit(word_vectors)
    # クラスタリング結果を表示
    clusters = kmeans.labels_
    for word, cluster in zip(word_list, clusters):
       print(word, cluster)

これらは単語ベクトルを分析するための一部の基本的な手法とコーディング例です。個々のニーズや具体的なデータに応じて、さまざまな手法やライブラリを組み合わせることができます。