JavaScriptにおける2つの文字列間の類似した単語の見つけ方


  1. 文字列を単語に分割して比較する方法: まず、文字列を単語に分割します。これには正規表現を使用することができます。次に、2つの文字列の単語を比較し、共通の単語を見つけます。

    function findSimilarWords(string1, string2) {
     const words1 = string1.split(/\W+/);
     const words2 = string2.split(/\W+/);
     const similarWords = [];
    
     for (const word of words1) {
       if (words2.includes(word)) {
         similarWords.push(word);
       }
     }
    
     return similarWords;
    }
    
    const string1 = "JavaScript is a programming language";
    const string2 = "Programming languages like JavaScript and Python are popular";
    
    const similarWords = findSimilarWords(string1, string2);
    console.log(similarWords);

    上記の例では、出力は ["JavaScript", "programming", "language"] となります。

  2. レーベンシュタイン距離を使用する方法: レーベンシュタイン距離は、2つの文字列間の編集距離を計算するために使用されます。この距離を基に、類似した単語を見つけることができます。

    function findSimilarWords(string1, string2) {
     const words1 = string1.split(/\W+/);
     const words2 = string2.split(/\W+/);
     const similarWords = [];
    
     for (const word1 of words1) {
       for (const word2 of words2) {
         const distance = getLevenshteinDistance(word1, word2);
         if (distance <= 2) {
           similarWords.push(word1);
         }
       }
     }
    
     return similarWords;
    }
    
    function getLevenshteinDistance(a, b) {
     if (a.length === 0) return b.length;
     if (b.length === 0) return a.length;
    
     const matrix = [];
    
     for (let i = 0; i <= b.length; i++) {
       matrix[i] = [i];
     }
    
     for (let j = 0; j <= a.length; j++) {
       matrix[0][j] = j;
     }
    
     for (let i = 1; i <= b.length; i++) {
       for (let j = 1; j <= a.length; j++) {
         if (b.charAt(i - 1) === a.charAt(j - 1)) {
           matrix[i][j] = matrix[i - 1][j - 1];
         } else {
           matrix[i][j] = Math.min(
             matrix[i - 1][j - 1] + 1,
             matrix[i][j - 1] + 1,
             matrix[i - 1][j] + 1
           );
         }
       }
     }
    
     return matrix[b.length][a.length];
    }
    
    const string1 = "JavaScript is a programming language";
    const string2 = "Programming languages like JavaScript and Python are popular";
    
    const similarWords = findSimilarWords(string1, string2);
    console.log(similarWords);

    上記の例では、出力は ["JavaScript", "language"] となります。

これらは2つの文字列間で類似した単語を見つけるための2つの一般的なアプローチです。必要に応じて、これらの例を調整して特定の要件に合わせることができます。