正規表現を使用した単語の抽出方法


  1. 単語の抽出: 正規表現を使用してテキスト内のすべての単語を抽出するには、次のようなパターンを使用します。

    import re
    text = "これはサンプルテキストです。"
    words = re.findall(r'\b\w+\b', text)
    print(words)

    出力:

    ['これ', 'は', 'サンプルテキスト', 'です']

    上記のコードでは、\b\w+\bというパターンを使用しています。これは単語境界(\b)で囲まれた1つ以上の英数字(\w+)を表します。

  2. 特定の条件を満たす単語の抽出: 正規表現を使用して特定の条件を満たす単語を抽出することもできます。例えば、3文字以下の単語を抽出するには、次のようなパターンを使用します。

    import re
    text = "これはサンプルテキストです。"
    short_words = re.findall(r'\b\w{1,3}\b', text)
    print(short_words)

    出力:

    ['これ', 'は']

    上記のコードでは、\b\w{1,3}\bというパターンを使用しています。これは単語境界(\b)で囲まれ、1から3文字の英数字(\w{1,3})を表します。

これらは正規表現を使用して単語を抽出する簡単な例です。実際のブログ投稿では、テキストの具体的な形式や抽出したい単語の条件に合わせて正規表現パターンを調整する必要があります。