Pythonを使用した単語のトークン化方法


  1. split()メソッドを使用する方法:

    text = "Pythonを使用した単語のトークン化方法"
    tokens = text.split()
    print(tokens)

    出力:

    ['Pythonを使用した単語のトークン化方法']

    split()メソッドは、文字列を空白文字(スペースやタブ)で分割します。

  2. 正規表現を使用する方法:

    import re
    text = "Pythonを使用した単語のトークン化方法"
    tokens = re.findall(r'\w+', text)
    print(tokens)

    出力:

    ['Python', 'を', '使用', 'した', '単語', 'の', 'トークン化', '方法']

    re.findall()関数は、正規表現パターンに一致するすべての部分文字列を取得します。\w+は1つ以上の英数字またはアンダースコアに一致します。

  3. NLTK(Natural Language Toolkit)を使用する方法:

    from nltk.tokenize import word_tokenize
    text = "Pythonを使用した単語のトークン化方法"
    tokens = word_tokenize(text)
    print(tokens)

    出力:

    ['Python', 'を', '使用', 'した', '単語', 'の', 'トークン化', '方法']

    NLTKは、自然言語処理のためのPythonライブラリであり、word_tokenize()関数を提供しています。

これらはいくつかの基本的な単語トークン化の方法ですが、実際にはさまざまな要件やテキストの形式に対応するために、さらに高度なトークン化手法が利用可能です。