-
split()メソッドを使用する方法:
text = "Pythonを使用した単語のトークン化方法" tokens = text.split() print(tokens)
出力:
['Pythonを使用した単語のトークン化方法']
split()
メソッドは、文字列を空白文字(スペースやタブ)で分割します。 -
正規表現を使用する方法:
import re text = "Pythonを使用した単語のトークン化方法" tokens = re.findall(r'\w+', text) print(tokens)
出力:
['Python', 'を', '使用', 'した', '単語', 'の', 'トークン化', '方法']
re.findall()
関数は、正規表現パターンに一致するすべての部分文字列を取得します。\w+
は1つ以上の英数字またはアンダースコアに一致します。 -
NLTK(Natural Language Toolkit)を使用する方法:
from nltk.tokenize import word_tokenize text = "Pythonを使用した単語のトークン化方法" tokens = word_tokenize(text) print(tokens)
出力:
['Python', 'を', '使用', 'した', '単語', 'の', 'トークン化', '方法']
NLTKは、自然言語処理のためのPythonライブラリであり、
word_tokenize()
関数を提供しています。
これらはいくつかの基本的な単語トークン化の方法ですが、実際にはさまざまな要件やテキストの形式に対応するために、さらに高度なトークン化手法が利用可能です。