Tweetトークン化のためのNLTKを使用した方法


  1. ツイートのテキストをトークン化する方法:
import nltk
from nltk.tokenize import TweetTokenizer
tweet = "This is a sample tweet! #NLTK #tokenization"
# TweetTokenizerを使用してツイートをトークン化する
tokenizer = TweetTokenizer()
tokens = tokenizer.tokenize(tweet)
print(tokens)

出力:

['This', 'is', 'a', 'sample', 'tweet', '!', '#NLTK', '#tokenization']
import re
hashtags = re.findall(r'#\w+', tweet)
print(hashtags)

出力:

['#NLTK', '#tokenization']
  1. ツイートからURLを抽出する方法:
urls = re.findall(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', tweet)
print(urls)

出力:

[]

上記のコード例では、NLTKのTweetTokenizerを使用してツイートをトークン化し、正規表現を使用してハッシュタグやURLを抽出しています。これらの方法を組み合わせることで、さまざまな分析や処理を行うことができます。