-
自然言語処理ライブラリの利用: 自然言語処理ライブラリを使用することで、テキストから意味的に重要な単語やフレーズを抽出することができます。Pythonでよく使われる自然言語処理ライブラリには、NLTKやspaCyがあります。
import nltk from nltk.tokenize import word_tokenize def extract_title(text): tokens = word_tokenize(text) pos_tags = nltk.pos_tag(tokens) nouns = [word for word, pos in pos_tags if pos.startswith('NN')] return ' '.join(nouns)
上記のコードは、与えられたテキストから名詞のみを抽出し、それらをスペースで結合してタイトルとして返します。
-
キーワード抽出の手法: キーワード抽出は、テキスト内の重要な単語やフレーズを自動的に抽出する手法です。代表的なキーワード抽出アルゴリズムには、TF-IDFやRAKE(Rapid Automatic Keyword Extraction)があります。
from rake_nltk import Rake def extract_tags(text): r = Rake() r.extract_keywords_from_text(text) return r.get_ranked_phrases()
上記のコードは、与えられたテキストからキーワードを抽出し、重要度に基づいてランキングされたフレーズのリストとしてタグを返します。