- データフレームの特定の列からユニークな単語を抽出する方法:
import pandas as pd
import re
# データフレームの作成
df = pd.DataFrame({'text': ['This is a sample text', 'Another text example', 'Some more text']})
# ユニークな単語を格納するセットを作成
unique_words = set()
# 各行のテキストデータから単語を抽出し、セットに追加する
for index, row in df.iterrows():
words = re.findall(r'\w+', row['text'].lower())
unique_words.update(words)
# 結果の表示
print(unique_words)
- データフレーム内のすべてのテキスト列からユニークな単語を抽出する方法:
import pandas as pd
import re
# データフレームの作成
df = pd.DataFrame({'text1': ['This is a sample text', 'Another text example', 'Some more text'],
'text2': ['More text here', 'Additional example', 'Another text sample']})
# ユニークな単語を格納するセットを作成
unique_words = set()
# 各列のテキストデータから単語を抽出し、セットに追加する
for column in df.columns:
for index, row in df.iterrows():
words = re.findall(r'\w+', row[column].lower())
unique_words.update(words)
# 結果の表示
print(unique_words)
これらのコード例では、正規表現を使用してテキストデータから単語を抽出し、ユニークな単語をセットに格納しています。また、すべてのテキスト列を対象にする場合は、列ごとにループを追加する必要があります。