パンダのデータフレームからユニークな単語を取得する方法


  1. データフレームの特定の列からユニークな単語を抽出する方法:
import pandas as pd
import re
# データフレームの作成
df = pd.DataFrame({'text': ['This is a sample text', 'Another text example', 'Some more text']})
# ユニークな単語を格納するセットを作成
unique_words = set()
# 各行のテキストデータから単語を抽出し、セットに追加する
for index, row in df.iterrows():
    words = re.findall(r'\w+', row['text'].lower())
    unique_words.update(words)
# 結果の表示
print(unique_words)
  1. データフレーム内のすべてのテキスト列からユニークな単語を抽出する方法:
import pandas as pd
import re
# データフレームの作成
df = pd.DataFrame({'text1': ['This is a sample text', 'Another text example', 'Some more text'],
                   'text2': ['More text here', 'Additional example', 'Another text sample']})
# ユニークな単語を格納するセットを作成
unique_words = set()
# 各列のテキストデータから単語を抽出し、セットに追加する
for column in df.columns:
    for index, row in df.iterrows():
        words = re.findall(r'\w+', row[column].lower())
        unique_words.update(words)
# 結果の表示
print(unique_words)

これらのコード例では、正規表現を使用してテキストデータから単語を抽出し、ユニークな単語をセットに格納しています。また、すべてのテキスト列を対象にする場合は、列ごとにループを追加する必要があります。