テキストから文字列のみを抽出する方法(Pythonを使用)


  1. 正規表現を使用する方法: Pythonのreモジュールを使用して、正規表現を利用して文字列を抽出することができます。以下はその例です。
import re
text = "This is a sample text. 1234 This text contains numbers and words."
# 正規表現パターンを定義します(数字のみを抽出)
pattern = r"\d+"
# マッチする部分を抽出します
matches = re.findall(pattern, text)
# 結果を表示します
for match in matches:
    print(match)

このコードでは、\d+という正規表現パターンを使用して、テキストから数字のみを抽出しています。

  1. 文字列メソッドを使用する方法: Pythonの文字列メソッドを使用することでも、テキストから文字列を抽出することができます。以下はその例です。
text = "This is a sample text. 1234 This text contains numbers and words."
# スペースを区切り文字として、単語ごとに分割します
words = text.split()
# 文字列のみを抽出します
strings_only = [word for word in words if word.isalpha()]
# 結果を表示します
for string in strings_only:
    print(string)

このコードでは、split()メソッドを使用してテキストを単語に分割し、isalpha()メソッドを使用して文字列のみを抽出しています。

これらの方法を使用すると、テキストから文字列のみを抽出することができます。ご参考までに、上記のコード例では数字のみまたは単語のみを抽出していますが、必要に応じて正規表現パターンや条件を変更して、特定の要件に合わせた抽出を行うことができます。