PythonでHTMLを文字列に変換する方法


  1. BeautifulSoupを使用する方法: BeautifulSoupはPythonのライブラリで、HTMLを解析するための強力なツールです。以下はBeautifulSoupを使用してHTMLを文字列に変換する例です。
from bs4 import BeautifulSoup
html = '<html><body><h1>Hello, World!</h1></body></html>'
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
print(text)

出力:

Hello, World!
  1. html2textを使用する方法: html2textはPythonのライブラリで、HTMLをテキストに変換するための簡単な方法です。以下はhtml2textを使用してHTMLを文字列に変換する例です。
import html2text
html = '<html><body><h1>Hello, World!</h1></body></html>'
text = html2text.html2text(html)
print(text)

出力:

Hello, World!
import re
html = '<html><body><h1>Hello, World!</h1></body></html>'
text = re.sub('<[^<]+?>', '', html)
print(text)

出力:

Hello, World!

これらはPythonでHTMLを文字列に変換するためのいくつかの一般的な方法です。それぞれの方法には利点と制限がありますので、使用する場合は自分の要件に合った最適な方法を選択してください。