- HTMLドキュメントの取得: まず、ウェブページのHTMLコンテンツを取得する必要があります。これは、requestsモジュールを使って行うことができます。
import requests
url = "https://example.com"
response = requests.get(url)
html_content = response.text
- BeautifulSoupオブジェクトの作成: 次に、BeautifulSoupオブジェクトを作成します。これにより、HTMLドキュメントを解析しやすくなります。
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, "html.parser")
# 単一の要素を検索
element = soup.find("tag_name", attrs={"attribute_name": "attribute_value"})
# 複数の要素を検索
elements = soup.find_all("tag_name", attrs={"attribute_name": "attribute_value"})
- 値の取得: 要素を見つけたら、その要素から値を取得することができます。これには、テキストコンテンツ、属性値、または子要素を取得する方法があります。
# テキストコンテンツの取得
text = element.text
# 属性値の取得
attribute_value = element["attribute_name"]
# 子要素の取得
child_element = element.find("child_tag_name")
これらの手法を組み合わせることで、BeautifulSoupを使用してHTMLドキュメントから特定の値を取得することができます。ウェブスクレイピングやデータ収集に役立つツールとして活用してください。