まず、BeautifulSoupをインストールします。ターミナルまたはコマンドプロンプトで以下のコマンドを実行します。
pip install beautifulsoup4
次に、PythonスクリプトでBeautifulSoupをインポートします。
from bs4 import BeautifulSoup
HTMLを解析するためには、まずHTMLファイルを読み込んでBeautifulSoupオブジェクトを作成する必要があります。以下のコード例を参考にしてください。
# HTMLファイルを読み込む
with open('example.html', 'r') as f:
html = f.read()
# BeautifulSoupオブジェクトを作成する
soup = BeautifulSoup(html, 'html.parser')
タイトルを抽出するには、HTMLの適切な要素と属性を特定する必要があります。例えば、<h1>
要素内のテキストをタイトルとして抽出する場合、以下のようなコードを使用できます。
title_element = soup.find('h1')
title = title_element.text.strip()
同様に、タグを抽出するには、適切な要素と属性を特定します。例えば、<div>
要素内のタグを抽出する場合、以下のようなコードを使用できます。
tag_elements = soup.find_all('div', class_='tag')
tags = [tag.text.strip() for tag in tag_elements]
以上が、Pythonを使用してHTMLを解析する方法の概要です。より詳細な解析や特定の要素の抽出方法については、BeautifulSoupの公式ドキュメントを参照してください。