Pythonを使用してHTMLを解析する方法

まず、BeautifulSoupをインストールします。ターミナルまたはコマンドプロンプトで以下のコマンドを実行します。

pip install beautifulsoup4

次に、PythonスクリプトでBeautifulSoupをインポートします。

from bs4 import BeautifulSoup

HTMLを解析するためには、まずHTMLファイルを読み込んでBeautifulSoupオブジェクトを作成する必要があります。以下のコード例を参考にしてください。

# HTMLファイルを読み込む
with open('example.html', 'r') as f:
    html = f.read()
# BeautifulSoupオブジェクトを作成する
soup = BeautifulSoup(html, 'html.parser')

タイトルを抽出するには、HTMLの適切な要素と属性を特定する必要があります。例えば、<h1>要素内のテキストをタイトルとして抽出する場合、以下のようなコードを使用できます。

title_element = soup.find('h1')
title = title_element.text.strip()

同様に、タグを抽出するには、適切な要素と属性を特定します。例えば、<div>要素内のタグを抽出する場合、以下のようなコードを使用できます。

tag_elements = soup.find_all('div', class_='tag')
tags = [tag.text.strip() for tag in tag_elements]

以上が、Pythonを使用してHTMLを解析する方法の概要です。より詳細な解析や特定の要素の抽出方法については、BeautifulSoupの公式ドキュメントを参照してください。