Pandasを使用してHTMLファイルを読み込む方法

2024-02-09 23:58 Python Pandas HTML

Pandasのread_htmlメソッドを使用する方法:
```
import pandas as pd
dfs = pd.read_html('ファイル名.html')
df = dfs[0]  # 必要なテーブルが最初の要素にある場合
```
この方法では、HTMLファイル内のテーブルがDataFrameオブジェクトとして読み込まれます。複数のテーブルがある場合は、dfsリストに格納され、必要なテーブルを選択することができます。
BeautifulSoupを使用してHTMLファイルを解析し、PandasのDataFrameに変換する方法:
```
from bs4 import BeautifulSoup
import pandas as pd
with open('ファイル名.html', 'r') as f:
soup = BeautifulSoup(f, 'html.parser')
table = soup.find('table')  # テーブルを特定するための適切なセレクタを使用する
df = pd.read_html(str(table))[0]
```
この方法では、BeautifulSoupを使用してHTMLファイルを解析し、必要なテーブルを特定します。その後、Pandasのread_htmlメソッドを使用してテーブルをDataFrameに変換します。

さらに、PandasはHTMLファイルの他の要素（たとえば、リンクやテキスト）を読み込むための別の方法も提供しています。これらの方法については、Pandasの公式ドキュメントを参照してください。

以上が、Pandasを使用してHTMLファイルを読み込む方法のいくつかの例です。これにより、データ分析や情報抽出などの目的に応じて、HTMLファイルのデータを簡単に取り込むことができます。