-
Pandasのread_htmlメソッドを使用する方法:
import pandas as pd dfs = pd.read_html('ファイル名.html') df = dfs[0] # 必要なテーブルが最初の要素にある場合
この方法では、HTMLファイル内のテーブルがDataFrameオブジェクトとして読み込まれます。複数のテーブルがある場合は、dfsリストに格納され、必要なテーブルを選択することができます。
-
BeautifulSoupを使用してHTMLファイルを解析し、PandasのDataFrameに変換する方法:
from bs4 import BeautifulSoup import pandas as pd with open('ファイル名.html', 'r') as f: soup = BeautifulSoup(f, 'html.parser') table = soup.find('table') # テーブルを特定するための適切なセレクタを使用する df = pd.read_html(str(table))[0]
この方法では、BeautifulSoupを使用してHTMLファイルを解析し、必要なテーブルを特定します。その後、Pandasのread_htmlメソッドを使用してテーブルをDataFrameに変換します。
さらに、PandasはHTMLファイルの他の要素(たとえば、リンクやテキスト)を読み込むための別の方法も提供しています。これらの方法については、Pandasの公式ドキュメントを参照してください。
以上が、Pandasを使用してHTMLファイルを読み込む方法のいくつかの例です。これにより、データ分析や情報抽出などの目的に応じて、HTMLファイルのデータを簡単に取り込むことができます。