-
pandasライブラリを使用する方法:
import pandas as pd # HTMLを読み込んでテーブルを取得する html = """ <table> <tr> <th>列1</th> <th>列2</th> </tr> <tr> <td>データ1</td> <td>データ2</td> </tr> </table> """ tables = pd.read_html(html) # データフレームに変換する df = tables[0] print(df)
-
BeautifulSoupライブラリを使用する方法:
from bs4 import BeautifulSoup import pandas as pd # HTMLを読み込む html = """ <table> <tr> <th>列1</th> <th>列2</th> </tr> <tr> <td>データ1</td> <td>データ2</td> </tr> </table> """ # BeautifulSoupを使ってテーブルを解析する soup = BeautifulSoup(html, 'html.parser') table = soup.find('table') # テーブルをデータフレームに変換する df = pd.read_html(str(table))[0] print(df)
上記のコード例では、pandasライブラリとBeautifulSoupライブラリを使用してHTMLテーブルをデータフレームに変換しています。pandasのread_html
関数はHTMLからテーブルを取得し、BeautifulSoupはHTMLを解析してテーブルを抽出します。どちらの方法でも、変換したデータフレームを使ってデータの分析や処理が容易になります。
この方法を使えば、PythonでHTMLテーブルをデータフレームに変換することができます。