PythonでHTMLテーブルをデータフレームに変換する方法


  1. pandasライブラリを使用する方法:

    import pandas as pd
    # HTMLを読み込んでテーブルを取得する
    html = """
    <table>
    <tr>
    <th>列1</th>
    <th>列2</th>
    </tr>
    <tr>
    <td>データ1</td>
    <td>データ2</td>
    </tr>
    </table>
    """
    tables = pd.read_html(html)
    # データフレームに変換する
    df = tables[0]
    print(df)
  2. BeautifulSoupライブラリを使用する方法:

    from bs4 import BeautifulSoup
    import pandas as pd
    # HTMLを読み込む
    html = """
    <table>
    <tr>
    <th>列1</th>
    <th>列2</th>
    </tr>
    <tr>
    <td>データ1</td>
    <td>データ2</td>
    </tr>
    </table>
    """
    # BeautifulSoupを使ってテーブルを解析する
    soup = BeautifulSoup(html, 'html.parser')
    table = soup.find('table')
    # テーブルをデータフレームに変換する
    df = pd.read_html(str(table))[0]
    print(df)

上記のコード例では、pandasライブラリとBeautifulSoupライブラリを使用してHTMLテーブルをデータフレームに変換しています。pandasのread_html関数はHTMLからテーブルを取得し、BeautifulSoupはHTMLを解析してテーブルを抽出します。どちらの方法でも、変換したデータフレームを使ってデータの分析や処理が容易になります。

この方法を使えば、PythonでHTMLテーブルをデータフレームに変換することができます。