- ウェブスクレイピング:
ウェブスクレイピングは、HTMLページから情報を収集する手法です。Pandasの
read_html()
関数を使用して、HTMLテーブルを直接読み込むことができます。以下は例です。
import pandas as pd
url = 'https://example.com/data.html'
dfs = pd.read_html(url)
df = dfs[0] # 必要なテーブルを選択
- APIを使用する:
ウェブサイトがAPIを提供している場合は、データを直接取得することができます。一般的なAPI形式はJSONです。Pandasの
read_json()
関数を使用して、JSONデータを読み込むことができます。以下は例です。
import pandas as pd
url = 'https://example.com/api/data.json'
df = pd.read_json(url)
- CSVファイルをダウンロードして読み込む: ウェブサイトがCSVファイルを提供している場合は、そのファイルをダウンロードしてPandasで読み込むことができます。以下は例です。
import pandas as pd
url = 'https://example.com/data.csv'
df = pd.read_csv(url)
これらの方法を使用して、ウェブサイトからデータをPandasのデータフレームとして読み込むことができます。必要に応じてデータの前処理や解析を行い、目的に合わせた分析を行ってください。また、ウェブスクレイピングやAPIの使用には、ウェブサイトの利用規約やデータの利用条件を遵守することが重要です。