Home > Webスクレイピング


PythonのGooseライブラリを使用したWebコンテンツの抽出と解析

Gooseは、HTMLから本文やメタデータを抽出するための強力なツールです。以下に、Gooseを使用してコンテンツを抽出する方法の一例を示します。from goose3 import Goose # URLからコンテンツを抽出 def extract_content(url): g = Goose() article = g.extract(url=url) return article.cleaned_text # 抽出したコンテンツを表示 url = 'https://example.com' content = extract_content(url) print>>More


XPathを使用して要素のテキストを取得する方法

単一の要素のテキストを取得する方法: 以下のコード例は、XPathを使用して単一の要素のテキストを取得する方法を示しています。import requests from lxml import html # HTMLを取得する response = requests.get('https://example.com') tree = html.fromstring(response.content) # XPathを使用して要素のテキストを取得する element_text = tree.xpath('//h1/text()')[0] print(element_text)>>More