Gooseは、HTMLから本文やメタデータを抽出するための強力なツールです。以下に、Gooseを使用してコンテンツを抽出する方法の一例を示します。
from goose3 import Goose
# URLからコンテンツを抽出
def extract_content(url):
g = Goose()
article = g.extract(url=url)
return article.cleaned_text
# 抽出したコンテンツを表示
url = 'https://example.com'
content = extract_content(url)
print(content)
上記の例では、extract_content
関数を使用して指定したURLからコンテンツを抽出しています。抽出されたコンテンツは、article.cleaned_text
を通じて取得されます。
また、Gooseは様々なメタデータも抽出できます。以下に、タイトルとメタデータを取得する別の例を示します。
上記の例では、extract_metadata
関数を使用して指定したURLからタイトル、メタデータの説明、およびキーワードを抽出しています。
これらの例は、PythonのGooseライブラリを使用してWebコンテンツを抽出し、解析するための基本的な方法を示しています。具体的な用途に応じて、Gooseライブラリの他の機能やオプションも活用できます。