PythonのGooseライブラリを使用したWebコンテンツの抽出と解析


Gooseは、HTMLから本文やメタデータを抽出するための強力なツールです。以下に、Gooseを使用してコンテンツを抽出する方法の一例を示します。

from goose3 import Goose
# URLからコンテンツを抽出
def extract_content(url):
    g = Goose()
    article = g.extract(url=url)
    return article.cleaned_text
# 抽出したコンテンツを表示
url = 'https://example.com'
content = extract_content(url)
print(content)

上記の例では、extract_content関数を使用して指定したURLからコンテンツを抽出しています。抽出されたコンテンツは、article.cleaned_textを通じて取得されます。

また、Gooseは様々なメタデータも抽出できます。以下に、タイトルとメタデータを取得する別の例を示します。

上記の例では、extract_metadata関数を使用して指定したURLからタイトル、メタデータの説明、およびキーワードを抽出しています。

これらの例は、PythonのGooseライブラリを使用してWebコンテンツを抽出し、解析するための基本的な方法を示しています。具体的な用途に応じて、Gooseライブラリの他の機能やオプションも活用できます。