URLから 'https://'、'www.'、およびすべてのサブディレクトリを正規表現で削除する方法


URLから 'https://'、'www.'、およびすべてのサブディレクトリを削除する方法について説明します。以下にシンプルで簡単な方法といくつかのコード例を示します

方法1: 正規表現を使用して削除する方法

Pythonを例として説明します。

import re
def remove_url_parts(url):
    # 'https://'を削除
    url = re.sub(r'https?://', '', url)

    # 'www.'を削除
    url = re.sub(r'www\.', '', url)

    # サブディレクトリを削除
    url = re.sub(r'\/.*', '', url)

    return url
# 使用例
url = 'https://www.example.com/subdirectory/page.html'
clean_url = remove_url_parts(url)
print(clean_url)  # 出力: example.com

この例では、正規表現のre.sub()関数を使用して、URLから 'https://'、'www.'、およびサブディレクトリを削除しています

方法2: URLパースを使用して削除する方法

また、URLを解析して必要な部分を取り出す方法もあります。Pythonのurllib.parseモジュールを使用することができます。

from urllib.parse import urlparse
def remove_url_parts(url):
    parsed_url = urlparse(url)

    # 'www.'を削除
    hostname = parsed_url.hostname.replace('www.', '')

    # サブディレクトリを削除
    path = ''

    return hostname
# 使用例
url = 'https://www.example.com/subdirectory/page.html'
clean_url = remove_url_parts(url)
print(clean_url)  # 出力: example.com

この例では、urlparse()関数を使用してURLを解析し、hostname属性を取得してから、'www.'を削除しています。

これらの方法を使用すると、URLから 'https://'、'www.'、およびすべてのサブディレクトリを簡単に削除することができます