ブログ投稿作成における正規表現を使用したドメイン名の抽出方法


  1. Pythonを使用する場合のコード例:

import re

text = "ブログの本文に含まれるドメイン名を抽出する方法を紹介します。例えば、https://example.comhttp://www.example.co.jp などのドメイン名を抽出したい場合には、以下のようなコードを使います。"

domain_regex = r"(https?://[^\s/$.?#].[^\s]*)"

matches = re.findall(domain_regex, text)

for match in matches: print(match)

上記のコードでは、正規表現パターン "(https?://[^\s/$.?#].[^\s]*)" を使用してドメイン名を抽出しています。このパターンは、"http://"または"https://"で始まり、空白文字、スラッシュ、ドル記号、ピリオド、クエリ文字、ハッシュ文字以外の文字が続くドメイン名を抽出します

  1. JavaScriptを使用する場合のコード例:

const text = "ブログの本文に含まれるドメイン名を抽出する方法を紹介します。例えば、https://example.comhttp://www.example.co.jp などのドメイン名を抽出したい場合には、以下のようなコードを使います。";

const domainRegex = /(https?:\/\/[^\s/$.?#].[^\s]*)/g;

const matches = text.match(domainRegex);

console.log(matches);

上記のコードでは、正規表現パターン "(https?:\/\/[^\s/$.?#].[^\s]*)" を使用してドメイン名を抽出しています。このパターンもPythonの例と同様に、"http://"または"https://"で始まり、空白文字、スラッシュ、ドル記号、ピリオド、クエリ文字、ハッシュ文字以外の文字が続くドメイン名を抽出します

これらのコード例を使用することで、ブログの本文からドメイン名を抽出することができます。正規表現パターンを調整することで、特定の形式のドメイン名を抽出することも可能です。