Rでハイパーリンクを抽出する方法


  1. rvestパッケージを使用する方法: rvestパッケージは、ウェブスクレイピングやHTML解析に便利なツールです。以下のコードは、rvestパッケージを使用してウェブページからハイパーリンクを抽出する例です。

    library(rvest)
    
    # ウェブページのURLを指定
    url <- "https://example.com"
    
    # HTMLを取得
    html <- read_html(url)
    
    # ハイパーリンクを抽出
    links <- html %>% html_nodes("a") %>% html_attr("href")
    
    # 結果を表示
    print(links)
  2. stringrパッケージを使用する方法: stringrパッケージは、文字列操作に便利なツールです。以下のコードは、stringrパッケージを使用してテキストデータからハイパーリンクを抽出する例です。

    library(stringr)
    
    # テキストデータを指定
    text <- "This is a sample text with a hyperlink: <a href='https://example.com'>Click here</a>"
    
    # ハイパーリンクを抽出
    links <- str_extract_all(text, "<a\\b[^>]*href=['\"]([^'\"]*)['\"][^>]*>[^<]*<\\/a>")
    
    # 結果を表示
    print(links)