R言語を使用して、正規表現を使ってデータフレームの中から特定のパターンにマッチする行を抽出する方法を説明します。以下に、シンプルで簡単なコード例をいくつか示します。
まず、Rの基本的なデータフレームを作成しましょう。
# データフレームの作成
df <- data.frame(
ID = c(1, 2, 3, 4, 5),
Name = c("John", "Alice", "Bob", "Eve", "Michael"),
Age = c(25, 30, 35, 40, 45),
Email = c("[email protected]", "[email protected]", "[email protected]", "[email protected]", "[email protected]")
)
このデータフレームから、特定のパターンにマッチする行を抽出する方法を見ていきましょう。
例えば、"example.com"というドメインを持つ行を抽出したい場合、次のようなコードを使用します。
# 正規表現を使って行を抽出する
pattern <- "example\\.com" # パターンを定義
matched_rows <- df[grep(pattern, df$Email), ] # パターンにマッチする行を抽出
上記のコードでは、grep()
関数を使用して、pattern
に指定した正規表現パターンにマッチする行のインデックスを取得し、それを使って元のデータフレームから該当する行を抽出しています。
pattern
には正規表現パターンを指定します。ここではドット(.)をエスケープするためにバックスラッシュ(\)を使用しています。
matched_rows
には、パターンにマッチする行が格納されます。
これは、Rで正規表現を使用して行を抽出する基本的な方法の一例です。他のパターンに合わせて正規表現を調整することで、さまざまな抽出条件に対応できます。