Rで欠損値を可視化する方法


  1. ヒートマップを使用した可視化: ヒートマップはデータセット内の欠損値のパターンを視覚化するための効果的な方法です。以下のコードを使用して実装できます。

    library(ggplot2)
    library(viridis)
    library(reshape2)
    # データセットの読み込み
    dataset <- read.csv("データセットのパス")
    # 欠損値のヒートマップを作成
    missing_data <- is.na(dataset)
    missing_data <- melt(missing_data)
    ggplot(data = missing_data, aes(x = variable, y = factor(row), fill = value)) +
     geom_tile() +
     scale_fill_viridis() +
     labs(x = "変数", y = "行", title = "欠損値のヒートマップ")
  2. 欠損値のバー グラフを使用した可視化: バー グラフは各変数ごとの欠損値の割合を示すのに適しています。以下のコードを使用して実装できます。

    library(ggplot2)
    # データセットの読み込み
    dataset <- read.csv("データセットのパス")
    # 欠損値の割合を計算
    missing_values <- colSums(is.na(dataset))
    missing_df <- data.frame(variable = names(missing_values), missing_count = missing_values)
    missing_df$missing_percentage <- missing_df$missing_count / nrow(dataset) * 100
    # バー グラフを作成
    ggplot(data = missing_df, aes(x = variable, y = missing_percentage)) +
     geom_bar(stat = "identity") +
     labs(x = "変数", y = "欠損値の割合", title = "欠損値のバー グラフ")