查看原文
其他

介绍几个缺失数据可视化的R包

段湘杰 R语言统计与绘图 2023-10-31

缺失数据在临床研究中比较常见,今天来学习几个探索缺失值数据的R包。

第1个R包是dlookr包。

dlookr包是一个数据探索R包,可以对整个数据集进行诊断,并且可以输出详细的诊断报告。

缺失数据探索是dlookr包其中的一个功能。

使用jobchange数据集进行演示。

library(dlookr)
diagnose(jobchange)

如上所示,可以输出数据集中每个变量的缺失比例及计数。

同样,可以使用ggplot2包进行缺失数据可视化。

jobchange %>% 
  diagnose() %>% 
  arrange(desc(missing_percent)) %>% 
  ggplot(aes(x = variables, y = missing_percent)) +
  geom_col(fill = 'cyan3') + 
  theme_bw(base_size = 14) + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1),
        axis.title.x = element_blank())

虽然ggplot2可以可视化缺失数据,但是dlookr包提供了缺失数据的可视化函数plot_na_pareto(),同样支持ggplot2图形系统。

jobchange %>% 
  plot_na_pareto()

第2个R包是naniar包。

naniar包也是专门用于缺失数据探索和处理的R包。

可以使用gg_miss_var()函数来探索缺失变量。

jobchange %>%
  gg_miss_var() +
  theme_bw(base_size = 16)

可以修改参数为百分比显示。

jobchange %>%
  gg_miss_var(show_pct = TRUE) +
  theme_bw(base_size = 16)

对于临床数据,可以在论文附件中添加原始数据的缺失变量百分比。

参考资料

  1. dlookr包帮助文件
  2. naniar包帮助文件
  3. ggplot2包帮助文件

《完》


关注下方公众号,分享更多更好玩的R语言知识

觉得有帮助的请点赞、分享、在看走起!

点个在看,SCI马上发表。

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存