本文介绍用简单方法快速替换缺失值。实际应用中要根据实际情况选择合适的方式填充缺失值。
填充数据框缺失值
通常我们会用特定列的均值或中位数填充数据框列的缺失值。对应的代码大概如下:
df$col[is.na(df$col)] <- mean(df$col, na.rm=TRUE)
如果所有列都是数值类型,可以使用下面代码模板:
for(i in 1:ncol(df)) {
df[ , i][is.na(df[ , i])] <- mean(df[ , i], na.rm=TRUE)
}
示例
#create data frame
df <- data.frame(var1=c(1, NA, NA, 4, 5),
var2=c(7, 7, 8, NA, 2),
var3=c(NA, 3, 6, NA, 8),
var4=c(1, 1, 2, 8, 9))
#replace missing values in first column with mean of first column
df$var1[is.na(df$var1)] <- mean(df$var1, na.rm=TRUE)
#view data frame with missing values replaced
df
# var1 var2 var3 var4
# 1 1.000000 7 NA 1
# 2 3.333333 7 3 1
# 3 3.333333 8 6 2
# 4 4.000000 NA NA 8
# 5 5.000000 2 8 9
## 一次性使用中位数替换
for(i in 1:ncol(df)) {
df[ , i][is.na(df[ , i])] <- median(df[ , i], na.rm=TRUE)
}
df
# var1 var2 var3 var4
# 1 1.000000 7 6 1
# 2 3.333333 7 3 1
# 3 3.333333 8 6 2
# 4 4.000000 7 6 8
# 5 5.000000 2 8 9
上面示例一次性成功填充了所有缺失值,但有时会遇到列不一定都是数值类型,如有字符型,遇到字符类型则不能求均值,只能用众数填充。这是就会遇到动态引用变量问题,下面我们来介绍如果动态引用变量。
dplyr mutate函数动态引用变量
要在mutate函数中动态引用变量,需要使用 !!
操作符,文档中描述如下:
!! 操作符去掉参数的引号,并在上下文环境中立刻评估其值。
我们可以使用rlang::sym(bolname)函数:指定字符串参数返回变量符号, 与直接使用.data[[bolname]] 效果一样。
library(pacman)
p_load(dplyr, tibble)
df1 <- tibble(a=c(1,2,3,4), b=c("a","b","c","d"))
for (cn in colnames(df1)) {
if(cn %in% names(df1[, sapply(df1, is.numeric)])){
df1 %>% mutate(!!cn := !!rlang::sym(cn) * 2) -> df1
# df1 %>% mutate(!!cn := .data[[cn]] * 2) -> df1
}
}
df1
# a b
# <dbl> <chr>
# 1 2 a
# 2 4 b
# 3 6 c
# 4 8 d
批量替换tibble变量缺失值
上面解决了在mutate函数中动态引用变量,下面这个示例,对于数值类型缺失值用均值填充,字符类型使用众数函数填充。
library(pacman)
p_load(tidyverse)
rv <- c(11, 18, 19, 21, 29, 46, 21)
rc <- c("a", "b", "c", "a", "d", "b", "e", "a", "c" )
## 定义函数返回众数
imode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
# imode(rv)
# imode(rc)
df<-tibble(id=seq(1,10),
ca=c(10,9,8,7,NA,NA,20,15,12,NA),
cb=factor(c("A","B","A","A","","B","A","B","","A")),
cc=factor(c("","BB","CC","BB","BB","CC","AA","BB","","AA")),
cd=c(NA,20,18,22,18,17,19,NA,17,23)
)
# df
## 动态获取变量值
for (col in colnames(df)) {
if (col %in% names(df[,sapply(df, is.numeric)])) {
## 动态替换数值变量中NA值为均值
df <- df %>%
mutate(!!col := replace(.data[[col]], is.na(.data[[col]]), mean(.data[[col]], na.rm=TRUE)) )
# mutate(!!col := replace(!!rlang::sym(col), is.na(!!rlang::sym(col)), mean(.data[[col]], na.rm=TRUE)) )
}
else {
## 动态替换字符变量中NA值为均值
print(replace(.data[[col]], .data[[cols]]=="", imode(.data[[col]])))
df <- df %>%
mutate(!!col := replace(.data[[col]], .data[[col]]=="", imode(.data[[col]])))
# mutate(!!col := replace(!!(rlang::sym(col)), !!rlang::sym(col)=="", imode(!!rlang::sym(col))) )
}
}
df
# id ca cb cc cd
# <dbl> <dbl> <fct> <fct> <dbl>
# 1 1 10 A BB 19.2
# 2 2 9 B BB 20
# 3 3 8 A CC 18
# 4 4 7 A BB 22
# 5 5 11.6 A BB 18
# 6 6 11.6 B CC 17
# 7 7 20 A AA 19
# 8 8 15 B BB 19.2
# 9 9 12 A BB 17
# 10 10 11.6 A AA 23
上面代码有几点解释下:
-
colnames
函数返回数据集的变量名称集合;names
函数功能类似,最大区别是前者只能用于而为数据结构,如矩阵、数据框,而names
只能用于数据框;另外names
可用于vector,colnames
用于vector返回NULL。 -
sapply(df, is.numeric)
返回df
中所有数值类型的变量。 -
dplyr包可使用
:=
符号给动态变量赋值。
本文参考链接:https://blog.csdn.net/neweastsun/article/details/122147826