千家信息网

R语言计算IV值及使用

发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,更多大数据分析、建模等内容请关注公众号《bigdatamodeling》在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下:CalcIV <-
千家信息网最后更新 2025年01月23日R语言计算IV值及使用

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》

在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下:

CalcIV <- function(df_bin, key_var, y_var){ N_0<-table(df_bin[, y_var])[1] N_1<-table(df_bin[, y_var])[2] iv_c<-NULL var_c<-NULL for (col in colnames(df_bin)){   if (col != key_var && col != y_var) {     frq<-as.data.frame(table(df_bin[, col], df_bin[, y_var]))     len<-length(unique(frq$Var1))     iv<-0     for (i in 1:len){       N_i_0<-frq$Freq[frq$Var1==i & frq$Var2==0]       N_i_1<-frq$Freq[frq$Var1==i & frq$Var2==1]       iv<-iv+(N_i_0/N_0- N_i_1/N_1)*log((N_i_0/N_0)/(N_i_1/N_1))     }     iv_c<-c(iv_c, iv)     var_c<-c(var_c, col)   } } iv_df<-data.frame(var=var_c, iv=iv_c, stringsAsFactors = FALSE) return(iv_df)}

其中,df_bin是分箱后的数据集,key_var是主键,y_var是y变量(0是好,1是坏)。代码运行结果如下:

0