R语言计算IV值及使用
发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,更多大数据分析、建模等内容请关注公众号《bigdatamodeling》在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下:CalcIV <-
千家信息网最后更新 2025年01月23日R语言计算IV值及使用
更多大数据分析、建模等内容请关注公众号《bigdatamodeling》
在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下:
CalcIV <- function(df_bin, key_var, y_var){ N_0<-table(df_bin[, y_var])[1] N_1<-table(df_bin[, y_var])[2] iv_c<-NULL var_c<-NULL for (col in colnames(df_bin)){ if (col != key_var && col != y_var) { frq<-as.data.frame(table(df_bin[, col], df_bin[, y_var])) len<-length(unique(frq$Var1)) iv<-0 for (i in 1:len){ N_i_0<-frq$Freq[frq$Var1==i & frq$Var2==0] N_i_1<-frq$Freq[frq$Var1==i & frq$Var2==1] iv<-iv+(N_i_0/N_0- N_i_1/N_1)*log((N_i_0/N_0)/(N_i_1/N_1)) } iv_c<-c(iv_c, iv) var_c<-c(var_c, col) } } iv_df<-data.frame(var=var_c, iv=iv_c, stringsAsFactors = FALSE) return(iv_df)}
其中,df_bin是分箱后的数据集,key_var是主键,y_var是y变量(0是好,1是坏)。代码运行结果如下:
变量
重要
代码
数据
重要性
语言
公众
内容
数据分析
更多
结果
区分度
分析
统计
评估
运行
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
地区组织网络安全治理
电力公司网络安全30条
数据库导出参考文献
数据库简单吗
预付的软件开发费入账
转行做软件开发培训
电脑vpn服务器设置
中国联通网络技术岗面试问什么
服务器打不开管理
同花顺为什么显示已连接服务器
mc中国版服务器管理员指令大全
数据库的问题怎么解决
我和网络安全的事作文
开源数据库是什么意思好坏
深圳系统软件开发哪家实惠
服务器巡检报告模板
php数组去掉一组数据库
软件开发国外接活网
九折型材服务器机柜
埃克塞特网络安全专业
相机快门寿命数据库
服务器数据有办法修改吗
沧州软件开发公司
软件开发安全管理要求规范
数据库还原服务器不支持
网络安全宣传画视频
太原触控查询软件开发公司
python数据库显示图片
重庆GIS软件开发公司
天龙无法打开服务器列表