如何用几行代码做特征选择
发表于:2024-12-13 作者:千家信息网编辑
千家信息网最后更新 2024年12月13日,from sklearn.feature_selection import RFEfrom sklearn.linear_model import LinearRegression#Load bost
千家信息网最后更新 2024年12月13日如何用几行代码做特征选择
from sklearn.feature_selection import RFEfrom sklearn.linear_model import LinearRegression#Load boston housing dataset as an exampleX = np.array(train1[feature_use].fillna(-1))[1:train1.size,:]Y = np.array(train1['target'])[1:train1.size]#print(X)#print(Y)names = feature_use#use linear regression as the modellr = LinearRegression()#rank all features, i.e continue the elimination until the last onerfe = RFE(lr, n_features_to_select=1)rfe.fit(X,Y)print("Features sorted by their score:")#print(sorted(zip(map(lambda x: round(x, 4), rf.feature_importances_), names), reverse=True))sortedlist = sorted(zip(map(lambda x: round(x, 4), rfe.ranking_), names), reverse=True)print(sortedlist)feature_use = []for index in sortedlist[len(sortedlist)-70 : ]: if index[0]>0: feature_use.append(index[1])print(feature_use)
上面的X为数据集的特征集合 Y为标签集合
在sortlist里对特征的重要性进行了排序
最近做机器学习的一点感悟是,特征的影响远比模型参数来的大,特征是现实世界在算法中的倒影。
在特征工程中要对业务有非常深的理解,强调返璞归真,删除无效特征,减少引起干扰的特征。
加特征的过程需要一个一个来,还要多思考这些特征之间的关系,是否是强烈线性相关的。
# random forest select features'''from sklearn.ensemble import RandomForestRegressorimport numpy as np#Load boston housing dataset as an exampleX = np.array(train1[feature_use].fillna(-1))[1:train1.size,:]Y = np.array(train1['target'])[1:train1.size]print(X)print(Y)names = feature_userf = RandomForestRegressor()rf.fit(X, Y)print("Features sorted by their score:")print(sorted(zip(map(lambda x: round(x, 4), rf.feature_importances_), names), reverse=True))'''
特征
重要
返璞归真
世界
业务
之间
倒影
参数
工程
数据
机器
标签
模型
现实
算法
线性
过程
重要性
面的
加特
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库连接池导致速度慢
网络安全的总体发展趋势
河北集群服务器云服务器
疫情网络安全趋势
英雄联盟哪些服务器
北杜网络安全手抄报
湖北品质软件开发五星服务
揭阳通讯软件开发维修电话
怎么租用云服务器
天津元创互联网科技有限公司
2018医院网络安全
ms数据库端口
蚂蚁森林服务器一直连不上
广东服务器代理云空间
网络安全类别
高校参加网络安全培训新闻稿
工业软件开发工具国产
ser服务器的英文
大数据学应用服务器是什么
搭建公司内网数据库
ibm服务器管理口报警查看
网络技术对教学的作用
渭南多媒体软件开发
服务器寄存器
excel 安全检查数据库
安徽数据网络技术包括什么
服务器网页中毒怎么处理
云开发服务器里怎么添加数据表
找不到数据库启动句柄
服务器生存日记怎么下载