Logistic回归样本量计算方法有哪些
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,Logistic回归样本量计算方法有哪些,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Logistic 回归是一种广泛使用的统计模型
千家信息网最后更新 2025年01月31日Logistic回归样本量计算方法有哪些Logistic 回归是一种广泛使用的统计模型。在实际应用中,有很多研究者往往忽视 Logistic 回归对样本量的要求,或者凭"纳入的研究对象人数充分"草草带过样本量问题,这些做法使主要影响因素与结局间关系的探索未能结合研究设计阶段对两类错误的设定。下面介绍三种 Logistic 回归样本量计算方法,并辅以实例说明,帮助研究者合理完成研究的设计与实施。 目 前 广 泛 使 用 的 方 法 是 EPV(events pervariable)的方法,即 每个自变量的事件数,其中事件表示因变量中个数较少的那一类 。 例如调查胃癌发病与 3 种生活因素(X1代表不良饮食习惯,X2 代表喜吃卤食和盐渍食物,X3 代表精神状况)的关系,若胃癌患者占的比例为20%,那么当假EPV=10 时,由于有 3 个协变量,所以所需胃癌患者例数为10×3=30,总共需要的样本量(胃癌患者和健康对照)为 30÷20%=150 例。 当 EPV过少时,容易出现分离(separation)现象。 此现象出现在自变量若大于某个常数,变量则仅与一个自变量相关联。 例如当 X 为连续型变量时,若X≤0 时,有 Y 恒为 1,则出现完全分离(complete separation)现象,此时参数估计无法收敛,得不到回归系数的估计值。 另一情形是,当X<0,Y恒为1,但当X=0时Y兼有观察值0和1,这时会出现拟完全分离(quasi⁃ complete separation)现象,此时极大似然估计值异常大。 统计学模拟研究表明,在 Logistic 回归中推荐的经验准则是 EPV 至少为 10,才能保证结果稳健。 另外一个比较常用的经验准则是样本量为协变量个数的 10~15 倍。 具体应用时可以综合考虑两种经验准则。 Whittemore 1981 年提出了罕见事件 Logistic 回归样本量估算公式,随后Hsieh 对 Whittemore的公式进行了扩展,在1998年提出了一个便于一般应用者实施的简单方法。建议借用样本均值比较和样本频率比较的样本含量计算公式来估算单因素Logistic回归所需的样本量,再用方差膨胀因子对其修正便得到多因素Logistic回归所需的样本量。单因素 Logistic 回归中,当 X 为连续型变量并且服从正态分布时,样本量的计算公式为:
式(3)中的 R12,234…p 就是以最主要的暴露因素X1为因变量,X2,……,Xp为自变量做线性回归得到的决定系数 R2,n1为单因素 Logistic 回归所需的样本量。其实,1/(1 - R12,234…p) 被统计学家定义为一个重要参数 --方差膨胀因子(variance inflationfactor,VIF),故多因素Logistic回归的样本量即为最主要的暴露因素所对应单因素 Logistic 回归所需的样本量n1乘以该因素对应的方差膨胀因子VIF。
实例1 某课题组拟探索非甾体抗炎药相关上消化道出血是否与吸烟之间存在关系,现计算研究所需样本量。假设α=0.05(双侧),β=0.10(单侧)。
根据该课题组的回顾性分析,已知 B=0.48,p0 =0.43,p1=0.58,p=0.50,Z1⁃α/2 =1.96,Z1⁃β=1.28,代入公式(2)可得n≈464。
实例 2 假设在实例 1 中除了吸烟因素外,还考虑饮酒、冠心病史、慢性胃炎史等可能影响上消化道出血的因素,在这里我们最关心的暴露因素为是否吸烟,并且已知吸烟与上述因素(自变量)之 间 的 R2 为 0.07,则 根 据 公 式(3)可 得 多 因 素Logistic回归所需样本量为n ≈499。 通过商业软件PASS11完成Logistic 回归样本量的估算 EPV 通常被认为是Logistic回归模型中参数估计效果的主要决定因素,在估算样本量时往往被格外重视。但是影响Logistic回归模型中参数估计效果的因素有很多,比如因变量与自变量之间关系的强度、自变量之间的相关性(即共线性)等,van Smeden等认为对每个自变量EPV取10作为二分类Logistic回归样本量,低估了合理的样本量水平,建议通过Firth's校正予以改善。Vittinghoff等也认为EPV 取10,会致所得样本量偏低。小编建议在采用经验法计算Logistic回归样本量时,应同时兼顾所有自变量不同暴露水平下结局为阳性、阴性者的人数都足够多。相较于经验法,更提倡使用公式法来估算样本量,并且建议使用影响面较大的权威软件包。上面介绍的两种软件各有利弊,比如 R 免费,而PASS则可提供更为详尽的输出。
Logistic回归样本量计算方法有哪些,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
Logistic 回归(logistic regression)模型被广泛应用于各学科领域,如医学、社会科学、机器学习等,主要适用于因变量是分类变量的情况,尤其当因变量属于 0⁃1 变量。该模型采用的参数估计方法是 极 大 似 然 估 计(maximum likelihood estimate,MLE),这就需要足够的样本量来保证参数估计的准确性,而样本量的估计又是常常困扰研究者的一个问题,以下将汇总二分类 Logistic 回归分析中几种常用的样本量确定方法。
经验方法
公式法
式(1)中 p1为 X 取均值条件下 Y = 1 发生的频率,b 为要度量的效应大小,亦即 X 所对应回归系数的估计值。
式(2)中p为总的阳性结局发生频率,B为X=1的个体在总观察人数中所占的比例(流行病学研究中对应于暴露比例),p0和 p1分别为 X=0 和 X=1时的阳性结局发生频率。
多因素Logistic回归样本量计算公式为:
软件实现
【PASS】
关于Logistic回归样本量计算方法有哪些问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注行业资讯频道了解更多相关知识。
样本
样本量
因素
方法
自变量
研究
公式
变量
参数
经验
因变量
模型
问题
实例
建议
现象
结局
胃癌
软件
频率
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
现代软件开发联系人
女生学网络技术怎么样
河南葛力斯网络技术有限公司
用数据库查询相同办证时间的人
淮北机械专业软件开发平台
莱芜安卓软件开发
广州巨麦网络技术有限公司
数据库多表联查关系
湖州哪家软件开发公司好
ocp软件开发培训班
软件开发能干到什么年龄
非主流主题软件开发
常用的数据库不包括
单位网络安全工作领导小组
字符读取文件存入数据库
重生之门与网络安全
网络安全宣传心得200字
网络安全密钥如何查
腾讯云服务器评论
计算机网络技术部门和岗位
个体开软件开发
足球经理2022数据库的影响
东莞学习通网络技术有限公司
网络安全主题班会反思
网站360网络安全研究员
如何寻找代理服务器
sql数据库查询大小排序
河南融智网络技术有限公司
才正软件开发有限公司
数据库查询测试点