Logistic回归分析中,连续型变量OR值太大,是什么原因?
2019-08-22 不详 网络
Logistic回归是临床研究中最常见的多因素分析方法之一,但是,各类问题也十分多见的。其中有一个问题经常困扰,即分析时发现某个变量的OR值过大的问题。一般来说,大部分情况,一个因素对结局的影响都不可能过大(因为,都是各种因素的综合效应)。如果是超大样本分析中,OR值很少有超过2的。而在日常分析中,OR经常会达到10以上,甚至100以上,这是什么回事呢?看一个案例: 下面是几种处理方
Logistic回归是临床研究中最常见的多因素分析方法之一,但是,各类问题也十分多见的。其中有一个问题经常困扰,即分析时发现某个变量的OR值过大的问题。一般来说,大部分情况,一个因素对结局的影响都不可能过大(因为,都是各种因素的综合效应)。如果是超大样本分析中,OR值很少有超过2的。
而在日常分析中,OR经常会达到10以上,甚至100以上,这是什么回事呢?看一个案例:
下面是几种处理方法,你认为呢?
1、改一下X(连续性自变量)的单位即可,例如X是身高,原来单位是m,那么得出来的OR表示每增加1m的危险比。现在把它换成cm, 得出来的则是每增加1cm的危险比了。OR就小多了。
2、建议对连续型变量进行分段处理,转变为分类变量试试!
3、如果其结果和临床相差太大可能是样本收集问提或共线性问题。
4、更要防止数据本身的问题:
-
该变量某一类的例数特别少,如性别,男性有100人,女性有2人,可能会出现这种情形。
-
空单元格(zero cell count),如性别与疾病的关系,所有男性都发生了疾病或都没有发生疾病,这时候可能会出现OR值无穷大或为0的情形。
-
完全分离(complete separation),对于某自变量,如果该自变量取值大于某一值时结局发生,当小于该值时结局都不发生,就会出现完全分离现象。如年龄20~、30~、40~、50~四个年龄段,如果40岁以上的人全部发生疾病,40岁以下的人全部不发病,就就产生了完全分离现象,也会出现一个大得不可理喻的标准误。
-
多重共线性问题,多重共线性会产生大的标准误。
样本量过小,变量过少,导致其中一个变量与结局的关联度过高。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#logistic回归#
45
#回归分析#
51
#Logistic#
44
#GIST#
36