定量资料分析方法的合理选择:带有协变量的定量资料统计方法及常见错误辨析与释疑

当定量资料中包含一个或多个定量的影响因素时称为「带有协变量的定量资料」,处理这样的资料常需要采用「协方差分析」。协方差分析是将回归分析与方差分析结合起来使用的一种分析方法 。本文就带有协变量的定量资料的常用统计方法,以及带有协变量的定量资料统计常见错误以实例的方式说明一下。

带有协变量的定量资料

当观测结果为定量变量、影响因素为定性变量时,人们常希望考察定性的影响因素取不同水平条件下,定量观测指标的平均值之间的差异是否具有显著意义,此时,所用的统计分析方法统称为「定量资料均值的假设检验」,其参数法常有t检验和方差分析,非参数法有秩和检验。但当资料中还包含一个或多个定量的影响因素时又该怎么办呢?此时的资料被称为「带有协变量的定量资料」,处理这样的资料常需要采用「协方差分析」,即在定性的影响因素取不同水平的条件下,将每一个定量的影响因素对观测结果的影响化成相等,从而折算出定量观测结果的平均值(被称为修正均值),然后,对修正均值进行相应设计定量资料的方差分析。

协方差分析是将回归分析与方差分析结合起来使用的一种分析方法,在这种分析中,先将定量的影响因素看作自变量或称为协变量,建立因变量随自变量变化的回归方程,这样就可以利用回归方程把因变量的变化中受不易控制的定量因素的影响扣除掉,从而能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的总体均数之间的差别是否有显著意义。

误用t检验和一般方差分析处理带有协变量的资料

例1 病情严重程度与阻塞性睡眠呼吸暂停综合征(OSAS)患者部分危险因素之间的关系。

以疑诊为OSAS的98例患者作为研究对象,根据呼吸暂停低通气指数(AHI,指每小时睡眠时间呼吸暂停和低度通气次数)将其分为4组,正常组(AHI<5次/h)、轻度(AHI 5~20次/h)、中度(AHI 21~50次/h)及重度组(AHI>51次/h),从年龄、性别、肥胖及烟酒习惯等几方面分析与OSAS病情严重程度的关系。部分结果见表1。

定量资料分析方法的合理选择:带有协变量的定量资料统计方法及常见错误辨析与释疑

两组均数比较用t检验,多组均数比较采用方差分析。中重度OSAS患者体质指数明显高于非OSAS患者,吸烟饮酒量不同轻重程度OSAS患者均明显高于非OSAS患者,吸烟饮酒量不同轻重程度OSAS患者均明显高于非OSAS患者(P<0.01),中重度OSAS患者明显高于轻度OSAS患者(P<0.01)。

对差错的辨析与释疑

原作者考查不同轻重程度OSAS患者体质指数之间的差异是否具有显著意义,在统计分析方法的选择上,两组均数比较用t检验,多组均数比较采用方差分析,这种说法欠严谨,如果一个资料符合单因素k水平设计,采用方差分析认为各组之间差异具有显著意义,需进一步作两两比较,此时虽然是两组均数的比较,但并不能用通常所说的Student t检验,而要用q检验等方法,如果多个实验组分别与一个对照组进行比较,则适合用Dunnett t检验。

另外,在分析各组体质指数的差异是否具有显著意义时,各组的年龄、吸烟及饮酒量等情况并不一定相同,如果直接进行方差分析,会因为某些定量因素在各组之间的影响不均衡(称为混杂因素的干扰)而无法得出正确结论,采用前述所讲的协方差分析可以较好地解决这个问题。根据原作的分析目的,分析各组体质指数之间的差异是否有显著意义时,宜选用单因素k水平设计的多元协方差分析,同样道理,在分析各组吸烟量、饮酒量之间的差异是否存在显著意义时,也宜把其他定量的影响因素作为协变量,进行相应设计定量资料的协方差分析。

例2 SLE患者经抗CD3单抗刺激后3组外周单核细胞的CD40L表达的研究

某人要研究系统性红斑狼疮(SLE)患者在不同时期中的经抗CD3单抗刺激后3组外周单核细胞CD40L表达情况,实验结果见表2。

定量资料分析方法的合理选择:带有协变量的定量资料统计方法及常见错误辨析与释疑

对差错的辨析与释疑

原研究者用成组设计定量资料的t检验回答在同一时间点上不同组别均数之间的差别是否具有显著意义,不妥!

具体分析我们就不难发现实验中涉及到两个因素,「分组」这个因素就有三个水平,即「正常对照组、SLE活动期、SLE缓解期」,原研究者根据不同的病情进行分组,另外对每个组中的每个个体在不同的时间点上进行了重复测量,而且在「术前」(即零时间点)观测了一次、在「术后」观测了3次,应以零时间点观测的结果作为「基础值」(即作为「协变量」)来处理比较恰当,可以消除「因基础值不同」对术后观测结果的影响,更好地阐明不同的受试者在术后不同时间点上观测指标的动态变化情况。

综上所述,这样的资料可以叫做「带有一个协变量的具有一个重复测量的两因素设计(一元)定量资料」,应采用相应设计定量资料一元协方差分析处理为宜。

例3 自体输血与血库存血凝血酶原时间 、活化部分凝血酶原时间的研究

自体血液回输技术是近年来应用于临床的一种新的输血方法,原作者讨论13例应用Cell-saver5型自动洗涤离心机施行术中失血回收结果与应用血库存血13例的比较,测定了「凝血酶原时间(PT)、活化部分凝血酶原时间(APPT)」,具体的结果如表3所示。

定量资料分析方法的合理选择:带有协变量的定量资料统计方法及常见错误辨析与释疑

对差错的辨析与释疑

原研究者分别将血库存血组和自体输血组术前、术后即刻、术后24hPT、APTT结果做t检验,结果之间的差异均没有显著意义(P<0.05)。自体输血组与血库存血组在不同的时间点上的比较,差异也没有显著意义(P<0.05)。

原研究者只是简单地用成组设计定量资料的t检验来处理这样的资料,显然是不妥的!结合上面的例子,我们可以发现该实验中涉及到「对样品的处理方法」(即「血库存血、自体输血」)和「观测时间」(即在不同时间点上测量了同一血液样品中的PT、APPT)这样两个实验因素,而在时间这个因素上对同一个体进行了多次重复测量,其中「术前」时间点上观测的结果当成一个协变量来处理更合适一些,因为该时间点与「术后」的两个时间点是有本质区别的。

所以本实验所对应的实验设计类型可以叫做是「带有一个协变量的具有一个重复测量的两因素设计」。由于原作者同时观察了两个定量指标,即「PT、APPT」,而这两个定量指标在专业上是有密切联系的,应该将他们放在一起同时考虑比较妥当,所以上面的资料完整的叫法是「带有一个协变量的具有一个重复测量的两因素设计二元定量资料」,若有原始数据,应选用与该资料相对应的实验设计定量资料的二元协方差分析处理为宜。

例4 牛黄千金散的抗炎解热作用的研究

原文将Wistar大鼠分为3组:生理盐水组,地塞米松组,牛黄千金散组。药前测定大鼠的足趾容积,然后分别灌胃给药,30min后足皮下注射新鲜鸡蛋清。用药后15、30、45、60、75min以同样的方法测左侧组织容积。数据采用t检验的统计学分析方法处理,资料见表4。

定量资料分析方法的合理选择:带有协变量的定量资料统计方法及常见错误辨析与释疑

差错的辨析与释疑

原作者误用t检验处理了表4资料。表4中「组别」是一个实验分组因素,它有3个水平,即3种药物(注:生理盐水被视为一种特殊的药物);第二个实验因素为「观测时间」。定量的观测指标为足跖容积肿胀程度。问题是「观测时间」这个因素究竟有几个水平?若认为它有6个水平(即把用药前视为第一个观测时间点),则此资料就叫做「具有一个重复测量的两因素设计定量资料」;然而,用药前3组动物的平均「足跖容积肿胀程度」应当相等,因为他们是基础值,但在实际情况下,各动物的基础值并不一定会彼此相等,若相差较多,必然会影响用药后的观测结果(因为「起点」不同),这样就会使对各药物作用后的疗效的评价带来较大的偏性,应当设法消除基础值不完全相等所带来的不利影响。

解决这个问题的较好办法是将用药前的数据作为「协变量」的取值,运用协方差分析方法消除其影响。本例采用「具有一个重复测量的两因素设计定量资料的一元协方差分析」处理为宜。此时将「观测时间」的水平数视为5个水平,即用药后的观测时间点数。

作者:胡良平等.医学论文中统计分析错误辨析与释疑:定量资料统计分析方法的合理选择.中华医学杂志

  • 本博客文章如未特别说明,皆为本站原创,默认采用署名-相同方式共享 4.0 国际协议
  • 相关文章

    发表回复

    您的电子邮箱地址不会被公开。 必填项已用*标注