定量资料分析方法的合理选择:析因设计的统计方法及常见错误辨析与释疑

1 星2 星3 星4 星5 星 (觉着不错就给个五星呗)
  • A+
所属分类:研究方法

析因设计也叫做全因子实验设计,其最大优点是所获得的信息量很多,最大缺点是所需要的实验次数最多。如何对析因设计进行统计分析,避免发生统计上的错误,本文作一介绍。

什么叫做析因设计

析因设计也叫做全因子实验设计,就是实验中所涉及到的全部实验因素的各水平全面组合形成不同的实验条件,每个实验条件下进行两次或两次以上的独立重复实验。

析因设计的最大优点是所获得的信息量很多,可以准确地估计各实验因素的主效应的大小,还可估计因素之间各级交互作用效应的大小。其最大缺点是所需要的实验次数最多,因此耗费的人力、物力和时间也较多,当所考察的实验因素和水平较多时,研究者很难承受。

析因设计还有3个明显的特点

其一,它要求实验时全部因素同时施加,即每次做实验都将涉及到每个因素的一个特定水平(注:若实验因素施加时有「先后顺序」之分,一般被称为「分割或裂区设计」);

其二,因素对定量观测结果的影响是地位平等的,即在专业上没有充分的证据认为哪些因素对定量观测结果的影响大、而另一些影响小(注:若实验因素对观测结果的影响在专业上能排出主、次顺序,一般就被称为「系统分组或嵌套设计」);

其三,可以准确地估计各因素及其各级交互作用的效应大小(注:若某些交互作用的效应不能准确估计,就属于非正规的析因设计了,如分式析因设计、正交设计、均匀设计,等等)。

误用t检验处理析因设计的定量资料

例:原文题目:『营养不良对幼鼠癫痫持续状态后海马神经发生影响的研究』。为探讨发育期营养不良伴发癫痫持续状态对海马神经发生的影响,将28只新生Wistar大鼠建立模型分为4组,分别为营养良好组,营养不良组,营养良好+惊厥组,营养不良+惊厥组,每组7只,测量各组齿状回Brdu阳性细胞数,并采用t检验比较各组的差异是否具有统计学意义,设计和资料见表1。

定量资料分析方法的合理选择:析因设计的统计方法及常见错误辨析与释疑

对差错的辨析

本资料有4个实验组,实际上涉及到两个实验因素,一个因素是「是否营养不良」,其有两个水平:是、否;另一个因素是「是否伴惊厥」,其有两个水平:是、否。两个因素各有两个水平,它们互相组合,得到4个实验组,见表2。

定量资料分析方法的合理选择:析因设计的统计方法及常见错误辨析与释疑

从实验设计类型上讲,本例应为析因设计类型的资料,而原作者在统计分析时忽略了这种组合关系,只是拿来两组一味地用t检验进行比较,这是错误的分析方法。因为t检验只能分析单组设计、配对设计和成组设计的定量资料,其只涉及一个因素,且这个因素最多只有两个水平。

误用t检验分析较复杂设计的定量资料至少具有以下几个缺点

(1)割裂了整体设计,每次进行t检验时,都会用不同的误差作为比较的尺度,尺度不统一,缺乏可比性;

(2)资料的利用率低,作t检验时,每次只用部分数据,此时资料的利用率降低;

(3)误差的自由度变小,结果的可靠性降低,自由度在检验统计量中的作用相当于权重,权重越小,意味着由该统计量作出的统计推断越不可靠;

(4)增大了犯假阳性错误的概率,多次两两t检验,根据概率原理,会明显增大犯假阳性错误的概率;

(5)无法分析因素之间可能存在的交互作用的大小,有可能得出错误的结论。

释疑:正确判断资料所涉及的因素及水平组合关系是确定资料设计类型的关键所在。本资料属于两因素析因设计的定量资料,当资料满足正态性和方差齐性时,应采用与其相对应的方差分析方法进行统计分析,可以分析出各因素及其可能存在的交互作用的效应来;若资料不满足参数检验的前提条件,应设法找到合适的变量变换方法再对变换后的资料进行相应设计定量资料的方差分析为宜。

例:为观察764-3(丹参有效成分,晶体)对低氧性肺动脉高压及右心室肥厚等是否有保护作用。进行了如下的实验:取180~220g雄性Wistar大鼠141只,随机分为3组,即正常对照组、单纯低氧组(复制常压低氧性肺动脉高压大鼠模型)、764-3处理低氧组(于每次低氧前皮下注射764-3)。每组再分为4个小组,分别于3、7、14、21d时处死大鼠,测量相关指标的数值,结果见表3(仅列出部分作为例)。

定量资料分析方法的合理选择:析因设计的统计方法及常见错误辨析与释疑

对差错的辨析

严格地说,本例的实验设计有错误,因为「组别」下面的3个组不是一个标准的「单因素3水平设计结构」,3组同时比较时是不具备可比性的,若在实验之前,再多考虑一个“单用「764-3」组,此时的4个组就是一个标准的「两因素析因设计结构」,再配上表头上的实验因素「时间」,就是一个标准的「三因素析因设计」了。

将「组别」下的3个组近似地视为「单因素3水平设计」时,表3所对应的实验设计就是一个两因素析因设计,一个因素是处理方式,分为3个水平(不处理、低氧、低氧+764-3);另一个因素是处理后继续喂养的时间,分为4个水平(3、7、14、21d)。

研究者对组与组之间的比较同样采用了t检验,这是不合适的。另外,表中未反映出各组样本含量的大小;选用标准误「SE」作为变异指标,不能很好地反映各实验条件下实验结果的波动大小,选用标准差更合适一些。

释疑:若资料满足正态性和方差齐性,上述资料应采用两因素析因设计定量资料的方差分析;若资料不满足参数检验的前提条件,应设法找到合适的变量变换方法再对变换后的资料进行相应设计定量资料的方差分析为宜。

例:某研究者收集到调查资料,见表4,数据用SAS软件在IBM486微机上进行方差分析及t检验。

定量资料分析方法的合理选择:析因设计的统计方法及常见错误辨析与释疑

图像测试分析结果:内膜细胞核数密度在15~19岁组,三地区男性细胞核数密度分别为北京3972个/mm2、宁波3978个/mm2、南宁3501个/mm2,他们之间无明显差异,均有随年龄增加而逐渐降低的趋势,并以北京较为明显。到35~39岁组,北京为2391/mm2、宁波为2787/mm2、南宁为2707/mm2,与15~19岁组相比分别降低了39.8%、29.9%和2217%,在15~19岁组,三地区女性细胞核数密度分别为北京3312个/mm2、宁波3670个/mm2、南宁3888个/mm2,其年龄性别变化均不明显,到35~39岁组北京为2915个/mm2、宁波为3318个/mm2、南宁为3492个/mm2,与15~19岁组相比分别降低了12.0%、9.6%和10.2%。

问:该资料在统计分析方面有何不妥之处?

对差错的分析

此资料中涉及到「地区(北京、宁波、南宁)」、「年龄(5个年龄段)」和「性别(男、女)」3个实验因素,故它为三因素析因设计定量资料,不适合用单因素设计定量资料的方差分析和t检验。

释疑:若资料满足参数检验的前提条件,则应选用三因素析因设计定量资料的方差分析;若资料不满足参数检验的前提条件,应设法找到合适的变量变换方法再对变换后的资料进行相应设计定量资料的方差分析为宜。

例:某医科大学病理生理学教研室研究3种因素「小鼠种别A、体重B和性别C」对皮下移植SRS瘤细胞生长特性影响的结果,A、B、C三因素各有两个水平。A分为A1:昆明种、A2:沪白1号;B分为B1:24~25g,B2:13~15g;C分为C1:雄性、C2:雌性。共选了24只小鼠,在接种后第8天测得肿瘤体积见表5,某人用t检验对该资料进行了统计分析,问这样做妥否?正确的做法是什么?

定量资料分析方法的合理选择:析因设计的统计方法及常见错误辨析与释疑

对差错的分析

用t检验处理该资料是不妥的。因为它不是单因素2水平设计的定量资料,资料中涉及3个因素,他们分别是:「小鼠种别A、体重B和性别C」,这3个因素各有两个水平,共有8种水平组合,每种组合下分别进行了3次或4次独立地重复实验,尚无充足的专业知识为依据说明哪个因素对「肿瘤体积」的影响大,每次实验都要涉及到各因素的某个水平,因此,表5所反映的实验设计应属于三因素析因设计,数据处理时,不应当将其拆分成多个成组设计采用成组设计定量资料的t检验,那样得出的结论是不可信的。

释疑:因为各实验条件下重复实验次数不一样多,故本例属于「非平衡的三因素析因设计定量资料」。若资料满足参数检验的前提条件,则应选用三因素析因设计定量资料的方差分析处理;若资料不满足参数检验的前提条件,应设法找到合适的变量变换方法再对变换后的资料进行相应设计定量资料的方差分析为宜。若用国际上著名的SAS软件来处理此资料,宜选用GLM过程(不适合选用ANOVA过程)来处理,因为GLM(一般线性模型)过程可以比较好地解决非平衡设计定量资料的统计分析问题。

作者:胡良平等.医学论文中统计分析错误辨析与释疑:定量资料统计分析方法的合理选择.中华医学杂志

weinxin
公众号
科研动力微信公众号,欢迎关注!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: