实验设计原则的正确把握:对照原则及其作用

医学实验研究一般都应设立对照组,这就是所谓的「对照原则」。本文以实例的方式说明一下临床实验中违背对照原则和对照原则使用不当的常见情况。

对照原则及其作用

对照原则的概念

医学实验研究一般都应设立对照组,这就是所谓的「对照原则」。设立对照组,实际上就是寻找一个「参照物」或「对比的基础」,因为「好与坏」、「高与矮」、「快与慢」、「长与短」等都是一事物相对于与之同类的另一事物而言的。

现在的火车速度快,但它却没有现在的飞机速度快;我们说某中学生短跑速度很快,他跑100m的速度为12s。这只是相对于一般中学生而言,若选一个同龄的参加国际奥林匹克运动会比赛的专业运动员与他相比,他的速度可能就不能算快了;一个药物的疗效如何,要看与谁比较,是与「安慰剂」比较还是与「当前市面上治疗此类疾病疗效最好的某种药物」比较,其结论是不同的,其可能产生的价值也是不一样的;某药物治疗某病的治愈率为85%,我们能说此药的疗效很高吗?

在缺乏对照的情况下,我们是无法得出这种结论的。因为假如有另1组条件非常接近的患者,没有接受过任何治疗,其结果的痊愈率为83%,那么,我们不能仅凭85%>83%就说此药确实有效。因为我们观测到的是样本的结果,而不是总体的规律。既然是样本,就不可避免地存在抽样误差,说不定下次抽样实验的结果会恰恰相反呢。

在实验研究中,只有有了具有高度可比性的对照组,并对实验数据进行科学的统计分析后,才能作出有说服力的结论来。

对照原则的作用

设立对照组的作用就在于提高鉴别能力和结论的说服力,换言之,缺乏对照的研究是没有说服力的。当然,对照不全或对照设置得不合理也是没有说服力的。

对照组的形式有多种,即自身对照(处理前、后对照)、完全随机对照(空白对照、相互对照、实验对照、标准对照)、中外或历史对照。在实际应用中,往往是多种对照形式同时运用。

缺乏对照的实例

例1 对2硝基苯葡糖苷酸钠纸片法快速检测大肠埃希菌

原作者以自行合成的葡糖苷酶底物对2硝基苯葡糖苷酸钠,试图快速检测大肠埃希菌。结果发现当大肠埃希菌菌液浓度为4×107(单位)时,需0.5h,当菌液浓度为40(单位)时,需12h;检查138株阳性菌和190株其他菌,其敏感性为9412%,特异性为9216%。结论为本法是一种快速、准确、简易和廉价的检测大肠埃希菌的方法。

对差错的辨析与释疑

原作者没有设立对照组,虽然在文中提到与环保常规法和传统方法相比,但是没有这2种方法的实验数据,况且在没有进行统计分析的情况下,下定「此法是一种快速、准确、简易和廉价的方法」的结论是没有说服力的。

本项研究属于一种新检测方法的探索研究,在传统常规方法作对照的前提下,分别测定相同样本,得出实验数据,进行相应的统计分析。

本实验适合的统计分析方法有:若是定量的观测结果,则应求直线回归方程,并对斜率进行假设检验,其无效假设和备择假设分别为:H0:β(总体斜率)=1;H1:β(总体斜率)≠1;H0:(总体截距)=0;H1:β(总体截距)≠0。

常见的不太合适的检验方法(不灵敏)为:配对设计定量资料的t检验、直线相关分析;若是定性的观测结果,常用的统计分析方法有:配对设计定性资料的McNemar χ2检验、一致性检验(或称kappa检验)。

错误的统计分析方法是:一般χ2检验、Spearman秩相关分析。

例2 银屑病发病与血型的关系探讨

原作者对64例银屑病患者进行血型观察,其中O型血30例,A型血17例,B型血17例,AB型血0例。没有进行统计分析,仅凭数字大小,认为银屑病的发病与血型有明显的关系,同时也证实了遗传致病的决定意义。

对差错的辨析与释疑

据常识,正常人群中的血型构成存在较大差异,AB型所占的比例就是最少,原作者没有对正常人群的血型分布情况进行调查,仅根据自己调查的银屑病患者血型构成相差悬殊的情况,并不能说明银屑病患者与正常人群在血型构成上存在差异,武断地作出结论是没有说服力的。

正确的做法应建立正常对照组,调查正常人群的血型分布情况,并与银屑病患者的血型分布情况进行比较,如果存在差异,则为银屑病的发病因素提供了某种线索,如果没有差异,则可以认为银屑病发病与血型构成没有关系。

例3 吡喃阿霉素在恶性肿瘤联合化疗方案中的疗效

原作者采用国内外常用的化疗方案加以改良,即以吡喃阿霉素(THP)代替阿霉素(ADM)或表阿霉素(E-ADM)治疗各种恶性肿瘤90例,其中初治病例43例,复治病例47例;肺癌46例,非霍奇金恶性淋巴瘤21例,乳腺癌10例,食管癌13例。治疗后完全缓解7例,部分缓解41例,无变化32例,进展10例,总有效率5313%。其主要毒副作用为骨髓抑制,主要表现为白细胞、血小板减少,尤以白细胞下降明显,达6212%,其他毒副反应如肝肾功能损害、脱发、心脏毒性及胃肠道反应发生率较低或程度较轻;尤其是脱发少见,仅有3例,明显低于ADM及E2ADM疗法。

对差错的辨析与释疑

原作者的主要目的是分析吡喃阿霉素在恶性肿瘤联合化疗方案中的疗效,但通篇没有提及其他疗法的疗效,更没有进行必要的统计分析,没有比较的基础,因而不能对该疗法的疗效一个准确的评价,也就失去了本文的意义,同样原作者提到64例中3例脱发,没有给出ADM及E-ADM疗法的副作用数据,没有进行统计分析就断言脱发率低于ADM及E-ADM疗法,这是缺乏说服力的。

应设立必要的对照组,如ADM或E-ADM疗法组,保证各组在重要的非实验因素(如病种、病程等)方面达到均衡,以使各组具有可比性,通过一段时间的治疗,得到试验数据。由于有了比较的基础,再加上选择了适当的统计分析方法,得出的结论就比较可信。

例4 静脉应用维拉帕米治疗快速型心房颤动的临床观察。

选择快速型房颤38例。男22例,女16例,年龄24~78岁,平均52.9岁,心室率128~179次/min,房颤持续时间2d至11年。其中阵发性房颤8例,持续性房颤30例。基础心脏病分别为:风湿性心脏病11例、冠心病10例、高血压性心脏病5例、肺心病2例、扩张性心肌病2例、甲亢性心脏病2例、先心病(房间隔缺损)2例。特发性房颤4例。心功能(NYHA)分级:Ⅰ级11例、Ⅱ级13例、Ⅲ级14例,无心功能Ⅳ级和/或预激综合征者。

用药方法:常规心电监护。维拉帕米注射液510mg加入5%葡萄糖10ml中,于5min内静脉注射完毕。如果15min后心室率减慢不显著,再予维拉帕米215~510mg静注。观察用药后5、10、15、20、30min的心室率及血压变化。疗效判断标准:显效:用药后心室率减慢>30%或心室率低于100次/min;有效:用药后心室率减慢20%~30%,但心室率不低于100次/min;无效:用药后心室率减慢<20%且心室率不低于100次/min。

结果:至30min显效27例、有效11例,总有效率达100%。说明其控制房颤之心室率起效迅速、效果可靠。

对差错的辨析与释疑

要考查一种药物的疗效如何,必须设立对照组,没有对照就无法鉴别优劣。本试验原作者未安排对照组,且未说明受试对象的选择方式。

一般说来,不同心脏病引起的房颤病例,在病情、年龄等方面相差都很大,因而不能认为他们来自同一总体,归入1个试验组不妥。合理选择对照组,对照组可选择治疗房颤的一般药物如洋地黄制剂,严格地控制重要的非实验因素,使其在各组间达到均衡一致,这样才能较好地反应实验效应的差别。对于不同心脏病引起的房颤,可适当增加各组样本数量,分开进行比较。

研究者在进行实验设计时,要根据实际情况,尤其要结合专业知识和统计学知识,多请教本专业和统计学方面的专家,集思广义,反复斟酌,这样才有可能制定出比较完善的、切实可行的方案来。

对照不当的实例

例5 肝炎灵联合丹参注射液治疗慢性乙型肝炎60例。

慢性乙型肝炎患者随机分为2组,治疗组60例,接受肝炎灵与丹参注射液联合治疗,对照组44例,接受肌苷、维生素C的治疗,2组在性别、年龄、病程、病情等方面均无显著性差异。比较2组肝功能指标恢复正常率,得出结论:两药联合应用治疗慢性乙型肝炎有良好的协同作用。

对差错的辨析与释疑

从原文中可以看出,原作者的目的是想通过两药合用看是否能增加单用药的疗效,但对照组却选择了不相干的肌苷和维生素治疗。即使通过分析治疗组比对照组疗效好,也不能得出两药合用比单用其中1种药疗效好的结论,因为原作者所选的对照组与实验设计的目的不符,并没有用单用肝炎灵作为对照。结论仅是原作者的主观臆断,是没有说服力的。

可使对照组的患者接受肝炎灵加安慰剂治疗的处理,安慰剂在剂型、外观、用量等方面与丹参注射液相同。采用双盲法进行分组和处理,可以较好地消除偏性。然后比较2组的疗效,得出的结论应为
加用丹参注射液是否能够提高肝炎灵的疗效。

例6 某人在研究某药物治疗铅中毒时的驱铅效果时,设计了如下的实验,见表1。

实验设计原则的正确把握:对照原则及其作用

对收集的实验资料进行统计分析后,原作者得出的结论为:此药有明显的驱铅作用。

对差错的辨析与释疑

本研究试图利用患者脱离现场「前、后对照」来说明此药的驱铅效果,虽然统计分析的结果清楚地显示2组之间的差别具有显著意义,但这并不能说明此药具有驱铅作用。因为患者脱离现场后即使不治疗亦有尿铅排出,实际上此研究成了具有「假对照」的研究。

如果仅有1种治疗方法需考察其疗效,就必须有不给予任何治疗的空白对照组,但在这个具体问题中显然是行不通的(违反了伦理道德),当然,进行动物实验则可采用空白对照形式;如果患者都必须接受某种治疗,那么,就必须具有2种或2种以上的不同药物。

现设有k种不同的药物,可将全部中毒患者随机地分成k组(各组例数最好相等),分别用k种不同的药物治疗,数据处理时最好采用「具有一个重复测量的两因素设计定量资料的方差分析」或以治疗前的数据为协变量的值,采用单因素k水平设计资料的协方差分析。

例7 高血压病患者肾脏早期损害指标的探讨。

原作者探讨高血压患者早期肾脏损害的诊断方法。研究对象为74例高血压患者,男43例,女31例,平均年龄61岁(40~73岁);对照组为53名体检健康的职工。

对差错的辨析与释疑

年纪越大的人得高血压病的机会越大,即年龄对高血压的影响具有重要作用,而对照组并未说明健康人的年龄段。

在实验设计时,应结合专业知识,考虑重要的非实验因素对实验结果可能带来的影响,以免考虑不周。本实验应在实验设计时,考虑年龄这个影响因素,对照组应选取年龄与实验组年龄相近的健康人群。

例8 血清高敏C2反应蛋白在心血管病变中的表达特性。

原作者探讨心血管病变血清高敏C2反应蛋白的表达特性。采用胶乳增强免疫(超敏)比浊法,定量检测健康对照组340名,男191名,女149名,年龄19~72岁(排除明显炎症感染个体);冠脉造影患者341例,男245例,女96例,年龄29~80岁;急性心肌梗死患者86例,男70例,女16例,年龄42~89岁。在健康对照组年龄分组中,50岁以上的人数只有20名。

对差错的辨析与释疑

根据常识,心血管系统疾病大都发生在年龄较大的人身上,就是说年龄越大心血管病患者就越多,健康人年龄分组50岁以上人数大大少于其他组。应在实验设计时,结合专业知识,使各年龄段分组例数都应具有可比性,本资料健康人对照组应多选取年龄较大的人,以便增强实验组与对照组在「年龄」这个重要的非实验因素上的均衡性,这样在各组之间相比较时则更有说服力。

对照不全的实例

例9 原作者探讨转化生长因子作为卵巢内调节物在卵巢激素分泌中的调节作用。

在无卵泡刺激素(FSH)条件下,TGF-β对颗粒细胞分泌雌二醇有轻度的刺激作用,而对孕酮分泌的影响不明显。在加人FSH后,发现FSH+TGF-β1分别提高雌二醇的分泌,而抑制刺激颗粒细胞分泌孕酮的作用,使孕酮的分泌下降可达30%以上。这些作用呈现了一定的时间和剂量依赖性。经分析TGF-β作为卵巢内调节物,参与了卵巢激素的分泌调节。

对差错的辨析与释疑

此实验研究转化生长因子在卵巢激素分泌中的作用,而原作者却在实验中考虑无卵泡刺激素条件与有卵泡刺激素条件下的结果。说不清是转化生长因子参与调节雌孕激素的分泌还是参与了雌孕激素的分泌。

此实验实际上涉及到3个实验因素,即「FSH用否」、「TGF-β1用否」、「TGF-β2用否」,如果这3个因素不是互相独立的,存在着交互作用,则宜采用析因设计,每个因素有2个水平,则有23=8种实验条件,而原文中只做了其中的3种实验条件,属对照不全。

所以除了TGF-β1+TGF-β2组、TGF-β1+FSH组、TGF-β2+FSH组外,还应考虑FSH组、TGF-β1组、TGF-β2组、TGF-β1+TGF-β2+FSH组、什么都不用组,这样在实际分析时就能将三因素之间可能存在的交互作用的效应反映出来,用表格的形式则一目了然,见表2。

实验设计原则的正确把握:对照原则及其作用

从表2中可以看出三因素的组合情况,并按三因素析因设计资料所对应的方差分析当资料满足参数检验的前提条件时进行统计处理。

例10 有人研究某杀虫药对粮食污染的严重程度

作者用某种动物作为受试对象,实验分组如下:① 用污染米作饲料;② 用污染带糠皮米作饲料;③ 用未污染米作饲料。将全部受试对象完全随机地分入3个实验组中去,每组均有足够多的受试对象。实验一段时间后,测定动物体内某些定量指标,以反映本地区粮食污染程度。

对差错的辨析与释疑

本实验设计虽然比较全面地按照实验设计的四项原则进行实施,但在对照组的设立上存在「对照不全」的问题。因为当实验结果经统计学处理后有多种可能的结局,若结局是①与③之间的差异无显著意义,而②与③之间的差异有显著意义时,就判断不出是因污染引起的,还是因食用了带糠皮米造成营养不良所引起的。

在设立对照组时,不要以为只要有了对照组,其结果就一定有说服力。还必须使对照组具有完备性,即无论统计分析的结果如何,只要其他条件均符合统计学上的要求,就一定能作出比较明确的判断,不会因某些因素的水平组合不全,而使结论含糊不清。

从实验因素及其水平的角度来看,本例实际上涉及两个实验因素,他们各取两个水平,即因素A为「饲料污染与否」,它的两个水平分别是污染和未污染;因素为B「饲料类型」,它的两个水平分别是米和带糠皮米。他们共有4种水平组合,而原作者只用了其中的3种。也就是说,还应设立一个组,即④用未污染带糠皮米作饲料。这样,对照组的设立才比较完善。若用表格的形式给出,则一眼就可看出原作者的实验设计缺少了「用未污染带糠皮米作饲料」的这一组,见表3。

实验设计原则的正确把握:对照原则及其作用

例11 某人为了研究活血化癖配伍补肾中药978-1(以下简称「中药」)对小鼠放射性脑损伤的作用及分子机制。

作者以20Gy电自线(10Mev)照射小鼠全脑建立动物模型,将150只清洁型昆明鼠(由中国医学科学院肿瘤医院动物室提供)随机分为「中药+照射组」、「单纯照射组」、「对照组」,采用跳台法测定小鼠第一次受电击的潜伏期,并在9个不同时间点上对各组鼠进行了9次重复测量。得出的结论为「活血化瘀配伍补肾中药978-1具有防止学习记忆力放射性损伤的作用」。其设计与实验资料见表4。

实验设计原则的正确把握:对照原则及其作用

对差错的辨析与释疑

在本例中,研究者将动物随机地分为3组,但这3组既像单因素3水平设计,又像两因素设计。那么,此设计究竟涉及了几个实验因素呢?

看上去好像涉及到了3个因素,第1个因素是「照射剂量」、第2个因素是「用中药与否」、第3个因素是处理后「观测时间」。第1个因素有两个水平(即0Gy、20Gy),第2个因素也有两个水平(即不用中药、用中药)。若前两个因素的水平全面组合应该有四种情形,而此研究者只选取了其中的三种情形,缺少了「单用中药不照射」这种情形。这使得现有的3个实验组之间缺乏可比性(既不像标准的单因素三水平设计结构,又不像两因素析因设计结构),因为「0Gy」与「20Gy」之间比较,可以反映两个不同照射剂量之间的差异有无显著意义;「20Gy与中药+20Gy」两组之间比较,可以反映在同时接受剂量照射的前提下,「使用中药与不使用中药」之间的差异有无显著意义。但在未接受照射的前提下,「使用中药与不使用中药」之间的差异有无显著意义就不得而知了。

这个问题似乎不是研究者的研究目的,但他没有充足的理由排除:在鼠受电击后,中药本身对鼠的「潜伏期」没有任何影响。这仅仅是从动物的实验分组是否合理角度来看的,在这个资料中还涉及到重复观测的「时间」,因此这是一个「不平衡的具有一个重复测量的三因素设计」问题,这里的「不平衡」是指缺少了一个实验组。

例12 补骨1号对大鼠类固醇性骨质疏松的作用。

24只大鼠随机分成3组,每组8只。1组:正常对照组(用生理盐水灌胃),2组激素组(氢化可的松灌胃),3组补骨1号合用激素组(氢化可的松灌胃的同时加用补骨1号)。实验一段时间后,测定骨小梁面积等定量指标,经分析认为补骨1号有防治类固醇性骨质疏松的作用。

对差错的辨析与释疑

此实验涉及两个因素,即「激素用与否」和「补骨1号用与否」,如果这两个因素不是互相独立的,存在着交互作用,则第三组的效应就包括激素的效应,补骨1号的效应,以及他们共同作用的效应。本实验只安排了激素组,并没有安排单用补骨1号组,因而在实际分析时就不能将两因素之间可能存在的交互作用的效应反映出来,而有可能将交互作用的效应归结为单用补骨1号的效应。

应再安排一组单用补骨1号组,这样就有四个组,为两个因素各有两个水平的四种组合,这样的设计类型为两因素析因设计,不仅可以分析出各因素单独的效应,而且可以分析出因素之间可能存在的交互作用的效应大小。

例13 某研究者在其论着中有如下的实验分组,试分析此文中实验设计方面的错误。

为了考察阿仑膦酸防治牙槽骨吸收的效果,有人设计了如下的实验:取3~4个月龄的SD大鼠45只。将45只大鼠随机分入A~F 6个组,其中A~E组均为8只,F组5只。各组的含义如下:A组(n=8):去势+结扎+用药;B组(n=8):去势+结扎+不用药;C组(n=8):结扎+用药;D组(n=8):结扎+不用药;E组(n=8):去势+不用药F组(n=5);空白对照组(即假手术组)。

全部大鼠均在第1周和第12周重复测体重,均在第12周结束实验时测三项生化指标、测量股骨和下领骨的骨密度、测三项骨生物力学指标。数据处理是否合理暂且不说,试分析此实验设计是否正确。

对差错的辨析与释疑

原作者在实验研究中涉及到3个实验因素:第1个因素是「结扎与否」,它有两个水平,即「结扎」与「不结扎」;第2个因素是「去势与否」,它有两个水平,即「去势」与「不去势」;第3个因素是「阿仑膦酸用否」,它也有两个水平,即「用」与「不用」。这3个因素的全面组合应该有8种情况,如表5所示。

实验设计原则的正确把握:对照原则及其作用

由上面的组合可看出原作者少设计了两组,即X1组为「去势用药组」和X2组为「单纯用药组」。若实验设计选取全部8个组,就是一个三因素(或叫2×2×2)析因设计,但实际情况是缺少了两个组,既不是单因素6水平设计,不是两因素析因设计,也不是三因素析因设计。这种组合不全的设计(犯了对照不全和组间均衡性差的错误)条件下收集的数据处理起来无据可依,而且无法分析因素之间的交互作用,故其结论的可靠性大大降低。

用实验设计类型的知识指导具体的实验方案的制定,增加「去势+用药」和「单纯用药」两个实验组,使本实验成为一个标准的2×2×2析因设计。这不会增加多少实验费用,但结论的可靠性却会大大增加。

对照过剩的实例

例14 探讨猴头菇多糖对受6.25~8.5Gy射线照射小鼠的辐射防护作用。

作者将460只小鼠随机分为12组,即A1~A5组为注射猴头菇多糖组,C组为阳性对照组,B1~B6组为空白对照组。A1、A2两组每鼠给药剂量为30mg/0.2ml,腹腔注射,照前1h一次给药;A3、A4两组每只鼠给药剂量为15mg/0.2ml,腹腔注射,照前1h次给药;A5组每只鼠给药剂量为30mg/0.2ml,腹腔注射,照后1h一次给药;C组药选用盐酸胱胺,照前10min腹腔注射,每只鼠给药剂量为2.7mg/0.2ml;B1~B6分别为上述6组的空白对照组,每只鼠注射生理盐水0.2ml,时间分别同相应各给药组。每日记录各组动物死亡情况,计算30d存活率,检验其显着性。

对差错的辨析与释疑

A1、A2组的处理完全相同,同样A3、A4组处理相同,B1~B6组的处理也完全相同,实验分组的目的是为了使每组有不同的因素或水平的作用,以比较其是否有不同的试验效应。重复设置对照组,不仅造成实验动物的浪费,而且各实验组与来自同一总体的不同对照组进行比较,各对照组样本数较少,会人为地增大了实验误差,各试验组与不同的对照组比较,尺度的把握不一,并不利于结果的解释。

可将A1、A2、A3、A4组以及B1~B6组分别合并,然后再进行统计分析,这样会减少实验误差,使分析结果更可信。在实验设计时,如果每组的样本量足够的话,则完全可以把A2、A4、B2~B6组去除,以节省实验动物。

例15 某研究者为了比较A、B两种药物的疗效时,设计了4个组。

第1组为空白对照组;第2组为单用A药组;第3组为A、B药联合使用组;第4组为第3组的空白对照组。各组均用20只小鼠,观测能反映这两种药物作用效果好坏的定量指标的数值。

对差错的辨析与释疑

这个设计的错误就在于出现了「空白对照组过剩」。第1组与第4组的作用是完全相同的,仅用其中一组就可以了,白白地多浪费了20只小鼠。简单地去掉第四组,是否表明此设计就合理了呢?不!较好的做法是将第4组换成「单用B药组」,这样所形成的4个组,从表面上看似乎是「单因素四水平的设计问题」,其实是「两因素析因设计问题」。因为在实验中,涉及到「A药使用与否」,「B药使用与否」,这两个因素各有「用、不用」两个水平,他们全面组合就形成了4个实验条件。将此设计分别视为「单因素四水平的设计」与「两因素析因设计」,在「统计分析方法的选择、结果和结论」等方面都是有本质区别的,因篇幅所限,此处不便详述。

作者:李子建等.医学论文中统计分析错误辨析与释疑:实验设计原则的正确把握.中华医学杂志

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: