均衡原则是实验设计4个基本原则随机、对照、重复和均衡原则中最核心的内容,起着统观全局的作用。本文本文以实例的方式说明一下临床实验中违背均衡原则和均衡原则使用不当的常见情况。
均衡原则及其作用
均衡原则的概念
均衡原则是实验设计4个基本原则之一,可以这样说:均衡原则(包括对偏性的控制,如分层取样、盲法分组等)是实验设计4个基本原则中最核心的内容,起着统观全局的作用。所谓均衡,就是指某因素各水平组中的受试对象所受到的非实验因素的影响是完全平衡的,即这些组之间的差别完全是由于该因素采取了不同水平所致,而并非其他因素取值不同所造成的影响。
有人认为「均衡原则」可以去掉,理由是它已包含在「随机、对照、重复」3个原则之中了。这个认识是不够正确的,因为我们可以举出很多实例,他们都按这3个原则实施了,但很多组间却缺乏可比性,其实质就是无视「均衡原则」所致。因此,没有必要为了减少一个原则而招来很多麻烦、甚至可以避免的错误。
一项科研工作,在这4个基本原则中任何一个原则上出了问题,其结论很可能就是错误的;另一个关于「均衡原则」的误区就是认为「均衡等价于实验中所有组之间都具有高度的可比性」,这在多因素实验研究的场合中是不成立的。
例如人们常设计如下的实验:第1组为空白对照组,第2组为单用A药组,第3组为单用B药组,第4组为A、B药联合使用组。即使4组中的受试对象具有高度的可比性,但第1组与第4组之间的可比性也是很差的,由于他们之间的差别无法被清楚地进行解释,不知是A药的作用、是B药的作用,还是A与B药的交互作用。因为这两组之间不是一个因素两种水平影响的结果,而是「A药用否」和「B药用否」这两个因素4种水平组合中的两种极端情况,即两药都不用相对于两药都用。
均衡原则的作用
确保实验因素各水平组间不受其他实验因素或重要的非实验因素的不平衡的干扰和影响,以便使所考察的实验因素取不同水平条件下对观测结果的影响真实地显露出来。
例如当人们希望考察经常吃含赖氨酸的面包是否对少年儿童生长发育有帮助时,若在住校的某小学某班级学生中做试验,随机让该班一半学生每天上午和下午课间各吃一个含赖氨酸的面包,该班另一半学生课间不吃面包,1年后比较这两组学生的身体发育情况,从而得出「赖氨酸」有利于少年儿童生长发育的「荒唐结论」。因为课间学生肚子会有些饿,即使吃一个不含赖氨酸的面包也会有助于少年儿童生长发育,这两组学生在重要的非处理因素(即是否吃面包)方面是不均衡的,故其结论是不可信的。只有一半学生吃不含赖氨酸的面包,另一半学生吃含赖氨酸的面包(每个面包的大小应相同、制做面包的原料也应相同),其他(如锻炼身体情况、作息时间等)各方面两组学生应尽可能一致,1年结束时再比较,才有可能说明「赖氨酸」的价值有多大。
提高均衡性的策略
其一,研究设计者本身应具有较丰富的专业知识和统计学知识,对拟研究的课题的基本情况有较为全面地掌握,对相关的文献资料比较熟悉,对相关的实验技术、难点和可能出现的异常现象比较了解,并有一定的把握。
其二,实验设计方案初稿制定出来以后,研究者不仅自己要反复修改,还应请几位同行专家帮助修改,以弥补个别人在某些专业知识方面的不足,从专业角度使实验设计方案进一步完善。
其三,一般来说,经过同行专家审阅后的实验设计方案,从专业角度看是不会有太大问题的。但这并不能保证它在统计学方面是无可置疑的。
因此,请一、二位对统计学研究得较深入的统计学工作者严把实验设计方案的质量关是很有必要的。因为对于同一个问题,实际工作者与统计学工作者考虑问题的角度往往是不同的,统计学工作者能够结合具体问题和实验设计的4个基本原则提出各种可能的问题和建议,这将十分有利于修改和完善实验设计方案。
违背均衡原则的案例
例1 观察联合用药治疗大鼠早期矽肺的治疗效果
方法:石英粉尘20mg/只建立模型;采用低剂量不同抗矽药物分别治疗60d及150d后宰杀。给药组分别为克矽平、汉防己甲素、羟基磷酸哌嗪、柠檬酸铝单一用药组;克矽平+汉防己甲素、汉防己甲素+羟基磷酸哌嗪、羟基磷酸哌嗪+柠檬酸铝联合用药组。另有生理盐水正常对照组和石英阳性对照组。分别称量大鼠全肺湿重、干重,测定大鼠全肺胶原蛋白,结果见表1、表2,按单因素k(k≥3)水平设计资料进行方差分析,差异有显著意义,再进一步用q检验进行两两比较。无论是预防性治疗60d或是150d组,均以「柠铝+羟哌」和「汉甲素+羟哌」的疗效最好,明显优于单一给药组的疗效,「克矽平+汉甲素」组在150d治疗时也优于单一给药组。
对差错的辨析与释疑
原作者实验设计的目的主要是考查联合用药能否增加疗效,按单因素k(k≥3)水平设计资料进行方差分析,由于各组中并不全是单因素的每个水平,联合用药组则涉及到多个因素不同水平的组合,这样分析显然是欠合理的,即使某个联合用药组的疗效好于其他组,但表中没有列出的其他的联合用药组疗效是否会更好,则不得而知。显然,很多组之间在某些方面是不可比的,即属于「对照不全」,其本质是违反了实验设计「均衡原则」。
仔细考查此资料,不难发现此资料涉及到5个实验因素,即「克矽平用否」、「汉甲素用否」、「羟哌用否」、「柠铝用否」及「疗程」,每个因素2个水平,故应考虑采用5因素的析因设计,这样不但能分析出每个因素的实验效应,而且能够分析任意几个因素之间的交互作用效应的大小。
5个2水平因素的全面组合形成32个实验条件,每个实验条件下做2次独立重复实验(这样才能分析各级交互作用的效应),总共需要64只动物,仅比原作者所用的一半动物数(54只)多10只,研究者应该可以承受。按照析因设计资料所对应的方法进行方差分析,可以分析出任意因素及其组合的效应,找出较好的治疗方案来,由于采用了完善的实验设计方案,精确地估计和控制了误差,结果更可靠。
例2 有人在研究耐力训练与提高战士体质的关系时,设计了如下的实验
以血乳酸为主要观察指标,20名连队的战士按训练方案进行耐力训练,以机关同龄的20名战士为对照,对照组进行日常活动,观察经4周训练后,两组战士进行一定量的运动时血乳酸的变化,结果见表3。原文结论:按此方案训练能够降低运动时血乳酸蓄积,提高战士的耐力。
对差错的辨析与释疑
对照组选择不合理,对照组除训练因素外,其他应尽可能与实验组一致,而机关战士和连队的战士由于工作性质不同,体能的基础可能存在较大的差别,一开始两组之间就不具备可比性。也就是说,此实验研究违反了实验设计「均衡原则」,其结论没有说服力。此研究回答了一个问题,即耐力训练提高了战士的耐力,这种结论毫无意义。因人们早就认识到了训练和不训练不一样,而应研究不同训练方案对提高战士体质之间的差异有无显著意义,以探索最大限度地提高战士体质的最佳方案。另外,分组时,连队战士和机关战士都应随机抽取,然后将各自的总样本含量的一半随机分入实验组和对照组。
例3 血清高敏C2反应蛋白在心血管病变中的表达特性
原作者探讨心血管病变血清高敏C2反应蛋白的表达特性。采用胶乳增强免疫(超敏)比浊法,定量检测健康对照组340名,男191名,女149名,年龄19~72岁(排除明显炎症感染个体);冠脉造影患者341例,男245名,女96名,年龄29~80岁;急性心肌梗死患者86例,男70例,女16例,年龄42~89岁。在健康对照组年龄分组中,50岁以上的人数只有20人。
对差错的辨析与释疑
根据常识,心血管系统疾病大都发生在年龄较大的人身上,就是说年龄越大心血管病患者就越多,本例中健康人年龄分组在50岁以上的人数大大少于其他组。应在实验设计时,结合专业知识,各性别组样本例数、各年龄段例数都应分别接近,本资料健康人对照组应多选取年龄较大的人,这样与其他组相比较更有说服力。
例4 硬膜外注入布比卡因吗啡复合液治疗不稳定性心绞痛的临床观察
不稳定性心绞痛患者60例,随机分为3组,每组20例。3组病例性别、年龄及病程构成无显著差异。布比卡因组(A组)先胸椎硬膜外穿刺,首次注入0.5%布比卡因5ml,然后连接电脑控制微量注射泵以4ml/h速度连续给予0.0625%布比卡因,连续15.6d±2.8d(9~22d);布比卡因吗啡复合液组(B组)胸椎硬膜外穿刺后,用微量泵以4ml/h速度给予0.0625%布比卡因与10μg/ml吗啡复合液,连续12.6d±2.3d(7~16d);对照组(C组)采用内科常规治疗心绞痛的药物如消心痛、倍他乐克等连续治疗19.8d±2.6d(13~27d)。3组根据病情需要加用静脉滴注硝酸甘油。观察指标为:(1)心绞痛变化:记录每日发作次数和持续时间,以观察心绞痛症状治疗的效果;(2)心电图变化:治疗前与治疗后每天做心电图,并记录ST-T变化程度,到治疗截止时心电图恢复情况(恢复、部分恢复、无恢复);(3)观察治疗前后血压和心率的变化。
对差错的辨析与释疑
原文的目的是比较3种治疗方法的疗效,但在设计时却规定可根据病情需要加用硝酸甘油,我们知道硝酸甘油会改善心绞痛的症状,这就使得各组的效应既包括各药物的效应,又包括硝酸甘油的效应,混杂在一起,分析完毕也不能说清到底是3种药物的作用还是硝酸甘油的作用,另外,3组中各患者的治疗检测时间从7d到27d不等,一般说来,治疗的时间越长,其治疗效果就会越好。各组患者的治疗时间不等,对3种药物的疗效进行评价也是缺乏说服力的。
进行实验设计时,对混杂因素的处理特别重要,有些方案,表面上考虑了一些重要的非实验因素的均衡问题,但如果考虑不周,哪怕忽略了一个混杂因素,也会导致实验设计的失败。
应控制混杂因素的干扰,各组患者都应禁止加用硝酸甘油,如果出于治疗的需要必须加用,要注明加用的次数和剂量,以便后期统计分析时加以处理。各组患者的治疗时间应根据专业知识确定统一的观察时间,以使各组具有较好的可比性。
例5 健康儿童血清透明质酸水平
原作者系统观察了0~7岁的健康儿童血清透明质酸(HA)与年龄的关系,得出健康儿童血清HA含量与年龄之间呈密切负相关关系,r=-0.8169,P<0.01。资料见表4。
对差错的辨析与释疑
原作者在原文中说明对0~7岁健康儿童血清HA水平进行了系统观察,虽然样本含量较多,共有668名,但在各个分组中,各组样本含量差异很大。7岁健康儿童数是新生儿的7倍,违犯了实验设计的均衡性原则。本实验应使各年龄组的例数基本达到均衡状态,严格遵循实验设计的「均衡原则」会加大实验研究结果的可靠性。
另外,是否有理由保证除「年龄」因素外,没有其他因素对「指标HA」有影响?若不能保证,年龄大的儿童有较多机会接触其他危险因素,可能也导致「指标HA数值的降低」,这样,组间的不均衡性可能就更大了;在对数据进行统计处理时,还应使用原始数据直接进行统计分析,不应对资料进行分组后再做分析,这样会丢失很多有用的信息。
例6 臀部注射原形硬结物理治疗比较
臀部注射硬结117例,男62例,女55例,年龄18个月至68岁,病程1周至15年,注射硬结1cm×1cm~5cm×7cm。超声碘离子透入组30例,采用洛阳产超声药物透入机,于肌注硬结处涂以10%碘化钾软膏。音频电组55例,采用太仓产音频电疗机。红外线组32例,采用落地式红外线治疗灯,局部照射。以上各组均每日治疗1次,15次为1个疗程。疗效标准:痊愈:疼痛、硬结均消失;显效:疼痛明显消失,硬结缩小1/2以上;有效:疼痛减轻,硬结软化缩小不足1/2;无效:无明显改善(表5)。
各组治愈率比较,认为超声碘离子透入法和音频电法的治愈率要高于红外线法。
对差错的辨析与释疑
根据病理常识,硬结预后与年龄、病程及硬结本身的大小都有很大关系(年龄小、病程短、硬结小,预后相对好)。从资料可以看出,研究对象年龄跨度大(从18个月到68岁),病程差距大(从1周到15年),并且硬结的大小也存在较大的差距(1cm×1cm~5cm×7cm)。原作者对采取何种方法使重要的非实验因素在各组间达到均衡未作任何说明,只是一味地将3组拿来直接进行比较,如果均衡性原则掌握得不好,则有可能结论的可靠性不高甚至得出错误的结论。
在进行试验之前,最好进行完善的试验设计,明确所要考察的实验因素、受试对象、所观察的指标,以及对试验结果可能产生影响的重要的非实验因素,务必使各重要的非实验因素在各组间尽量达到均衡一致,这样得出的结论才具有较强的可信性和说服力。
本例可根据情况按「不平衡指数最小的分配原则」来安排实验,将重要的非实验因素划分成多个水平,将每个新就诊的患者加入各个治疗组,计算出在各种情形下的不平衡指数,找出最小的不平衡指数所在的组,说明新就诊的患者如果加入此组,各重要的非实验因素在各组间的均衡性最好。具体做法可参阅有关文献。
作者:胡良平等.医学论文中统计分析错误辨析与释疑:实验设计原则的正确把握.中华医学杂志
说面包那个例子,这个应该是证明了对照原则吧?而不是均衡。均衡应该是考虑各种体质(胖瘦),运动能力(强弱),男女等各种不同因素