实验设计原则的正确把握:重复原则及其作用

重复原则通常有三层含义,即「重复取样」、「重复测量」和「重复实验」,实验设计中所讲的重复原则指的是「重复实验」。本文本文以实例的方式说明一下临床实验中违背重复原则和重复原则使用不当的常见情况。

实验设计原则的正确把握:重复原则及其作用

重复原则及作用

重复原则的概念

重复通常有三层含义,即「重复取样」、「重复测量」和「重复实验」。从同一个样品中多次取样,测量某定量指标的数值,称为「重复取样」;对接受某种处理的个体,随着时间的推移,对其进行多次观测称为「重复测量」。实验设计中所讲的重复原则指的是「重复实验」,即在相同的实验条件下,做两次或两次以上的独立实验。这里的「独立」是指要用不同的个体或样品做实验,而不是在同一个体或样品上做多次实验。整个实验设计所包括的各组内重复实验次数之和,称为样本大小或样本含量。

重复原则的作用

同一个实验条件下为何要做多次独立的重复实验呢?只做一次不更节省时间柏费用吗?

关键在于观测的结果是否具有变异性,若对每一个正常人观测其有多少个手指,只需观测一个人即可,因为每个正常人的手指都有10个,它是一个不具有变异性的定量指标。若对每一个正常入观测其血小板的含量是多少,仅观测一个人就作出关于正常人血小板含量为多少的结论显然是可笑的,因为每个正常人血小板含量是不尽相同的。只有观测了大量正常人血小板的含量后,其取值规律性才有可能表现出来,初步的印象是取值接近该组被观测的全部受试者算术平均值的人较多,取值偏离此均值较远的人较少,取值特别小和特别大的人就吏少了。即便这样一种非常简单的规律,也只有在进行了大量重复实验之后才能够表现出来。

由此可如重复原则的作用就在于它有利于使随机变量的统计规律性充分地显露出来。

违背重复原则的案例

例1 两台仪器测定结果之间的差异性研究

有人为了说明某两台仪器测定的结果之间的差别没有显著意义,选择一个健康人作为受试对象。先用A、B两台仪器分别对该人重复测4次。一个月后再用A、B两台仪器分别对该人重复测4次。测定的定量指标有3个,其中有一个指标是「二尖瓣前叶EC幅度」,每一个指标共获得16个数据。然后对这些数据进行方差分析和t检验,得出两台仪器测定的结果之间的差别无显著意义的结果,其专业结论是可用「自制的廉价仪器A」取代「进口的昂贵仪器B」。

对差错的辩析与释疑

此人将「重复取样」、「重复测量」与「独立重复实验」混为一谈。

同一个时间点,用一台仪器重复测定一个人4次,这实际上是「重复取样」,其数据波动反映了测定者技术熟练程度的高低。而在一个月前后对同一个人进行重复测定叫做「重复测量」,其作用是考察受试者接受某种处理后,随着时间推移,受试者体内某些指标的动态变化趋势。

在本例中第一次测定之后,对受试者没有什么影响,间隔1个月后冉对此人进行测定,仅仅反映了指标的生理变化,没有任何实际意义。在本例中尽管每个定量指标有16个原始测定值,但真正的样本大小n还应该等于「1」,即独立的受试对象的个数。

这种将「个案」推广到「一般」的做法,严重地违背了实验设计的「重复原则」,其后果是使所观察的随机变量(即带变异性的指标)的规律性无法真实地显露出来,易于得到错误的结论。

例2 甲紫注入小型猪正常腮腺后组织病理变化情况研究

有人选择6月龄、体重20~25kg的中国实验用小型猪15只,雄性9只、雌性6只。每只动物任选一侧腮腺为实验侧,另一侧作为正常对照,以消除个体差异及增龄对实验结果的影响。按注入甲紫后1周、2周、1个月、3个月及6个月将15只动物随机分为5组,每组3只(每个组的3只动物分别随机注人0.6ml、1.0ml及4.0ml的1%甲紫溶液),然后观察组织病理变化情况。试问此项实验研究中违背了实验设计的什么原则?

对差错的辩析与释疑

本实验研究共用了15只小型猪,初看起来「15」这个数目不算太小。但仔细看一下不难发现,实验中共涉及两个实验因素,第1个因素是「甲紫作用时间」,它有「1周、2周、1个月、3个、及6个、」5个水平;第2个因素是「甲紫剂量」,它有「0.6ml、1.0ml及4.0ml」3个水平。这两个因素水平的全面组合共有15种情况,每种情况构成一个特殊的实验条件,每个条件下仅有一只动物,即各组的样本大小n=1,这就违背了实验设计中的「重复原则」。因为生物医学研究的现象常带有变异性,只有在相同实验条件下进行多次独立重复实验,随机现象的变化规律性才能正确地显露出来。

那么各小组究竟应该用几只动物合适呢?严格地说,需要根据预实验或文献资料提供的信息,结合研究者对实验精确度的要求,并根据拟采用的实验设计类型,按估计样本大小的相应公式计算为宜。

一般情况下,若不便用公式估算时,如果是小动物实验(来源方便,花费不太大),各小组动物数不少于10只为宜。若是较大动物实验,各小组动物数不少于5只为宜。这里所讲的「各小组」,是指实验中独立的实验条件所决定的每个小组,如本例中是指在一个特定的甲紫作用时间下同时在一个特定的剂量下所形成的实验组,即本例共有15个小组。类似的例子在学术期刊的论文中并不少见,n=2和n=3的例子就更多了。

例3 PCR快速检测冠状病毒的研究

新华网北京2003年4月17日电(记者XXX):卫生部医药生物工程技术研究中心与广州市疾病控制中心科技人员合作,已成功建立荧光定量PCR快速检测冠状病毒的新技术。这一技术是卫生部、科技部「非典型肺炎防治紧急科技行动」成果的一部分,有望为非典型肺炎的早期快速诊断提供可靠的实验诊断指标。

卫生部医药生物工程技术研究所XXX教授17日在向新华社记者介绍这项成果时说,运用这项新技术,从采取病人样品到报告结果可在2小时内完成,能够实现对病毒基因的准确定检测,可反映疾病的发生、发展过程。PCR是一种体外基因复制技术,可在几小时或几十分钟内把基因扩增到数百万倍以上,使基因便于检测。XXX教授说,通过对广州市疾病控制中心提供的4例患者培养物和嗽口液均检测出冠状病毒核酸,而3例确诊不是非典病人的样品均未检出。另外,30例健康人的嗽口液全部未检出冠状病毒核酸,经过对4例冠状病毒阳性样品基因扩增片段测序结果分析,与加拿大和美国公开发表的冠状病毒基因序列比较同源性为100%。

对差错的辩析与释疑

众所周知,PCR检测的结果并非100%准确,也就是说,在其检测结果中可能会出现假阳性和假阴性的结果。既然如此,就不应将PCR检测的结果视为「确定性现象」,而是一个「随机事件」,欲反映随机变量的变化规律性就必须做大量的重复试验,才有可能显示出其变化规律性。

仅检测4例非典病人的样品和3例疑似并最后确诊为不是非典病人的样品,就对此检测方法的准确性给予充分的肯定,是很不科学的态度,其结论的可信度较低。笔者曾处理过一份类似的实验资料,用PCR检测115份非典病人的样品,检测出冠状病毒为阳性的样品数为100份,即该方法的阳性检出率约为87%(100/115)。

例4 维甲类化合物Ro13-7410对HL-60细胞凋亡及分化诱导作用

原作者的设计如下:将HL-60细胞制成浓度为1×105/ml的细胞悬液,加人不同浓度(10-6、10-7、10-8、10-9mol/L)的药物Ro13-7410,于给药后不同时间点(0、1、2、3、4、5d)染色后行活细胞计数,并做空白对照,得到30个数据。未作统计分析,仅根据数据的太小得出结论,10-6~10-9mol/L的Ro13-7410可明显抑制HL-60细胞增殖。

对差错的辨析与释疑

本实验涉及两个实验因素,即浓度和时间,其中浓度有5个水平(0、10-6、10-7、10-8、10-9mol/L),时间有6个水平(0、1、2、3、4、5d),两个因素各水平完全组合形成30个实验点,每个实验点仅做了一次实验,如果实验因素间存在交互作用,此时却无法分析两因素交互作用效应的大小。

由于测得的30个数据来自同一细胞群,且在两因素不同水平的组合条件下测得,具有一定的相关性,因而将此实验视为具有两个重复测量的两因素设计比较妥当。需要增大实验批次,每个实验点最少安排两批实验,有条件的,可多安排几批实验,采用与此设计对应的方差分析方法处理数据,不仅可以消除数据之间相关性的影响,还可以全面分析各因素及因素之间可能存在的交互作用的效应,可以降低实验误差,提高检验效能,得出的结论更稳定可靠。

例5  重量法测定血苯-白蛋白加合物的初步研究

用气-质联仪(GC-MS)测定血液中的苯-白蛋白加合物,由于采用昂贵的仪器和同位素内标物,在一般实验室难以进行。本研究采用重量法测定,并与GC-MS法进行比较,同一标样用GC-MS法测3次,重量法测7次,分别为1.9±0.1(mg/ml)和2.0±0.1(mg/ml),经t检验,平均值之间差异无显著意义(P>0.05)。

差错的辩析与释疑

原作者的目的是检测两种方法测量结果是否具有一致性。但实际检测时,仅做了一个标样,并且仅对这一个标样进行了重复取样,表面上有若干个数据,但实际上这些数据均来自于一个样品,并不能很好地代表不同浓度样品所任的总体,这样做仅能得出对这一标样的多次重复取样结果的准确性高低,并不能推论到一般样品中去。

应根据专业知识合理确定标样的浓度范围,选定多个标样用目前被公认的测定方法和重量法同时进行测量,并选用合适的统计分析方法(如直线回归分析,其零假设与备择假设分别为总体斜率β=1与β≠1,而不应采用对均值进行假设检验的t验),这样才能推论两种方法测量结果是否具有一致性。

例6 不合格采样及送检导致生化指标波动原因的探讨

原作者分析化验室检测结果波动的4个因素。第1个因素是葡萄糖盐水输液,同侧采血和异侧(正常)采血的生化检测结果差异,用病房病人2次结果比较。结果显示同侧采血时,对肌酐、尿酸等7项指标均有30%~200%的波动,其中血糖和氯的波动尤为明显。第2个因素是样本溶血和正常标本生化指标的差异,用病房病人2次结果比较。结果显示标本溶血时,其中19项生化测定项目均有波动。第3个因素是时间依赖性项目在抽血后3种不同时间送检引起结果的差异,用1个病人的血样说明血氨在不同时间送检结果不同。第4个因素是抽血管错误,应该用血清管,但用了枸橼酸钠抗凝管后,造成生化结果波动。用5例病人两种不同抽血管的化验结果的变化率来说明差异。

对差错的辨析与释疑

原作者所说的「用病房病人2次结果比较」这句话很含糊,这里的「2」代表什么含义不清楚,容易使人理解为n=2。第1个因素含有2个水平,即同侧采血与异侧采血,仅用2次不同采血检测结果的变化率说明差异,实验次数太少不能说明两种采血方式是否有差异。第2个因素也含有2个水平,即溶血样本和正常标本,同样也用2个样本检测结果的变化率说明差异,实验次数太少不能说明两样本检测结果有差异还是没差异。第3个因素含有3个水平,即抽血后立即送检、1h后送检、2h后送检,仅用1个样本检测结果的变化率说明差异是没有说服力的。第4个因素含有2个水平,即血清管和枸橼酸钠管,是用5例病人使用不同采样管检测结果的变化率来说明差异的,数据个数虽不算太少,但未对数据进行统计学处理,是不便作出任何肯定或否定结论的。

化验室检测结果不同与送检样本是否合格是有关系的。原作者根据工作经验用4个可能导致化验结果不准确因素来说明问题是对的,但是每个因素仅用1到2个样本来说明问题,无法降低实验误差,得出的结论不可靠。

第1个因素含有2个水平,即同侧采血与异侧采血,每种采血方式至少5~10个,利用配对设计定量资料的t检验(差量近似服从正态分布时)或符号秩检验(差量不服从正态分布时)进行统计分析,得出P值,如果P<0.05,说明同侧采血与异侧采血的检测结果之间的差别有统计学意义,应选择正常的采血方式即异侧采血。第2个因素和第4个因素的处理方法同第1个因素一样;第3个因素是含有1个实验因素3个水平的实验研究,即抽血后立即送检、1h后送检、2h后送检,样本含量同上。

若将每次抽取的样品一分为3,分别在3个时间点送检,则属于「具有一个重复测量的单因素设计资料」;若各次送检的样品是互相独立的,则属于「单因素3水平设计资料」。这两种情况下的定量资料若满足参数检验的前提条件,应选用相应设计资料的方差分析处理。如果处理因素各水平下的总体均数所对应的结果为P<0.05,再用「Dunnett t检验」方法进行比较,即将1h后送检、2h后送检分别与抽血后立即送检比较。若3个时间点之间作两两比较,可以选用「q检验」等方法,从而作出科学的结论。

作者:胡良平等.医学论文中统计分析错误辩析与释疑:实验设计原则的正确把握.中华医学杂志

1+
  • 本博客文章如未特别说明,皆为本站原创,默认采用署名-相同方式共享 4.0 国际协议
  • 相关文章

    发表评论

    电子邮件地址不会被公开。 必填项已用*标注