前面说了定性资料如何合理选择统计方法及常见错误分析,本文继续介绍一些误用t检验和χ2检验处理定性资料的错误实例,并对错误的性质和产生的不良后果作详细地分析 , 同时 , 给出正确的统计分析方法和计算结果。
误用 t 检验处理双向无序列联表资料
例:原文题目 :『幽门螺杆菌 vacA 基因型与胃癌及癌前病变的相关性』,原作者目的是分析胃癌高发的西安地区幽门螺杆菌 ( Hp) 分离株空泡形成毒素基因(vac A) 的基因型与胃癌及癌前病变的相关性。
从 259 例胃黏膜活检标本中共培养 Hp192 株,然后对 Hp 进行 vac A 基因分型(表 1) 。实验结果以t 检验进行处理。结论认为:胃癌与胃溃疡、慢性胃炎在 s1a 表达上差异有显着意义,但与异型增生、肠化生及十二指肠溃疡差异无显着意义。
对差错的辨析
本资料属于双向无序的列联表资料,资料的性质是定性的,原作者误用一般只分析定量资料的 t 检验进行定性资料统计分析,不知原作者把哪些数据代入t检验公式进行计算的,令人费解。另外,表1是不太符合编制统计表的正规要求的。误用统计分析方法而得出的结论是不可信的,有些结论是不正确的。
释疑:原作者目的是为了观察s1a在各种疾病中的表达是否存在差异。根据资料的类型应选用一般χ2检验进行统计分析,但是由于理论频数<5的格子数大于总格子数的1/5,因而并不适合直接进行χ2检验,如果直接进行fisher的精确检验,由于计算量太大,程序长时间运行不能得出结果来。
因而考虑根据专业知识,对表中的数据进行合并,CSG和CAG均属于胃炎,经fisher的精确检验,CSG、A、IM、Dys的各基因表达构成之间的差别无显着意义,因而将各行的数据求和。同样道理GU和DU均属于溃疡,检验后将各行的数据也加在一起,重新整理成表,见表2。
进行χ2检验,得χ2=111847,P=01019,可以认为三种不同类型疾病其s分型表达的频数分布之间的差别具有显著意义。
如要进一步进行两两比较可以采用χ2分割的方法,首先胃炎和溃疡组进行比较,χ2=0.167,P=0.92,可以认为两组之间s分型表达构成之间的差异无显著意义,可以进行合并,合并后的胃炎、溃疡组再和胃癌组进行比较,χ2=11.673,P=0.003,两次分割χ2检验的χ2值之和等于11.840≈11.847,自由度之和也等于总的自由度之和,因而可以认为这样分割是合理的;若将每次假设检验的显著性水准定为α=0.05,则分割后检验的水准应调整为α′=α/2C(C为比较次数,本例为2α′为单侧概率,这是要求比较严格的做法),即α′=0.05/4=0.0125。因算得的P值为01003(α′=0.0125,故可以认为:胃癌组与「胃炎+溃疡」组s分型表达的人数构成之间的差别具有显着意义,胃癌s1a表达的百分比(76.8%=43/56)要高于胃炎、溃疡两种疾病相应的百分比(50.0%=68/136)。
误用t检验处理单向有序列联表资料
例:原文题目『臀部注射硬结物理治疗比较』,原作者采用3种疗法治疗臀部注射硬结(表3)。各组治愈率比较,超声碘离子透入与红外线,t=3.03,P<0101,差异有非常显着意义,音频电与红外线,t=2.04,P<0.05,差异有显着意义,超声碘离子透入与音频电,t=1.62,P>0.05,差异无显着意义。
对差错的辨析
本资料的结果变量为疗效,其取值分别为治愈、显效和有效,具有一定顺序,因而应属结果变量为有序变量的单向有序列联表资料。
原作者采用一般分析定量资料的t检验进行统计分析,并进行两两比较,是十分错误的。
释疑:适合分析单向有序列联表资料的统计分析方法有秩和检验及Ridit分析等,本资料经秩和检验,得:Hc=5.5065,P=0.0637>0.05。进行Ridit分析,3组平均Ridit值分别为0.4397、0.4791和0.5924,其所对应的U值分别为:1.2151、0.5707和1.9247,P值均大于0.05,故尚不能认为3组疗效的差别具有显着意义。
误用χ2检验分析单向有序的列联表资料
例:原文题目:『果糖二磷酸钠治疗新生儿缺氧缺血性脑病的疗效观察』,为了研究果糖二磷酸钠治疗新生儿缺氧缺血性脑病的疗效,随机分为观察组和对照组,观察组用果糖二磷酸钠,对照组用胞二磷胆碱。治疗效果分为无效、有效和显效3个等级,见表4。
原作者进行一般χ2检验,χ2=4174,P<0105,认为两组疗效之间的差别有显着意义。
对差错的辨析
此资料中原因变量(组别)是名义变量,结果变量(疗效)是有序变量,因而属于结果变量为有序变量的单向有序列联表资料。因一般χ2检验与变量的有序性没有联系,用一般χ2检验进行分析,得到的结论是两组患者在3个疗效等级上的频数分布是否相同,而不能得出两组疗效之间的差别是否具有显着意义的结论。
释疑:适合分析单向有序列联表资料的统计分析方法有秩和检验或Ridit分析等。
本例采用秩和检验进行统计分析,其结果为:Hc=2.8107,P=0.0936。不能得出两组疗效之间的差别有显着意义的结论。另外需要指出的是,原作者按一般χ2检验进行计算,得χ2=4.74,但由于本资料是2×3列联表,其自由度df=(行数-1)×(列数-1)=(2-1)×(3-1)=2,查χ2界值表,4174<χ20.05(2)=5.99,P>0.05,也得不出「P<0.05」的结果。
即使原作者概念清楚,分析的目的是想考察两组患者在各疗效等级上的频数分布是否相同,也因计算和判断错误而错误地推翻了原假设(即两组患者频数分布相同)。
误用χ2检验分析双向有序且属性相同的列联表资料
例:原文题目:『中老年职工最大呼气流量与工作能力的关系』,采用工作能力指数(WAI)法和75%肺活量位最大呼气流量(V75)法评价285名中老年职工的工作能力,并将他们的工作能力划分为差、中、好3个等级,结果见表5。采用χ2检验,χ2=11.0185,P=0.026。认为WAI分级与V75分级具有较好的一致性。
对差错的辨析
采用两种方法分别测定同一人群,测定结果都分为差、中、好三级,从资料类型看,应属于双向有序且属性相同的列联表资料。原作者用χ2检验,无法回答两种方法测定结果是否一致,只能回答两种方法之间是否独立,由于P=0.026<0.05,说明表中三行上的人数分布是不完全相同的。
释疑:原作者目的是想分析这两种测定方法的检测结果之间是否具有一致性,因而应采用与之相对应的一致性检验,即Kappa检验。经计算,得:k=0.072,Sk=0.044,U=k/Sk=1.645(U0.05=1.96,P>0.05,尚不能认为两种方法评价的结果之间的一致性具有统计学意义,即不能用一种简便的且结果不够准确的评价方法去取代另一种较复杂且结果更准确的方法(假定两种评价方法之间的不同点就在于此)。
误将部分合计值当作原始频数代入公式计算
例:有些人在表达四格表资料时常采用表6的形式,并直接用表6中的4个频数代入分析四格表资料的χ2检验公式计算,这样做对吗?
原作者用一般χ2检验计算公式算得:χ2=7.48,P<0.05,结论为螺纹管消毒前后合格率之间的差别有统计学意义,消毒后的合格率明显高于消毒前。
对差错的辨析
本例将螺纹管消毒前、后的「采样份数20」当作2×2表中的原始频数(注:这两个「20」是两个组各自的合计数),代入一般χ2检验公式计算,这是不妥的。
释疑:四格表中的原始频数应当是两组的「阳性数」与「阴性数」,而不应当是「部分合计数」与「阳性数」。为避免出错,将表6改成表7的形式为好。
因χ20.01(1)=6.635,χ2>6.635,P<0.01,拒绝H0(即螺纹管消毒前后的合格率相等)。
专业结论:螺纹管消毒前后的合格率之间的差别有统计学意义,即消毒后的合格率(90.0%)高于消毒前的合格率(15.0%)。
配对设计定性资料错误地按成组设计列表
例:在本文上一例子中,若消毒后的20份螺纹管就是消毒前的那20份螺纹管,那么用表6或表7的形式表达资料对吗?
对差错的辨析
表6和表7都是按成组设计形式来表达定性资料的,若实验果真如上所述,则该实验研究实际上属于配对设计问题,用表6和表7的形式表达都是错误的。
释疑:应该按配对设计定性资料的形式来表达资料(表8)。
若严格按配对设计形式收集定性资料,则表8中的a、b、c、d 4个数就能准确填出来,此时,可用McNemarχ2检验公式(即χ2=(|b-c|-1)2/(b+c))来分析表8中「b」与「c」两数(即消毒前与消毒后结果不一致的螺纹管数目)之间的差别是否具有统计学意义,其中「b」为消毒前合格而消毒后反倒不合格的数目(消毒过程中被污染了),「c」为消毒前不合格而消毒后合格的数目(消毒真正达到了预期的目的)。
值得注意的是:比较两种检测方法的检测结果是否一致,原本属于配对设计问题,但人们在收集资料时常按成组设计形式列表,这样就将配对设计问题人为地转化为成组设计的问题了,通常都会降低检验的功效。
误判资料类型,误用定量资料统计分析方法
例:原文题目『美泰宁对睡眠作用的影响』,原作者研究美泰宁对戊巴比妥钠诱导的小鼠睡眠的影响,选用40只体重相近的雄性小鼠,随机分为溶剂对照组和3个剂量组,即0.0、12.5、25.0、75.0mg/kg体重,用蒸馏水配成所需浓度,每天灌胃。第7天灌胃15min后,给各组动物按28mg/kg体重剂量腹腔注射戊巴比妥钠,以小鼠翻正反射消失达1min以上作为入睡判断标准,观察给戊巴比妥钠25min内各组发生睡眠的动物数。经统计学处理,中、高剂量组与溶剂对照组比较差异有非常显着性(P<0.01)。具体结果见表9。
对差错的辨析
统计资料常常分为定量资料和定性资料两大类。所谓定量资料是指对每个观察单位用计量方法测量某项指标所获得的数值;而定性资料是指记录每个观察单位的某一方面的特征和性质。本资料观察的是动物的入睡情况,原作者把每组入睡的每一只动物记为1,不睡的动物记为0,这样第一组有2个1,8个0,第二组有5个1,5个0。
原作者对第一组和第二组各10个数据进行t检验,得t=1.406,P<0.05(经验算,就计算本身而言,原作者的计算结果是正确的)。但实际上这里的「1」并不代表真正的数值,它只是代表一种状态,即入睡,而「0」则代表没有入睡,因而本资料从性质上说应属于定性资料。
但原作者却错误地将其判断为定量资料,表的标题后括号内写了「均数±s」,但实际上表中并没有给出平均数和标准差的数据,反而误导读者认为该资料是定量资料。一般来说,t检验仅适于分析来自「单组设计、配对设计和成组设计」的定量资料,用分析定量资料的方法去分析定性资料,显然是错误的。
释疑:正确判定统计资料属于定量资料还是属于定性资料是选用统计分析方法的首要前提。本资料属于定性资料,应根据分析目的,合理选用适合此类资料的统计分析方法(如Fisher的精确检验)进行统计分析。
例:原文题目『老年患者静脉保护措施应用的临床观察』。原作者将内科住院的老年患者随机分为对照组和实验组,每组100例。对照组输液操作按『医疗护理技术操作常规』密闭式输液术的要求;实验组在此基础上实施系统性静脉保护措施。观察液体外渗、静脉炎及血栓性静脉炎等并发症情况(表10),结果显示:实验组3项并发症的发生率明显低于对照组,经t检验,t=2.996,P<0.005,差异有统计学意义。
对差错的辨析
上表中的数据并不代表实际测量的数值,而是发生某种并发症的频数;研究目的也不是对两组人数的均值进行比较,而是比较各并发症的发生率。因而本资料从性质上看应属于定性资料,并不适合用一般分析定量资料的t检验进行分析。原作者不分资料类型和分析目的,盲目套用t检验,将实验组中的2、2、0三个数据与对照组中的21、28、8三个数据代入t检验计算公式进行t值的计算,是没有任何意义的。
释疑:由于各并发症并不是完全独立的,发生液体外渗并发症的患者也有可能发生静脉炎,因而此资料并不适合采用2×3列联表的χ2检验进行分析,而应该对每一并发症的发生率单独进行比较。如比较静脉炎的发生率,可整理出以下四格表(表11)。
若希望对表11资料进行统计分析,合适的统计分析方法为「四格表资料的一般χ2检验」。经计算,得:χ2=26.510,P=0.001,故可以认为实验组与对照组静脉炎发生率之间的差异具有统计学意义,实验组静脉炎发生率(2%)要低于对照组静脉炎发生率(28%)。其他并发症发生率的比较类似,此处从略。
作者:作者:胡良平等. 医学论文中统计分析错误辨析与释疑--定性资料分析方法的合理选择系列文章. 中华医学杂志