统计资料的表达与描述的常见错误实例辨析与释疑之三

在科学论文中,经常需要对统计资料进行表达和描述。但是统计资料的表达与描述也常发生不当或者错误的时候。本系统以实例的方式对统计资料表达与描述常见的错误进行辨析与释疑,以期为科学论文中如何对统计资料进行正确表达与描述提供帮助。此文是该系统的第三篇。

用复式条图表达适合用线图表达的资料

例1:烟草对牙周成纤维细胞影响的实验观察

原作者用复式条图表达了资料,见图1。

统计资料的表达与描述的常见错误实例辨析与释疑

对差错的辨析与释疑

复式条图适合表达具有一个统计指标,两个分组因素的资料,横轴上先安排其中的一个分组因素,在其不同水平处再安排另一个因素。

在本例中,第一个分组因素叫「尼古丁浓度」,第二个分组因素叫「系列(注:原作者在图中未将系列的含义表达清楚)」。通常这两个因素都是名义变量,而本例中,「尼古丁浓度」为一个连续性变量。原作者为了表达紫外吸收度与尼古丁浓度之间的变化趋势,用复式条图来表达资料就割裂了「浓度」之间的「连续性」。

因而原作者所选用的统计图类型与资料类型不吻合,宜选用线图来表达资料。横轴上表示尼古丁浓度,纵轴上表示观察指标,「系列」是具有两个水平的分组因素,可根据其水平数在图中绘出两条折线。限于篇幅,修改后的结果从略。

用线图表达适合用复式条图表达的资料

例2:糖尿病牙周炎治疗后血清肿瘤坏死因子α和糖化血红蛋白的变化

其中一资料为15例2型糖尿病伴牙周炎患者,分别于牙周治疗前、后一定时间段内检测其血清肿瘤坏死因子α(TNF2α)的水平,原作者将其资料绘成了普通线图见图2。

统计资料的表达与描述的常见错误实例辨析与释疑

对差错的辨析与释疑

图2中「系列1」与「系列2」的含义不清楚,从其正文所述内容推测,可能是指「治疗前与治疗后」或「治疗后与治疗前」。线图适合表达观察指标随时间变化的趋势,而本资料放置在横轴上的项目却是「病例编号」,它是一个名义变量,因而不适合用普通线图来表达该资料。

若确实希望表达每位患者的数据,宜选用复式条图来表达,横轴上安排「病例编号」,纵轴上表示观察指标。限于篇幅,修改后的结果从略。

误用复式条图取代构成图

例3:下颌尖牙牙龄与腕骨骨龄的关系

原作者用复式条图表达了5组处于3个不同时期的样本资料的内部构成情况,资料表达形式见图3。

统计资料的表达与描述的常见错误实例辨析与释疑

对差错的辨析与释疑

图3中未将「5组」的具体含义表达清楚。在用相对数表达资料时,务必要明确:何时的相对数为「百分比(即构成比)」、何时的相对数为「百分率」。本例写的是构成比,而不是百分率。构成比的一个明显特点是属于同一整体的各项之和必须是100.0%,但从图中所显示的数据计算,有些整体内部的百分比之和不等于100.0%。如图3所示:有三组的数据之和分别是99.5%(30.0%+27.0%+42.5%)、99.7%(0.0%+10.0%+89.7%)、104.0%(11.0%+39.0%+54.0%),这些错误可能是笔误所致。图3所表达的资料适合选用5组「构成图」来表达,也可以用5个圆图组成的复式圆图或用5个百分条图来表达,但确实不适合用复式条图来表达。

计算相对数的分母过小

例4:口腔鳞癌中HPV16、18型感染和p53蛋白表达的检测研究

资料见表1。

统计资料的表达与描述的常见错误实例辨析与释疑

对差错的辨析与释疑

在表1中,计算相对数时分母太小,像百分率、构成比等相对数通常以100为基数,分母过小显得过分夸张,易失真,不但不能正确反映事实真相还往往会造成错觉。考虑到实际工作中各组样本含量很难都超过100,一般来说,如果各组观察例数小于20时不宜计算相对数,只给出各组的总数和发生某现象的例数即可。

平均与变异指标结合应用时常犯的错误

例5:龈沟液蛋白质成分的电泳分析

资料表达形式见表2。

统计资料的表达与描述的常见错误实例辨析与释疑

对差错的辨析与释疑

在表2中,带「▽」符号的数据其标准差大于平均数。「均数±标准差」是用来表达呈正态分布定量资料的,说明其数据分布的集中趋势和离散程度。从表中所给的数据可看出,带「▽」符号的数据其标准差大于均数,基本上可以认为这几组资料服从偏态分布,不适合用正态分布法说明这些资料的集中趋势和离散程度。

描述偏态分布资料的集中趋势应该选用中位数,描述其离散程度应该选用四分位数间距,其形式为「M(QR)」,M代表中位数,QR代表四分位数间距,QR=Q3-Q1,由第3四分位数减第1四分位数算得(由于没有原始数据,不能做修改)。

用标准误表达资料的离散度大小具有一定的「欺骗性」

例6:前方牵引器治疗骨性前牙反(牙合)的研究

资料表达形式见表3。

统计资料的表达与描述的常见错误实例辨析与释疑

对差错的辨析与释疑

在表3中,未明确标明各组的例数。用标准误表达治疗组与对照组各项定量指标处理后与处理前数据之差量的离散度大小(由正文可知各组样本含量n=20),仅根据表中「标准误」的数值不易看出哪些组中的数据偏离正态分布较远,当我们将其还原成标准差后就一目了然了。如:

对照组中指标Pg-Np:s=3.59×根下20≈16.055是其算术平均值1.19的13.5倍。

对照组中指标Is-CFH:s=1.77×根下20≈7.916是其算术平均值0.31的25.5倍。

考虑到「差量」是一种经过变换以后的结果,若其平均值接近于零,即使差量服从正态分布,其标准差大于均数的可能性也是存在的,但一般来说标准差不会是均数的若干倍,更不会是十几倍,这提示上述资料的部分组中的数据呈明显偏态分布,而无论用「均数±标准差」还是用「均数±标准误」表达定量资料,都要求资料呈正态分布或至少呈对称分布。

所以本例的错误在于误用正态分布法表达明显呈偏态分布的资料,尤其是用「标准误」表达离散度大小时,通常情况下即使存在错误也很难被人们所发现,故笔者认为:用标准误表达定量资料的离散度大小具有一定的「欺骗性」。

若资料不满足正态性要求,通常有两种对策:

其一、作变量变换,看资料经某种变量变换(最常用的变量变换方法是取对数变换)后是否满足正态性要求。若满足,可用上述两种方法之一表达变换后的数据;

其二、若未找到合适的变量变换方法,只能用适合表达偏态资料的方法,即描述集中趋势用中位数,表达离散程度大小用四分位数间距。

作者:胡良平等.医学论文中统计分析错误辨析与释疑:统计资料的表达与描述之一.中华医学杂志

相关阅读

统计资料的表达与描述的常见错误实例辨析与释疑之一

统计资料的表达与描述的常见错误实例辨析与释疑之二

  • 本博客文章如未特别说明,皆为本站原创,默认采用署名-相同方式共享 4.0 国际协议
  • 相关文章

    发表回复

    您的邮箱地址不会被公开。 必填项已用 * 标注