人们在研究两个变量之间的相互关系或依赖关系时经常运用直线相关分析与直线回归分析,然而他们经常犯这样或那样的错误,导致结论的可信度低,有时甚至得出绝对错误的结论。本文以实例的形式说明一下直线相关与直线回归分析常见错误,并给以正确的解疑和答案。
直线相关与回归分析常见错误概述
人们在研究两个变量之间的相互关系或依赖关系时经常运用直线相关分析与直线回归分析,然而他们经常犯这样或那样的错误,导致结论的可信度低,有时甚至得出绝对错误的结论。这方面常见的错误概括起来有如下几点:
(1)脱离专业知识,盲目进行直线相关与回归分析;
(2)对资料中因「过失误差」造成的错误视而不见,盲目进行统计计算得出违背专业知识的结论来;
(3)将数据直接录入计算机,调用统计软件快速得出计算结果,作出结论;
(4)对于仅在统计学上有意义的计算结果,盲目给出专业上的「肯定结论」,但结论经不起实践的检验。
直线相关与回归分析常见错误案例与释疑
1. 脱离专业知识,盲目进行直线相关与回归分析
例1:某人在北京郊区调查居民被狗咬伤的情况
结果显示,各年龄组中被狗咬伤的百分率不同,即年龄由小到大,被狗咬伤的百分率依次为很小、较小、较大、很大、较大、较小、很小、较大。原作者的一个惊人的发现是,年龄与百分率之间的相关系数r=0.9956,P<0.0001,因此拟合的直线回归方程也是有统计学意义的。故原作者认为,在所调查的市郊,被狗咬者的年龄与被狗咬伤的百分率之间有很好的线性关系,可用此直线回归方程来预测该地任何一位居民被狗咬伤的概率,以便提醒人们外出时携带必要的防身器械,要倍加小心,尽可能减少被狗咬的机会。
对差错的辨析与释疑
不会走的婴儿由大人抱在怀里,其被犬咬伤的发生率肯定很低;刚刚学会走路的小孩,通常都有大人在他们身边,因此,他们被犬咬伤的发生率比前者可能会高一点,但不会太高;只有那些整天到处乱跑,又没有很强抵御能力的3~6岁的孩子,被犬咬伤的机会最大;7~12岁的儿童,通常都有比较强的抵御能力,因此,他们被犬咬伤的机会较前者会有所减少;依此类推,中青年被犬咬伤的发生率最低,上了年岁的老人,行动不便,他们被犬咬伤的发生率又会有所增大;而更老的体弱多病者整天呆在家中不出门,他们被犬咬伤的发生率几乎为零。
这些都是生活常识,没有必要用统计学方法生搬硬套地去描述它。退一步说,即使你一定要用一用统计学知识写一篇论文的话,也不应该用直线回归分析,很可能要运用多项式曲线回归分析。
因为某地居民被犬咬伤的发生率与年龄之间更有可能呈「波浪型」变化趋势。况且,某地居民被犬咬伤的发生率与当时居民养犬的「数目、品种、养犬方式」等都有关系。仅通过一个直线回归方程来描述调查结果,并作出推断结论是毫无意义的!这是「脱离专业知识,盲目进行直线相关与回归分析」的一个生动案例。
2. 对资料中因「过失误差」造成的错误视而不见。
例2:某研究者对7例糖尿病患者给某种药物治疗后,测量其血中胰岛素和血糖的含量(表1)。
该研究者采用直线相关分析,结果r=0.3140,P>0.05,结论为胰岛素含量和血糖的含量之间无直线相关关系。
对差错的辨析与释疑
在原资料中,有6人胰岛素含量在10~24μu/ml之间,仅有1人为121μu/ml,远远大于其余6人,属可疑值。由于此数据的存在,可能会影响直线相关的结论,故应考虑可否将此数据剔除。
首先应检查有无过失误差(测量错误或抄写错误等人为因素引起的误差),若属过失误差引起的,应坚决予以纠正;若不是由于过失误差所致,当指标观测值的总体服从正态分布时,可借助统计方法判断「可疑值」是否为「异常值」。在正常情况下,人胰岛素含量的测定结果近似服从正态分布,故可用Grubbs法检验某些「可疑值」是否为异常值。本例经Grubbs法检验,Gb=2.25,P<0.01,可见121μu/ml的测定值属异常值,应予剔除。将第6对数据(121,238)剔除后重新计算相关系数得,r=-0.9363,P<0.01,说明人体血中胰岛素含量与血糖含量之间存在直线相关关系,与原作者结论不同。
3. 将数据直接录入计算机进行直线相关与回归分析
例3:设有4组定量指标的数据如下,(Xi,Yi)(i=1、2、3、4)是第i对在专业上有联系的指标
对各对指标均观测了11对数据(表2),某人将各对数据直接录入计算机,用统计软件快速给出了计算结果,其结论是,这四组数据完全可以用同一个直线回归方程来描述,这样做对吗?
对差错的辨析与释疑
直观判断,虽难给出明确的答复,但没有绘制各对数据的散布图就盲目拟合直线回归方程并作假设检验,其结果是值得怀疑的。下面我们也像原作者那样盲目做一下,看看结果如何(表3,4)。
这是对4组数据分别拟合直线回归方程后,对回归方程的假设检验结果,此结果表明:4条回归直线都有统计学意义,而且,他们的F值和P值几乎都是相等的。表4是分别对4条回归直线的截距和斜率进行假设检验的结果,此结果表明:4条回归直线几乎是完全重合的,换句话说,上述的4组数据可用同一条回归直线来描述,而且,其截距(a≈3.0)、斜率(b≈0.5)以及整个回归方程的假设检验结果在统计学上是有统计学意义的。
事实果真如此吗?答案是否定的。
让我们将上述4组数据的散布图绘出后(图1),问题就会真相大白了。
在图1中,共有16幅反映两变量同时变化的散布图,排成4行4列,各行横轴上的变量名从左到右依次为X1、X2、X3、X4,他们未显示出来。若直接在SAS软件环境中「打印预览」或「打印」,他们就都显示出来了;各列纵轴上的变量名从上到下依次为Y1、Y2、Y3、Y4,而我们所需要的图就是位于主对角线(即从左上角到右下角)上的那四幅图,即分别反映(X1,Y1)、(X2,Y2)、(X3,Y3)、(X4,Y4)变化趋势的散布图。
将其内的观察点放大后,可以清楚地看到:第1组数据的各散点在「从左下角到右上角的一条不太宽的带内随机地分布着」,不存在明显的曲线趋势,不平行于X轴或Y轴,也不存在异常点,故此资料适合进行直线回归与相关分析;第2组数据的各散点呈一条抛物线分布趋势,只不过抛物线的右边缺少了一部分,显然此资料不适合用直线回归方程来描述,宜选用二次抛物线方程进行曲线拟合;第3组数据的绝大部分散点在一条直线上分布着,但有一点游离在直线上方很远处,它是一个异常点;第4组数据的绝大部分散点在一条垂直于X轴的直线上分布着,但有一点游离在直线右边很远处,它是一个异常点。
由上面对散布图的分析可知,在四组数据中,仅第1组数据适合作直线回归分析。那么,为什么后三组数据用直线回归方程描述,经假设检验也有统计学意义呢?这是因为:第2组数据虽呈近似抛物线分布趋势,但抛物线的后半支不全,若将上述拟合出来的回归直线绘在图中,开始部分的散点落在直线上方、末尾部分的散点落在直线的下方,因此,整个回归直线上观察值与理论值的残差还是比较小的,所以,能顺利通过假设检验;后两组数据都由于各存在一个异常点,导致他们碰巧得出了同一个直线回归方程,若将异常点删除,第3组数据其余的各散点将严格地落在一条直线上(但不是已求出的那条直线。);而第4组数据根本不适合拟合直线回归方程,因为除去异常点之外,其余的点都落在垂直于X轴的一条直线上,即这些点仅仅纵坐标Y的值在改变,而X始终为一常量。
例4:直线两端闹「地震」!这是对呈「S形」或「倒S形」曲线变化趋势资料盲目拟合直线回归方程所得结论的「形象化描述」
请看下面的实例。某地进行核试验,在一定条件下,离爆心的距离x(km)与冲击伤发生率y(%)之间有如下试验数据:
x(km):4.1、4.4、6.8、8.7、10.3、11.9、13.5、15.3、17.3、19.5、23.4、30.0
y(%):100、99、90、80、70、60、50、40、30、20、10、1
若采用直线相关与回归分析,相关系数r=-0.9754,回归方程^y=-4.2960x+113.3081,对相关系数及回归方程的假设检验均P<0.0001,结论为:在离爆心4~30km范围内,离爆心的距离与冲击伤发生率间有良好的线性关系。
对差错的辨析与释疑
计算最后一点y(冲击伤发生率)的预测值是-15.6%;若将x=1代入上述求得的直线回归方程计算,可得y的预测值是109.0%,这两端的计算结果都不符合实际,故称为直线两端闹「地震」。若将资料绘制出散布图,见图2。
由图2可以清楚地看出:各散点虽落在一条不太宽的带内,但他们并不是随机分布,而是呈一条光滑的曲线变化趋势,这条曲线属于「倒S形曲线」,适合进行「Logistic曲线」回归分析,限于篇幅,具体的拟合过程和结果从略。
4. 统计学上有意义不代表在专业上就一定有意义。
例5:某作者欲分析年龄与淋巴细胞转化率的关系
作者调查了252人的年龄和淋巴细胞转化率,采用的统计处理方法是直线相关与回归分析,得相关系数r=-0.20,回归方程^y=76.0-0.4x。直线相关系数r的假设检验:自由度ν=250,查r界值表得P<0.01,结论是淋巴细胞转化率与年龄密切相关。这个结论有实际意义吗?
对差错的辨析与释疑
「淋巴细胞转化率与年龄密切相关」的结论,对问题的回答尚不够完整和严谨,更有「严重脱离实际」之嫌。
事实上,对相关系数的假设检验得P<0.01,仅说明「淋巴细胞转化率(X1)与年龄(X2)之间存在线性相关关系」。至于这两个变量间呈线性关系的密切程度,需要借助r2(称为确定系数或决定系数)的数值大小来给出定量的度量。若建立有X2(年龄)推算X1(淋巴细胞转化率)的直线回归方程,则r2就等于SS回/SSX1。SS回是由于X2的变化而引起X1改变的量,称为回归的离差平方和;SSX1是X1的总变异,称为总的离均差平方和。因此,r2实际上反映了X1与X2线性变化部分的量占X1总变异的百分比。本例r2=(-0.20)2=0.04,说明淋巴细胞转化率的变化中只有4%的量是与年龄有关的,所以尽管在对相关系数的假设检验中得P<0.01,但两变量之间的线性相关程度还是较低的。这提示:用某种曲线方程来描述两个变量之间的变化关系,效果可能更好些。
5. 误用简单直线回归分析处理具有重复试验的回归分析资料。
例6:某流行病研究所新研制了一种TK发生器,可将微生物以微小颗粒的形式分散到空气中
在探讨影响粒子大小(MMD)的主要因素时,分析了喷雾气体压力对粒子大小的影响。在实际观测数据时,选择了8种喷雾气体压力,每种压力条件下测5次粒子大小,结果见表5。
许多人直接以各种压力下的均值?y为因变量y作简单直线回归分析,这样做合适吗?
对差错的辨析与释疑
原资料属于具有重复试验数据的回归分析资料,在作直线回归分析(包括可化成直线形式的情况,如本例)时,未作失拟检验(即检验直线所不能解释的部分相对于实验误差来说是否具有统计学意义,若检验结果为P<0.05,就说明被分析的资料不能简单地用直线回归方程来描述),这是不妥的!应选用能够处理具有重复实验数据的回归分析方法进行合理地分析,以说明此资料仅用直线回归方程描述就可以了还是必须要选用某种特殊形式的曲线回归方程来描述和分析。
作者:胡良平.医学论文中统计分析错误辨析与释疑:直线相关与回归.中华医学杂志