关于ANOVA

ewre — Tue, 29 Nov 2011 07:41:00 GMT

ANOVA, analysis of varance即方差分析。它是假设检验正态总体参数检验里面的均值检验的方法之一。
什么是方差分析

方差分析（ANOVA）又称“变异数分析”或“F检验”，是R.A.Fister发明的，用于两个及两个以上样本均数差别的显著性检验。

由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

一个复杂的事物，其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素，各因素之间的交互作用，以及显著影响因素的最佳水平等。方差分析是在可比较的数组中，把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量，采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和，这是一个很重要的思想。

经过方差分析若拒绝了检验假设，只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息，应在方差分析的基础上进行多个样本均数的两两比较。

1、多个样本均数间两两比较

多个样本均数间两两比较常用q检验的方法，即Newman-kueuls法，其基本步骤为：建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。

2、多个实验组与一个对照组均数间两两比较

多个实验组与一个对照组均数间两两比较，若目的是减小第II类错误，最好选用最小显著差法（LSD法）；若目的是减小第I类错误，最好选用新复极差法，前者查t界值表，后者查q'界值表。

方差分析的基本思想

基本思想：通过分析研究中不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。

下面我们用一个简单的例子来说明方差分析的基本思想：
如某克山病区测得11例克山病患者和13名健康人的血磷值（mmol/L）如下：
患者：0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人：0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87

问该地克山病患者与健康人的血磷值是否不同？

从以上资料可以看出，24个患者与健康人的血磷值各不相同，如果用离均差平方和（SS）描述其围绕总均数的变异情况，则总变异有以下两个来源：

组内变异，即由于随机误差的原因使得各组内部的血磷值各不相等；
组间变异，即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。

而且：SS总=SS组间+SS组内 v总=v组间+v组内

如果用均方（即自由度v去除离均差平方和的商）代替离均差平方和以消除各组样本数不同的影响，则方差分析就是用组内均方去除组间均方的商（即F值）与1相比较，若F值接近1，则说明各组均数间的差异没有统计学意义，若F值远大于1，则说明各组均数间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表（方差分析用）获得。

方差分析的应用条件

应用方差分析对资料进行统计推断之前应注意其使用条件，包括：
1、可比性。若资料中各组均数本身不具可比性则不适用方差分析。

2、正态性。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。

3、方差齐性。即若组间方差不齐则不适用方差分析。多个方差的齐性检验可用Bartlett法，它用卡方值作为检验统计量，结果判断需查阅卡方界值表。

方差分析主要用于：
1、均数差别的显著性检验；
2、分离各有关因素并估计其对总变异的作用；
3、分析因素间的交互作用；
4、方差齐性检验。

方差分析的主要内容

根据资料设计类型的不同，有以下两种方差分析的方法：

1、对成组设计的多个样本均数比较，应采用完全随机设计的方差分析，即单因素方差分析。

2、对随机区组设计的多个样本均数比较，应采用配伍组设计的方差分析，即两因素方差分析。

两类方差分析的基本步骤相同，只是变异的分解方式不同，对成组设计的资料，总变异分解为组内变异和组间变异（随机误差），即：SS总=SS组间+SS组内，而对配伍组设计的资料，总变异除了分解为处理组变异和随机误差外还包括配伍组变异，即：SS总=SS处理+SS配伍+SS误差。整个方差分析的基本步骤如下：

1、建立检验假设；
H0：多个样本总体均数相等；
H1：多个样本总体均数不相等或不全等。
检验水准为0.05。

2、计算检验统计量F值；

3、确定P值并作出推断结果。
=========================================

实际研究中，经常需要比较两组以上样本均数的差别，这时不能使用t检验方法作两两间的比较（如有人对四组均数的比较，作6次两两间的t检验），这势必增加两类错误的可能性（如原先a定为0.05，这样作多次的t检验将使最终推断时的 a>0.05）。故对于两组以上的均数比较，必须使用方差分析的方法，当然方差分析方法亦适用于两组均数的比较。方差分析可调用此过程可完成。

Least-significant difference(LSD)：最小显著差法。a可指定0~1之间任何显著性水平，默认值为0.05；

Bonferroni：Bonferroni修正差别检验法。a可指定0~1之间任何显著性水平，默认值为0.05；

Duncan’s multiple range test：Duncan多范围检验。只能指定a为0.05或0.01或0.1，默认值为0.05；

Student-Newman-Keuls：Student-Newman-Keuls检验，简称N-K检验,亦即q检验。a只能为0.05；(以前都以SNK法最为常用，但研究表明，当两两比较的次数极多时，该方法的假阳性非常高，最终可以达到100%。因此比较次数较多时，包括SPSS和SAS在内的权威统计软件都不再推荐使用此法。)

Tukey’s honestly significant difference：Tukey显著性检验。a只能为0.05；

Tukey’s b：Tukey另一种显著性检验。a只能为0.05；

Scheffe：Scheffe差别检验法。a可指定0~1之间任何显著性水平，默认值为0.05。

根据对相关研究的检索结果，除了参照所研究领域的惯例外，一般可以参照如下标准：

如果存在明确的对照组，要进行的是验证性研究，即计划好的某两个或几个组间（和对照组）的比较，宜用Bonferoni(LSD)法；若需要进行的是多个平均数间的两两比较（探索性研究），且各组样本数相等，宜用Tukey法，其他情况宜用Scheffe法。

另外Equal Variances Not Assumed复选框组提供了方差不齐时可以采用的两两比较方法，一般认为Games-Howell法稍好一些。

不过由于这方面统计学界尚无定论，建议最好直接使用非参数检验方法。

ewre 2011-11-29 15:41 发表评论

C++博客-以至宏大，以致高远-文章分类-Statistics

关于ANOVA