SPSS 10.0高级教程八:均数间的比较

2012-04-12 生物谷 生物谷

知道吗?在计算机领域中有个著名的80/20规则,也就是在奔腾及更早的CPU所采用的CISC指令集中,有80%的任务是被20%的最常用指令所完成的;换言之,另外80%的复杂指令只完成20%的不常用任务。 好了,言归正传。现在我要非常高兴的向大家宣布:80/20规则在SPSS的使用中同样有效!仅以Analyze菜单为例,其中最常用的子菜单为: Discriptive Statistics

知道吗?在计算机领域中有个著名的80/20规则,也就是在奔腾及更早的CPU所采用的CISC指令集中,有80%的任务是被20%的最常用指令所完成的;换言之,另外80%的复杂指令只完成20%的不常用任务。

好了,言归正传。现在我要非常高兴的向大家宣布:80/20规则在SPSS的使用中同样有效!仅以Analyze菜单为例,其中最常用的子菜单为:

  • Discriptive Statistics
  • Compare Means
  • General Linear Model(第一项)
  • Correlate
  • Regression(前半截)

只要掌握了它们的使用秘籍,你就可以理直气壮的宣称你已经可以用SPSS解决80%的统计学难题。如果不满足,你在召开新闻发布会的时候还可以对以上指标进行四舍五入:)。

此时课堂上有一美眉提问:老师,那我们是不是可以只学这几项功能就行了?

我...我...气死我了...

好,言归更正传。在以上五个菜单中,Compare Means是最简单的一个,但使用频率却几乎最高!因此,他的重要性也就不用我多说了吧...(以下省略五十万字)。

下面让我们大家一起踏上Compare Means之旅。该菜单集中了几个用于计量资料均数间比较的过程。具体有:

  • Means过程 对准备比较的各组计算描述指标,进行预分析,也可直接比较。
  • One-Samples T Test过程 进行样本均数与已知总体均数的比较。
  • Independent-Samples T Test过程 进行两样本均数差别的比较,即通常所说的两组资料的t检验。
  • Paired-Samples T Test过程 进行配对资料的显著性检验,即配对t检验。
  • One-Way ANOVA过程 进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。

§7.1 Means过程

和上一章所讲述的几个专门的描述过程相比,Means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出比较结果,无须再次调用其他过程。显然要方便的多。

7.1.1 界面说明

Dependent List框

用于选入需要分析的变量。

【Independent List框

用于选入分组变量。

Options钮

弹出Options对话框,选择需要计算的描述统计量和统计分析:

  • Statistics框 可选的描述统计量。它们是:
  1. sum,number of cases 总和,记录数

  2. mean, geometric mean, harmonic mean 均数,几何均数,修正均数

  3. standard deviation,variance,standard error of the mean 标准差,均数的标准误, 方差

  4. median, grouped median 中位数,频数表资料中位数(比如30岁组有5人,40岁组有6人,则在计算grouped median时均按组中值35和45进行计算)。

  5. minimum,maximum,range 最小值,最大值,全距

  6. kurtosis, standard error of kurtosis 峰度系数,峰度系数的标准误

  7. skewness, standard error of skewness 偏度系数,偏度系数的标准误

  8. percentage of total sum, percentage of total N 总和的百分比,样本例数的百分比

  • Cell Statistics框 选入的描述统计量。
  • Statistics for First layer复选框组 
  1. Anova table and eta 对分组变量进行单因素方差分析,并计算用于度量变量相关程度的eta值。

  2. Test for linearity 检验线性相关性,实际上就是上面的单因素方差分析。

7.1.2 结果解释

有了上一章的基础,Means过程的输出看起来就不太困难了。以第一章的数据为例,输出如下:

Means

上表还是缺失值报告。

常用统计描述量报表。这里按默认情况输出均数,样本量和标准差。由于我们选择了分组变量,因此三项指标均给出分组及合计值,可见以这种方式列出统计量可以非常直观的进行各组间的比较。

上表为单因素方差分析表。在选择了Anova table and eta或Test for linearity复选框时出现。实际上就是在检验各组间均数有无差异。上面各项的具体含义将在单因素方差分析一节中解释。

相关性度量指标,给出Eta值以及Eta值的平方根。

§7.2 One-Samples T Test过程

One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较,可以自行定义已知总体均数为任意值,该对话框的界面非常简单。

7.2.1 界面说明

Test Variables框

用于选入需要分析的变量。

Test Value框

在此处输入已知的总体均数,默认值为0。

Options钮

弹出Options对话框,用于定义相关的选项,有:

  • Confidence Interval框 输入需要计算的均数差值可信区间范围,默认为95%。如果是和总体均数为0相比,则此处计算的就是样本所在总体均数的可信区间。
  • Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

7.2.2 结果解释

One-Samples T Test过程的输出也是比较简单的,由描述统计表和t检验表组成,比如要检验数据li1_1.sav中血磷值的总体均数是否等于1,则输出如下:

T-Test

所分析变量的基本情况描述,有样本量、均数、标准差和标准误。

上表为单样本t检验表,第一行注明了用于比较的已知总体均数为1,下面从左到右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均数的差值(Mean Difference)、差值的95%可信区间。由上表可知:t=2.975,P=0.007。因此可以认为血磷值的总体均数不等于1。

§7.3 Independent-Samples T Test过程

Independent-Samples T Test过程用于进行两样本均数的比较,即常用的两样本t检验。该对话框的界面我们在第一章已经见过了,和上面的One-Samples T Test对话框非常相似。

7.3.1 界面说明

Test Variables框

用于选入需要分析的变量。

Grouping Variable框

用于选入分组变量。注意选入变量后还要定义需比较的组别。

【Define Groups框

用于定义需要相互比较的两组的分组变量值。

可以这样来理解:如果分组变量有3个取值(即有三组),而我们做t检验是比较其中的某两组,这时就可以用Define Groups框来指定需比较的两组。当然,如果分组变量只有2个取值时,我们仍然要再该框中进行定义,这也算是SPSS对话框存在的一个小缺陷吧。

Options钮

和One-Samples T Test对话框的Options钮完全相同,此处不再重复。

7.3.2 结果解释

比如要检验数据li1_1.sav中克山病患者与健康人的血磷值是否相同,用Independent-Samples T Test过程的结果输出如下:

T-Test

两组需检验变量的基本情况描述。

可见该结果分为两大部分:第一部分为Levene's方差齐性检验,用于判断两总体方差是否齐,这里的戒严结果为F = 0.032P = 0.860,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t= 2.524ν=22P=0.019。从而最终的统计结论为α=0.05水准,拒绝H0,认为克山病患者与健康人的血磷值不同,从样本均数来看,可认为克山病患者的血磷值较高。最后面还附有一些其他指标,如两组均数的可信区间等,以对差异情况有更直观的了解。

上表的标题内容翻译如下:

 

Levene方差齐性检验

两均数是否相等的t检验 

 

F值

P值

t值

自由度

P值(双侧)

均数差值

差值的标准误

差值的95%可信区间

下限

上限

血磷值

假设方差齐

.032

.860

2.524

22

.019

.4363

.1729

7.777E-02

.7948

假设方差不齐

 

2.524

21.353

.020

.4363

.1729

7.716E-02

.7954

如果你觉得上表太宽,用第三章学过的行列转置功能可以使它变的紧凑许多。

§7.4 Paired-Samples T Test过程

该过程用于进行配对设计的差值均数与总体均数0比较的t检验,对统计学比较熟悉的朋友可以看出,他的功能实际上是和One-Samples T Test过程相重复的(等价于已知总体均数为0的情况),但Paired-Samples T Test过程使用的数据输入格式和前者不同,即我们所称的统计表格格式,因此仍然有存在的价值。

对数据的统计分析格式不太熟悉的朋友请先学习统计软件第一课。

7.4.1 界面说明

整个界面上只有一个Paired Variable框需要介绍,他用于选入希望进行比较的一对或几对变量--注意这里的量词是对而不是个。选入变量需要成对成对的选入,即按住Ctrl键,选中两个成对变量,再单击将其选入。如果只选中一个变量,则按钮为灰色,不可用。

7.4.2 分析实例

例7.1 某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别(卫统第三版例4.5)?

大白鼠对号

 正常饲料组

 维生素E缺乏

1

 3550

 2450

2

 2000

 2400

3

 3000

 1800

4

 3950

 3200

5

 3800

 3250

6

 3750

 2700

7

 3450

 2500

8

 3050

 1750

解:为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为G1,维生素E缺乏组变量名为G2。操作如下:

  1. 同时选中G1、G2:选入Paired Variables框
  2. 单击OK钮

7.4.3 结果解释

以例7.1为例,其输出结果如下:

T-Test

配对变量各自的统计描述,此处只有1对,故只有Pair 1。

此处进行配对变量间的相关性分析。等价于Analyze==>Correlate==>Bivariate。

配对t检验表,给出最终的检验结果,由上表可见P=0.004,故可认为两种饲料所得肝中维生素A含量有差别,即维生素E缺乏对大白鼠肝中维生素A含量有影响。

上表的标题内容翻译如下:

 

对子间的差异

 

差值均数

标准差

标准误

均数的95%可信区间

t值

自由度

P值(双侧)

下限

上限

第一对

G1 - G2

812.5000

546.2535

193.1298

355.8207

1269.1793

4.207

7

.004

§7.5 One-Way ANOVA过程

One-Way ANOVA过程用于进行两组及多组样本均数的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较,在本章的内容中,他是最为复杂的一个,但是有了前面的基础,拿下他应该不成问题。

对统计分析的数据格式不太熟悉的朋友,请一定先去看看统计软件第一课:论统计软件中的数据录入格式,会大有帮助的。

7.5.1 界面说明

Dependent List框

选入需要分析的变量,可选入多个结果变量(应变量)。

Factor框

选入需要比较的分组因素,只能选入一个。

Contrast钮

弹出Contrast对话框,用于对精细趋势检验和精确两两比较的选项进行定义,由于该对话框太专业,也较少用,这里只做简单介绍。

  • Polynomial复选框 定义是否在方差分析中进行趋势检验。
  • Degree下拉列表 和Polynomial复选框配合使用,可选则从线性趋势一直到最高五次方曲线来进行检验。
  • Coefficients框 定义精确两两比较的选项。这里按照分组变量升序给每组一个系数值,注意最终所有系数值相加应为0。如果不为0仍可检验,只不过结果是错的。比如说在下面的例7.2中要对第一、三组进行单独比较,则在这里给三组分配系数为1、0、-1,就会在结果中给出相应的检验内容。

Post Hoc钮

弹出Post Hoc Multiple Comparisons对话框,用于选择进行各组间两两比较的方法,有:

  • Equar Variances Assumed复选框组 一组当各组方差齐时可用的两两比较方法,共有14中种这里不一一列出了,其中最常用的为LSD和S-N-K法。
  • Equar Variances Not Assumed复选框组 一组当各组方差不齐时可用的两两比较方法,共有4种,其中以Dunnetts's C法较常用。
  • Significance Level框 定义两两比较时的显著性水平,默认为0.05。

此处只是介绍可用的方法,并不是要推荐说那种最好,使用时请认真参考有关统计书籍。

Options钮

弹出Options对话框,用于定义相关的选项,有:

  • Statistics复选框组 选择一些附加的统计分析项目,有统计描述(Descriptive)和方差齐性检验(Homogeneity-of-variance)。
  • Means plot复选框 用各组均数做图,以直观的了解它们的差异。
  • Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

7.5.2 分析实例

例7.2 某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,问三组石棉矿工的用力肺活量有无差别(卫统第三版例5.1)?

石棉肺患者 可疑患者 非患者

1.8

2.3

2.9

1.4

2.1

3.2

1.5

2.1

2.7

2.1

2.1

2.8

1.9

2.6

2.7

1.7

2.5

3.0

1.8

2.3

3.4

1.9

2.4

3.0

1.8

2.4

3.4

1.8

3.3

2.0

3.5

解:设数据已经输好,分组变量为group,三组取值分别为1、2、3,结果变量为X。此处先进行单因素方差分析,然后进行两两比较,这里选择S-N-K法进行两两比较。操作如下:

  • Dependent List框:选入X
  • Factor框:选入group
  • Post Hoc钮:选中S-N-K复选框:单击Continue钮
  • 单击OK钮

7.5.3 结果解释

上题的输出结果如下:

Oneway

上面实际上是一个典型的方差分析表。给出了单因素方差分析的结果,可见F=84.544,P<0.001。因此可认为三组矿工用力肺活量不同。上表的标题内容翻译如下:

 

离均差平方和SS

自由度

均方MS

F值

P值

组间变异

9.266

2

4.633

84.544

.000

组内变异

1.534

28

5.480E-02

 

 

总变异

10.800

30

 

 

 

Post Hoc Tests

Homogeneous Subsets

上表是用S-N-K法进行两两比较的结果,简单的说,在表格的纵向上各组均数按大小排序,然后在表格的横向上被分成了若干个亚组,不同亚组间的P值小于0.05,而同一亚组内的各组均数比较的P值则大于0.05。从上表可见,石棉肺患者、可疑患者和非患者被分在了三个不同的亚组中,因此三组间两两比较均有差异;由于各个亚组均只有1个组别进入,因此最下方的组内两两比较P值均为1.000(自己和自己比较,当然绝对不会有差异了)。

从上面的解释大家可以得知:SPSS进行两两比较时,如果有差异,则只会告诉你P值小于预定的界值(默认为0.05),而不会给出具体的概率P有多大。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

SPSS 10.0高级教程二:数据文件的管理(2)

2.2.1.2 从原有变量计算新变量 从头定义变量的情况多数在建立数据集时出现。但是,当数据集已经建立,需要整理、转换变量时,碰到的更多情况是需要根据某种条件从原有变量计算新变量。下面我们将按菜单条目的顺序依次讲解他们的功能。但是,首先我们需要了解一下所用的对话框界面的情况。 【SPSS对话框元素介绍】 下面是我们在第一章曾经见过的两样本t检验对话框: 这是一个非常典型的SPSS对话框

SPSS 10.0高级教程四:程序编辑窗口用法详解

某年某月的某一天,你和你的另一半正在街上为地球表面的平整而贡献自己的绵薄之力。突然(也许是必然),你觉得有些饿了。这是一个问题,当然,不用说大家也知道解决问题的方法就是--吃。不过就是吃也有讲究,可以随便找个面馆简单的填饱肚子;要求高的话还可以去几星级的地方享受一下;当然还有的人觉得自己回去做口味也合适,花费也不多;更有些超级美食家,星级水准也不满意,需要亲自给一级厨师露一手,指点他们一下,才会吃

SPSS 10.0高级教程五:SPSS结果窗口用法详解

§4.1 结果窗口元素介绍 SPSS实际上提供了两个结果窗口--结果浏览窗口和结果草稿浏览窗口。前者最为常用,显示美观,但非常消耗系统资源;后者实际上是一个RTF格式文档,显示简单朴素,但节省资源。我们可以根据所用计算机的情况选择使用哪一种窗口。 结果草稿浏览窗口的内容虽然是RTF格式,但由于中、英文兼容性的问题,其中的表格读入WORD以后会变的面目全非,因此对我们不是很适用。 4.1.1

SPSS 10.0高级教程六:SPSS统计绘图功能详解

在常用的统计软件中,SAS绘制的统计图不太美观;而SPSS绘制的统计图较为美观,可以满足大多数情况下的要求;STATA绘制的统计图形最为精美,但由于它采用命令行方式操作,美观的图形需要添加大量选项,普通人不易掌握;而S-PLUS、MATHLAB等偏数理统计的软件虽然绘图能力也非常强,但由于自身的定位问题,并不为大多数人所熟悉。因此,在各种统计软件中,以SPSS制作的统计图应用最为广泛。 EXE

SPSS 10.0高级教程七:描述性统计分析详解

描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Cross

SPSS 10.0高级教程二:数据文件的管理(1)

不言而喻,一切统计分析都是以数据为基础的,因此统计软件的数据管理能力非常重要。SPSS以其豪华的界面为依托,为用户提供的便捷的数据管理功能,下面我们就来具体看一下。 §2.1 建立与保存数据文件 和大多数应用软件相同,SPSS中数据文件的管理功能基本上都集中在了File菜单上,该菜单的组织结构和WORD等也极为相似,因此这里我们只介绍比较有特色的几个菜单项。 SPSS 10.0有三个主要窗