type
status
date
slug
summary
tags
category
icon
password
ANOVA(方差分析)是一种用于比较三个或更多样本均值的统计方法。它基于均值之间的差异是否超出了随机变动的预期范围,以此来判断这些均值是否真正存在差异。

关键术语

  1. 总和平方(SS, Sum of Squares):数据点和其均值之间差异的平方和。
  1. 处理平方和(SST, Treatment Sum of Squares):各组均值与总均值之间差异的平方和。
  1. 误差平方和(SSE, Error Sum of Squares):组内数据点与其组内均值之间差异的平方和。
  1. 均方(MS, Mean Square):平方和除以其自由度。
  1. F统计量:处理均方与误差均方之比。
  1. 自由度(df, degrees of freedom):用于估计参数的数据点数量减去参数的数量。

ANOVA的原理

ANOVA的基本思想是将总变异划分为两部分:处理效应(或组间)所引起的变异和误差(或组内)变异。如果处理效应所引起的变异相对于误差变异较大,则我们可以推断存在处理效应。

如何使用ANOVA

  1. 提出假设
      • 零假设(H0): 所有组的总体均值相等。
      • 对立假设(H1): 至少两组的总体均值不相等。
  1. 选择显著性水平:例如α = 0.05。
  1. 计算F统计量:F = 处理均方 / 误差均方。
  1. 决策:与F分布的临界值进行比较。如果计算出的F值大于临界值,则拒绝零假设。

ANOVA主要用途

  • 评估三个或更多组的均值之间是否存在统计学上的显著差异。
  • 判断某种处理或因素对某一响应变量是否有显著影响。
  • 在设计实验时,用于判断不同的实验条件或处理组之间是否存在显著差异。
需要注意的是,如果ANOVA显示了至少两组之间的显著差异,那么后续通常需要进行多重比较或“事后”测试(如Tukey测试)来确定哪些组之间具体存在差异
 
 

例子

假设你想研究三种不同的教学方法对学生的考试成绩的影响。你随机选取了30名学生,然后将他们均匀分为三组,每组10人。每组学生使用不同的教学方法。
  • 组1:使用教学方法A。
  • 组2:使用教学方法B。
  • 组3:使用教学方法C。
学习一段时间后,所有学生参加同一考试,考试成绩如下(简化数据):
  • 组1(方法A):90, 85, 88, 84, 82, 91, 85, 88, 90, 86
  • 组2(方法B):78, 80, 82, 79, 77, 81, 80, 79, 78, 80
  • 组3(方法C):70, 72, 68, 74, 71, 69, 70, 68, 73, 72
你现在想知道这三种教学方法是否存在显著差异。
在这个例子中,每一组学生都是一个“组”。你正在比较这三个“组”的考试成绩均值。
ANOVA分析
  1. 假设
      • H0(零假设): 三个组的考试成绩均值都是相同的。
      • H1(备择假设): 至少两个组的考试成绩均值不同。
  1. 计算
      • 计算每组的均值和总均值。
      • 根据各组数据点与组内均值、组均值与总均值的差异来计算处理平方和(组间差异)和误差平方和(组内差异)。
      • 使用适当的公式来计算F统计量。
  1. 结论
      • 如果计算出的F值在α = 0.05的显著性水平下大于临界值,则我们拒绝零假设,这意味着三种教学方法在考试成绩上有显著差异。
      • 如果拒绝了零假设,接下来你可能会进行多重比较,以确定哪两种方法之间存在差异。
以上就是一个简化的ANOVA例子,实际应用中的数据和计算可能会更复杂。希望这个例子能帮助你更好地理解“组”的概念和ANOVA的基本原理。
 

计算过程:

数据
组1(A方法):90, 85, 88, 84, 82, 91, 85, 88, 90, 86
组2(B方法):78, 80, 82, 79, 77, 81, 80, 79, 78, 80
组3(C方法):70, 72, 68, 74, 71, 69, 70, 68, 73, 72
步骤1:计算各组和总体的均值
组1均值 = (90 + 85 + ... + 86) / 10 = 869 / 10 = 86.9
组2均值 = 803 / 10 = 80.3
组3均值 = 717 / 10 = 71.7
总均值 = (869 + 803 + 717) / 30 = 2389 / 30 = 79.63
步骤2:计算处理平方和(组间差异)
SST=n(Xˉ1−Xˉtotal)2+n(Xˉ2−Xˉtotal)2+n(Xˉ3−Xˉtotal)2
其中n是每组的样本数量,这里n=10。
SST=10(86.9−79.63)2+10(80.3−79.63)2+10(71.7−79.63)2SST=10(86.9−79.63)2+10(80.3−79.63)2+10(71.7−79.63)2
=529.09+44.89+629.16=529.09+44.89+629.16
=1203.14=1203.14
步骤3:计算误差平方和(组内差异)
SSE=∑i=1n(Xi1−Xˉ1)2+∑i=1n(Xi2−Xˉ2)2+∑i=1n(Xi3−Xˉ3)2
这涉及到每个数据点与其组均值的差异的平方和。
简化为:
SSE=45.9+43.1+37.3SSE=45.9+43.1+37.3
=126.3=126.3
步骤4:计算F统计量
先要计算均方:
处理均方:MST=SST/(k−1)
其中k是组数。这里k=3。
MST=1203.14/2=601.57MST=1203.14/2=601.57
误差均方:MSE=SSE/(Nk)
其中N是总的样本数量。这里N=30。
MSE=126.3/27=4.68
F=MST/MSE
F=601.57/4.68=128.5
接下来,你会使用F分布表查找临界值(在α = 0.05,df1 = 2,df2 = 27)。如果计算出的F值(128.5)大于临界值,则拒绝零假设。
结论: F值远大于通常的临界值,因此我们可以拒绝零假设,这意味着这三种教学方法在考试成绩上存在显著差异。
请注意,这是一个简化的计算。在实际操作中,人们通常使用统计软件来进行这些计算。
Relate Posts
WSL2 ConfigUseful Codes
Tianqi
Tianqi
I'm currently working in a lab focused on computer vision projects powered by machine learning.
Announcement
type
status
date
slug
summary
tags
category
icon
password
🎉Welcome to my blog🎉
-- Tianqi ---