type
status
date
slug
summary
tags
category
icon
password

资源:

Terminology:

  1. 假设检验(Hypothesis Tests)
    1. 原假设(H0)
    2. 备择假设(H1)
    3. 显著性水平α(常为 0.05)
    4. 三大抽样分布:卡方分布,F分布,和t分布均对应着各自的假设检验,在实际应用中广泛出现
  1. 总和平方(SS, Sum of Squares):数据点和其均值之间差异的平方和。
  1. 处理平方和(SST, Treatment Sum of Squares):各组均值与总均值之间差异的平方和。
  1. 误差平方和(SSE, Error Sum of Squares):组内数据点与其组内均值之间差异的平方和。
  1. 均方(MS, Mean Square):平方和除以其自由度。
  1. F统计量:处理均方与误差均方之比。
  1. 自由度(df, degrees of freedom):用于估计参数的数据点数量减去参数的数量。
  1. F分布表
  1. 单因素方差分析
  1. 无交互作用的双因素方差分析
  1. 有交互作用的双因素方差分析
  1. 多因素正交表设计及方差分析
 
 
 

ANOVA的原理

ANOVA的基本思想是将总变异划分为两部分:处理效应(或组间)所引起的变异和误差(或组内)变异。如果处理效应所引起的变异相对于误差变异较大,则我们可以推断存在处理效应。

如何使用ANOVA

  1. 提出假设
      • 零假设(H0) → 例如: 所有组的总体均值相等。
      • 备择假设(H1) → 例如: 至少两组的总体均值不相等。
  1. 选择显著性水平α (通常α = 0.05)
  1. 计算F统计量:F = 处理均方 / 误差均方。
  1. 决策:与F分布的临界值进行比较。如果计算出的F值大于临界值,则拒绝零假设。

ANOVA主要用途

  • 评估三个或更多组的均值之间是否存在统计学上的显著差异。
  • 判断某种处理或因素对某一响应变量是否有显著影响。
  • 在设计实验时,用于判断不同的实验条件或处理组之间是否存在显著差异。
需要注意的是,如果ANOVA显示了至少两组之间的显著差异,那么后续通常需要进行多重比较或“事后”测试(如Tukey测试)来确定哪些组之间具体存在差异
 

简单说:

当前情况: 在研究一个项目的结果,猜测有一种因素是影响结果的重要因素
任务目标: 证明这个因素确实是重要因素

单因素方差分析

只考虑一个因素A对于所关心的试验结果的影响

例子

假设你想研究三种不同的教学方法(因素 A)对学生的考试成绩(实验结果)的影响。你随机选取了30名学生,然后将他们均匀分为三组,每组10人。每组学生使用不同的教学方法。
  • 组1:使用教学方法A。
  • 组2:使用教学方法B。
  • 组3:使用教学方法C。
学习一段时间后,所有学生参加同一考试,考试成绩如下(简化数据):
  • 组1(方法A):90, 85, 88, 84, 82, 91, 85, 88, 90, 86
  • 组2(方法B):78, 80, 82, 79, 77, 81, 80, 79, 78, 80
  • 组3(方法C):70, 72, 68, 74, 71, 69, 70, 68, 73, 72
你现在想知道这三种教学方法是否存在显著差异。
在这个例子中,每一组学生都是一个“组”。你正在比较这三个“组”的考试成绩均值。
ANOVA分析
  1. 假设
      • H0(零假设): 三个组的考试成绩均值都是相同的。
      • H1(备择假设): 至少两个组的考试成绩均值不同。
  1. 计算
      • 计算每组的均值和总均值。
      • 根据各组数据点与组内均值、组均值与总均值的差异来计算处理平方和(组间差异)和误差平方和(组内差异)。
      • 使用适当的公式来计算F统计量。
  1. 结论
      • 如果计算出的F值在α = 0.05的显著性水平下大于临界值,则我们拒绝零假设,这意味着三种教学方法在考试成绩上有显著差异。
      • 如果拒绝了零假设,接下来你可能会进行多重比较,以确定哪两种方法之间存在差异。
以上就是一个简化的ANOVA例子,实际应用中的数据和计算可能会更复杂。希望这个例子能帮助你更好地理解“组”的概念和ANOVA的基本原理。

计算过程:

数据
组1(A方法):90, 85, 88, 84, 82, 91, 85, 88, 90, 86
组2(B方法):78, 80, 82, 79, 77, 81, 80, 79, 78, 80
组3(C方法):70, 72, 68, 74, 71, 69, 70, 68, 73, 72
步骤1:计算各组和总体的均值
(组1均值) = (90 + 85 + … + 86) / 10 = 869 / 10 = 86.9
(组2均值) = (78 + 80 + … + 80) / 10 = 794 / 10 = 79.4
(组3均值) = (70 + 72 + … + 7) / 10 = 707 / 10 = 70.7
(总均值) = (869 + 794 + 707) / 30 = 2370 / 30 = 79
步骤2:计算处理平方和(组间差异)
其中n是每组的样本数量,这里n=10。
步骤3:计算误差平方和(组内差异)
其中n是每组的样本数量,这里n=10。
步骤4:计算F统计量
先要计算均方(MST):
df1 = (k-1)其中k是组数。这里k=3。
计算误差均方(MSE):
df2 = (N−k)其中N是总的样本数量。这里N=30。
计算F统计量:
步骤5: 查表
接下来,你会使用F分布表查找临界值(在α = 0.05,df1 = 2,df2 = 27)。计算出的F值(129.1)大于临界值(3.3541).
结论
F值远大于通常的临界值,因此我们可以拒绝零假设,这意味着这三种教学方法(因素 A)考试成绩(实验结果)上存在显著差异。
请注意,这是一个简化的计算。在实际操作中,人们通常使用统计软件来进行这些计算。
 

1. 总和平方 (Sum of Squares, SS)

总SS(SST):所有数据点与总均值之间的差异的平方和。 SST=∑(XiXˉtotal)2 其中,Xi 是每个数据点,Xˉtotal 是所有数据点的均值。
处理SS(SSB,组间差异):各组均值与总均值之间的差异的平方和。 SSB=∑knk(XˉkXˉtotal)2 其中,Xˉk 是第k组的均值,nk 是第k组的数据点数量。
误差SS(SSE,组内差异):组内数据点与其组均值之间的差异的平方和。 SSE=∑ki(XikXˉk)2 其中,Xik 是第k组的第i个数据点,Xˉk 是第k组的均值。

2. 均方 (Mean Square, MS)

均方是总和平方除以相应的自由度。
处理均方(MSB)MSB=SSB/
误差均方(MSE)MSE=SSE/

3. 自由度 (Degrees of Freedom, df)

总自由度:总的数据点数量减1。 dftotal=N−1 其中,N是所有数据点的数量。
处理自由度(或组间自由度):组数减1。 dfbetween=k−1 其中,k是组数。
误差自由度(或组内自由度):总的数据点数量减去组数。 dfwithin=Nk

例子:

假设我们有3组数据(如上面所示的例子),每组10个数据点,那么:
自由度
  • dfbetween = 3 - 1 = 2
  • dfwithin = 30 - 3 = 27
  • dftotal = 30 - 1 = 29
计算SSB、SSE和SST后,我们可以根据上面的公式计算MSB和MSE。
 
 

双因素方差分析

双因素方差分析(也称为两因子方差分析或二因子ANOVA)是用于研究两个独立变量(或称为因子)对因变量的影响,以及它们之间可能的交互效应的统计方法。当我们说“可重复”的时候,意思是每个因子的每个水平组合都有多次观测,而不仅仅是一次。
让我们通过一个例子来详细了解这个概念。
假设场景
我们想研究不同的教学方法和学习时长对学生考试成绩的影响。
  1. 教学方法(第一个因子):有三种 - A, B, C
  1. 学习时长(第二个因子):有两种 - 1小时, 2小时
对于每种教学方法和学习时长的组合,我们都选择了5名学生进行试验,以得到他们的考试成绩。这意味着,例如,有5名学生使用方法A学习了1小时,另有5名学生使用方法A学习了2小时,以此类推。这就是“可重复”的含义。
在这样的设计中,我们可以检查以下内容:
  1. 教学方法的主效应:A、B和C方法之间是否存在考试成绩的显著差异。
  1. 学习时长的主效应:1小时与2小时学习时长之间是否存在考试成绩的显著差异。
  1. 交互效应:教学方法和学习时长是否相互作用。例如,某种教学方法可能在1小时的学习时长中效果最好,但在2小时的学习时长中效果最差。
在进行双因素方差分析后,我们会得到三个F统计量(每个效应一个),并可以据此决定这三个效应中的哪一个或哪几个是显著的。
总的来说,可重复双因素方差分析允许研究者研究两个因子的独立和交互效应,并考虑多次观测的变异性
 

简化版的例子

假设场景

我们将研究两种教学方法和两种学习时长对学生的考试成绩的影响。
  1. 教学方法(Method):A, B
  1. 学习时长(Duration):1小时, 2小时
对于每种教学方法和学习时长的组合,我们选择了2名学生。数据如下:
Method
Duration
Scores (2 students)
A
1 hour
75, 85
A
2 hours
90, 95
B
1 hour
80, 90
B
2 hours
85, 87

方差分析步骤

  1. 计算总均值、组均值和总SS
Xˉtotal = (75+85+90+95+80+90+85+87) / 8 = 86.125
方法A, 1小时的均值:80
方法A, 2小时的均值:92.5
方法B, 1小时的均值:85
方法B, 2小时的均值:86
SST (总SS) = Σ(all scores - Xˉtotal)^2
= (75-86.125)^2 + (85-86.125)^2 + ... + (87-86.125)^2
≈ 287.875
  1. 计算处理SS (SSB)
SSBMethod = Σn(each method's mean - Xˉtotal)^2
= 2(86.25-86.125)^2 + 2(85.75-86.125)^2 = 0.125 + 0.28125 = 0.40625
SSBDuration = Σn(each duration's mean - Xˉtotal)^2
= 2(82.5-86.125)^2 + 2(89.75-86.125)^2 = 26.265625 + 26.265625 = 52.53125
  1. 计算交互效应SS
SSInteraction = SST - SSB_{Method} - SSB_{Duration} - SSE
为了得到SSE,我们首先需要计算每个组的SS。
例如,对于方法A, 1小时组: SS = (75-80)^2 + (85-80)^2 = 50
计算每组的SS并加起来得到SSE。然后使用上面的公式计算交互效应SS。
  1. 计算均方 (MS) 和 F 值MSMethod = SSBMethod / df_{Method} MSDuration = SSBDuration / df_{Duration} MSInteraction = SSInteraction / df_{Interaction} MSError = SSE / df_{Error}
然后,对于每个效应和交互效应,计算F值: FMethod = MSMethod / MSError FDuration = MSDuration / MSError FInteraction = MSInteraction / MSError
  1. 使用F分布表得出结论: 根据自由度和显著性水平(例如α=0.05),查F分布表得到临界值,与计算的F值进行比较。
这只是一个简化的例子,真实情况下的计算可能会更复杂。现代统计软件可以自动完成这些计算
 

其他指标

  1. F值:这是你的数据产生的统计量。在方差分析中,F值衡量了组间差异与组内差异的相对大小。较大的F值意味着组间的差异相对于组内的差异更大,这可能意味着你的组有显著差异。
  1. p-value:这是进行F检验后得到的概率值,它表示观察到的统计量(或更极端的统计量)在零假设为真的情况下出现的概率。在方差分析的上下文中,零假设通常是所有组的总体均值相同。较低的p-value(例如,小于0.05)通常被解释为拒绝零假设,这意味着至少有两个组的均值在统计上是显著不同的。
  1. Fcrit (F临界值):这是从F分布表中查到的临界值,与给定的自由度和所选的显著性水平(如α=0.05)相关。你的计算出的F值需要与这个临界值进行比较。如果F值大于Fcrit,则结果被认为是统计显著的,你可以拒绝零假设。
简而言之:
  • 如果F值 > Fcrit,那么结果是统计显著的。
  • 如果p-value < α(通常是0.05),那么结果也是统计显著的。
实际上,F值和p-value提供了相同的信息,只是表示方式不同。p-value是更直观的方法,因为它给出了拒绝零假设的确切概率。现代的统计软件通常都会输出p-value。
 

例子

示例数据:

Method
Duration
Student Scores
A
1 hour
75, 85
A
2 hours
90, 95
B
1 hour
80, 90
B
2 hours
85, 87
假设我们只分析教学方法的影响,忽略学习时长。
  1. 总均值
Xˉtotal = (75+85+90+95+80+90+85+87) / 8 = 86.125
  1. 组均值
方法A: 83.75
方法B: 85.5
  1. 总平方和 (SST)
SST = Σ(all scores - Xˉtotal)^2
≈ 287.875
  1. 组间平方和 (SSB)
SSB = Σn(each group's mean - Xˉtotal)^2
= 2(83.75-86.125)^2 + 2(85.5-86.125)^2
≈ 11.3125
  1. 误差平方和 (SSE)
SSE = SST - SSB
≈ 276.5625
  1. 计算F值
dfbetween = number of groups - 1 = 2 - 1 = 1
dfwithin = total number of observations - number of groups = 8 - 2 = 6
MSbetween = SSB / dfbetween = 11.3125 / 1 = 11.3125
MSwithin = SSE / dfwithin = 276.5625 / 6 ≈ 46.09375
F = MSbetween / MSwithin = 11.3125 / 46.09375 ≈ 0.2453
  1. 查F分布表得到Fcrit
对于α = 0.05,dfbetween = 1 和 dfwithin = 6,我们可以查F分布表得到临界值。假设Fcrit = 5.987 (这个值只是一个示例,实际值可能会有所不同)。
因为0.2453 < 5.987,我们不能拒绝零假设。这意味着两种教学方法在考试成绩上没有显著差异。
  1. p-value
现代统计软件可以直接给出F检验的p-value。在这个例子中,由于F值相对较低,p-value将远大于0.05,与我们的结论一致。
这就是F检验和p-value的计算过程。这个例子进行了简化,以使计算过程更为清晰。在真实的研究中,通常建议使用统计软件进行计算,以确保准确性和完整性。
Docker ConfigQGIS-Basic operations
Tianqi
Tianqi
I'm currently working in a lab focused on computer vision projects powered by machine learning.
Announcement
type
status
date
slug
summary
tags
category
icon
password
🎉Welcome to my blog🎉
Sometimes it is necessary to refresh the page twice to get the latest data because the data in the database is not updated in time. This operation can be performed on each page.
-- Tianqi ---