テューキーの範囲検定

テューキーの範囲検定（テューキーのはんいけんてい、英: Tukey's range test）は、一段階（シングルステップ）多重比較法ならびに統計検定の一種である。テューキーの範囲検定、テューキー法、テューキーのHSD (honestly significant difference) 検定としても知られている^[1]。名称はジョン・テューキーに因む^[2]。テューキー法では全ての可能な平均の対を比較し、「スチューデント化された範囲分布（英語版）」(q) を用いる（この分布はt検定に用いられるt分布に似ている）^[3]。テューキーのHSD検定は、テューキーの平均差検定（ブランド=アルトマン検定としても知られている）と混同してはならない。

テューキーの検定は、全ての処理の平均をその他全ての処理の平均と比較する。つまり、全ての一対比較の組

\mu _{i}-\mu _{j}\,

に同時に適用され、期待される標準誤差よりも大きな2つの平均の間の差を特定する。全ての標本の大きさが等しい時、この集合に対する信頼係数は厳密に1 − αである。標本の大きさが等しくない場合、信頼係数は1 − αより大きくなる。言い換えれば、テューキー法は標本の大きさが等しくない場合は保守的である。

よくある誤解として分散分析（ANOVA）で有意差があった（全ての群が同じ母集団から来ているという帰無仮説を棄却した）後に、テューキーの検定といった多重比較を行うべき、というものがある。しかし、分散分析で有意差が認められなくても、多重比較で群間に有意差が認められることはありうるため、群間の比較に興味がある時は多重比較の前に分散分析を行うべきではない。

元々はサンプルサイズが等しいときの方法がテューキーの方法と呼ばれており、サンプルサイズが等しくない場合に拡張したものがテューキー・クレーマーの方法である^[4]。サンプルサイズが等しい場合、最大タイプI ファミリーワイズエラー率は有意水準αと一致する^[4]。サンプルサイズが等しくない場合にも、最大タイプIファミリーワイズエラー率がα以下になることが証明されている^[4]。

テューキーの検定の仮定

検定される観測は独立である。
母集団分布は正規分布である^[5]。
検定におけるそれぞれの平均と関連した群の全域で群内分散が等しい（等分散性）^[5]。

検定統計量

テューキーの検定はt検定とよく似た式に基づいている。実際、テューキーの検定は実験あたりの過誤率（experiment-wise error rate）を補正することを除けば本質的にt検定である（多重比較を行う時、第一種過誤が発生する確率が増大する。テューキーの検定はこれを補正するため、多くのt検定を行うよりも多重検定に適している）^[3]。

テューキーの検定の式は以下の通りである。

q_{s}={\frac {Y_{A}-Y_{B}}{SE}},

Y_Aは比較する2つの平均のより大きいもの、Y_Bは比較する2つの平均のより小さなもの、SEは問題になっているデータの標準誤差である。

このq_sは次に、「スチューデント化された範囲」の分布からのq値と比較される。q_sがスチューデント化された範囲の分布から得られたq_critical値よりも「大きい」場合は、2つの平均間に有意差があると考えられる^[3]。

テューキーの検定の帰無仮説は、比較される全ての平均が同じ母集団に属する（すなわちμ₁ = μ₂ = μ₃ = ... = μ_n）というものであるため、（中心極限定理により）平均は正規分布しなければならない。これによりテューキーの検定のnormality assumption（誤差は正規分布に従うという仮定）が生じる。

信頼限界

少なくとも1 − αの信頼係数を持つ全ての一対比較に対するテューキーの信頼限界は

{\bar {y}}_{i\bullet }-{\bar {y}}_{j\bullet }\pm {\frac {q_{\alpha ;r;N-r}}{\sqrt {2}}}{\widehat {\sigma }}_{\varepsilon }{\sqrt {\frac {2}{n}}}\qquad i,j=1,\ldots ,r\quad i\neq j.

である。点推定量および推定分散は、単一の一対比較に対するものと同じである。同時比較に対する信頼限界と単一比較に対する信頼限界との間の唯一の違いは、推定標準偏差の多重度である。

スチューデント化された範囲分布を用いる時には、標本サイズは等しくなければならない。 ${\widehat {\sigma }}_{\varepsilon }$ は比較する2群のみの標準偏差ではなく、全配置の標準偏差である。異なる標本サイズに対するテューキー・クレーマー法は以下の通りである。

{\bar {y}}_{i\bullet }-{\bar {y}}_{j\bullet }\pm {\frac {q_{\alpha ;r;N-r}}{\sqrt {2}}}{\widehat {\sigma }}_{\varepsilon }{\sqrt {{\frac {1}{n}}_{i}+{\frac {1}{n}}_{j}}}\qquad

n_iおよびn_jはそれぞれ群iおよびjのサイズである。全配置の自由度も適用される。

スチューデント化された範囲 (q) 分布

テューキー法はスチューデント化された範囲分布を用いる。平均μ、分散σ²の正規分布からr回の独立した観測y₁, ..., y_rを行うと仮定する。wをこの組の範囲、すなわち最大引く最小とする。ここで、ν自由度に基づきy_i (i = 1,...,r) から独立している分散σ²の推定値s²を仮定する。スチューデント化された範囲は

q_{r,\nu }=w/s\,

と定義される。

テューキーの検定は同じ母集団からの2つの標本の比較に基づく。最初の標本から、範囲（最大観測値から最小値を差し引いて計算される: $\scriptstyle {\text{range}}\,=\,\max _{i}(Y_{i})\,-\,\min _{i}(Y_{i})$ ）が計算され、2つ目の標本から標準偏差が計算される。スチューデント化された範囲の比は次に以下のように計算される（q = スチューデント化された範囲、s = 2つ目の標本の標準偏差）。

q={\frac {\text{range}}{s}}

qのこの値はqの臨界値の基礎であり、3つの因子に基づく。

α（第一種過誤の度合い: 帰無仮説を棄却してしまう確率）
n（最初の標本の自由度の数）
v（2つ目の標本の自由度の数）

qの分布は多くの統計の教科書に表で掲載されている。加えてRにはqのための累積分布関数 (ptukey) および分位関数 (qtukey) が含まれている。

比較の順序

A > B > C > Dと順位付けされる一組の平均（A, B, C, D）がある時、全ての可能の比較をテューキーの検定を用いて検定する必要はない。冗長性を回避するため、まず最大の平均（A）と最小の平均（D）の比較から始める。平均AとDの比較に対するq_s値が分布のq値よりも小さいとすると、帰無仮説は棄却されず、これらの平均の間には統計的有意差はないとされる。最大差のある2つの平均間に有意差がないため、それよりも差が小さい2つの平均の比較からは（標本の大きさが理想的ならば）同じ結論が得られると確実である。この結果、その他の比較を行う必要はない^[3]。

概して、テューキーの検定は、常にまず最大平均と最小の平均の比較を行い、次に最大平均と2番目の最小の平均の平均の比較、と最大平均とその他全ての平均が比較される（あるいは有意差が見られなくなる）まで行うことが重要である。この後、2番目の最大の平均と最小平均の比較を同様に行っていく。

標本の大きさが異なる場合

標本の大きさが異なる場合でも検定を行うことは可能である。この場合、全ての対比較について推定標準偏差を1956年にClyde Kramerによって形式化された方法で計算しなければならない。このため、標本の大きさが異なる場合の方法はテューキー・クレーマーの方法と呼ばれることがある^[4]。

シェッフェの方法による比較

もし対比較のみを行う場合は、テューキー・クレーマー法はシェッフェの方法よりも狭い信頼限界（好ましく、より検出力が高い）を与える。多くあるいは全ての対比（グループごとの比較）に興味がある時は、シェッフェの方法はより狭い信頼限界を与える傾向にあり、ゆえに好ましい手法となる。

脚注

^ Lowry, Richard. One Way ANOVA – Independent Samples. Vassar.edu. Retrieved on December 4th, 2008
^ Tukey, J. (1949). “Comparing Individual Means in the Analysis of Variance”. Biometrics 5 (2): 99-114. PMID 18151955.
^ ^a ^b ^c ^d Linton, L.R., Harder, L.D. (2007) Biology 315 – Quantitative Biology Lecture Notes. University of Calgary, Calgary, AB
^ ^a ^b ^c ^d 永田 & 吉田 1997, p. 37.
^ ^a ^b 永田 & 吉田 1997, p. 35.
^ ^a ^b ^c ^d ^e ^f 林智幸、新見直子「厳格化の観点からの多重比較法の整理」『広島大学大学院教育学研究科紀要. 第三部, 教育人間科学関連領域』第54号、2006年、189–196頁、doi:10.15027/27381。

参考文献

永田靖、吉田道弘『統計的多重比較法の基礎』サイエンティスト社、1997年。ISBN 978-4914903466。

外部リンク

NIST/SEMATECH e-Handbook of Statistical Methods: Tukey's method

[Vassar-1] Lowry, Richard. One Way ANOVA – Independent Samples. Vassar.edu. Retrieved on December 4th, 2008

[2] Tukey, J. (1949). “Comparing Individual Means in the Analysis of Variance”. Biometrics 5 (2): 99-114. PMID 18151955.

[Calgary-3] Linton, L.R., Harder, L.D. (2007) Biology 315 – Quantitative Biology Lecture Notes. University of Calgary, Calgary, AB

[FOOTNOTE永田吉田199737-4] 永田 & 吉田 1997, p. 37.

[FOOTNOTE永田吉田199735-5] 永田 & 吉田 1997, p. 35.

[hiroshima-6] ^ ^a ^b ^c ^d ^e ^f 林智幸、新見直子「厳格化の観点からの多重比較法の整理」『広島大学大学院教育学研究科紀要. 第三部, 教育人間科学関連領域』第54号、2006年、189–196頁、doi:10.15027/27381。

[1]

[2]

[3]

[4]

[5]

[6]