テューキーの範囲検定
テューキーの範囲検定(テューキーのはんいけんてい、英: Tukey's range test)は、一段階(シングルステップ)多重比較法ならびに統計検定の一種である。テューキーの範囲検定、テューキー法、テューキーのHSD (honestly significant difference) 検定としても知られている[1]。名称はジョン・テューキーに因む[2]。テューキー法では全ての可能な平均の対を比較し、「スチューデント化された範囲分布」(q) を用いる(この分布はt検定に用いられるt分布に似ている)[3]。テューキーのHSD検定は、テューキーの平均差検定(ブランド=アルトマン検定としても知られている)と混同してはならない。
テューキーの検定は、全ての処理の平均をその他全ての処理の平均と比較する。つまり、全ての一対比較の組
に同時に適用され、期待される標準誤差よりも大きな2つの平均の間の差を特定する。全ての標本の大きさが等しい時、この集合に対する信頼係数は厳密に1 − αである。標本の大きさが等しくない場合、信頼係数は1 − αより大きくなる。言い換えれば、テューキー法は標本の大きさが等しくない場合は保守的である。
よくある誤解として分散分析(ANOVA)で有意差があった(全ての群が同じ母集団から来ているという帰無仮説を棄却した)後に、テューキーの検定といった多重比較を行うべき、というものがある。しかし、分散分析で有意差が認められなくても、多重比較で群間に有意差が認められることはありうるため、群間の比較に興味がある時は多重比較の前に分散分析を行うべきではない。
元々はサンプルサイズが等しいときの方法がテューキーの方法と呼ばれており、サンプルサイズが等しくない場合に拡張したものがテューキー・クレーマーの方法である[4]。サンプルサイズが等しい場合、最大タイプIファミリーワイズエラー率は有意水準αと一致する[4]。サンプルサイズが等しくない場合にも、最大タイプIファミリーワイズエラー率がα以下になることが証明されている[4]。
テューキーの検定の仮定
[編集]検定統計量
[編集]テューキーの検定はt検定とよく似た式に基づいている。実際、テューキーの検定は実験あたりの過誤率(experiment-wise error rate)を補正することを除けば本質的にt検定である(多重比較を行う時、第一種過誤が発生する確率が増大する。テューキーの検定はこれを補正するため、多くのt検定を行うよりも多重検定に適している)[3]。
テューキーの検定の式は以下の通りである。
YAは比較する2つの平均のより大きいもの、YBは比較する2つの平均のより小さなもの、SEは問題になっているデータの標準誤差である。
このqsは次に、「スチューデント化された範囲」の分布からのq値と比較される。qsがスチューデント化された範囲の分布から得られたqcritical値よりも「大きい」場合は、2つの平均間に有意差があると考えられる[3]。
テューキーの検定の帰無仮説は、比較される全ての平均が同じ母集団に属する(すなわちμ1 = μ2 = μ3 = ... = μn)というものであるため、(中心極限定理により)平均は正規分布しなければならない。これによりテューキーの検定のnormality assumption(誤差は正規分布に従うという仮定)が生じる。
信頼限界
[編集]少なくとも1 − αの信頼係数を持つ全ての一対比較に対するテューキーの信頼限界は
である。点推定量および推定分散は、単一の一対比較に対するものと同じである。同時比較に対する信頼限界と単一比較に対する信頼限界との間の唯一の違いは、推定標準偏差の多重度である。
スチューデント化された範囲分布を用いる時には、標本サイズは等しくなければならない。は比較する2群のみの標準偏差ではなく、全配置の標準偏差である。異なる標本サイズに対するテューキー・クレーマー法は以下の通りである。
n iおよびn jはそれぞれ群iおよびjのサイズである。全配置の自由度も適用される。
スチューデント化された範囲 (q) 分布
[編集]テューキー法はスチューデント化された範囲分布を用いる。平均μ、分散σ2の正規分布からr回の独立した観測y1, ..., yrを行うと仮定する。wをこの組の範囲、すなわち最大引く最小とする。ここで、ν自由度に基づきyi (i = 1,...,r) から独立している分散σ2の推定値s2を仮定する。スチューデント化された範囲は
と定義される。
テューキーの検定は同じ母集団からの2つの標本の比較に基づく。最初の標本から、範囲(最大観測値から最小値を差し引いて計算される: )が計算され、2つ目の標本から標準偏差が計算される。スチューデント化された範囲の比は次に以下のように計算される(q = スチューデント化された範囲、s = 2つ目の標本の標準偏差)。
qのこの値はqの臨界値の基礎であり、3つの因子に基づく。
qの分布は多くの統計の教科書に表で掲載されている。加えてRにはqのための累積分布関数 (ptukey
) および分位関数 (qtukey
) が含まれている。
比較の順序
[編集]A > B > C > Dと順位付けされる一組の平均(A, B, C, D)がある時、全ての可能の比較をテューキーの検定を用いて検定する必要はない。冗長性を回避するため、まず最大の平均(A)と最小の平均(D)の比較から始める。平均AとDの比較に対するqs値が分布のq値よりも小さいとすると、帰無仮説は棄却されず、これらの平均の間には統計的有意差はないとされる。最大差のある2つの平均間に有意差がないため、それよりも差が小さい2つの平均の比較からは(標本の大きさが理想的ならば)同じ結論が得られると確実である。この結果、その他の比較を行う必要はない[3]。
概して、テューキーの検定は、常にまず最大平均と最小の平均の比較を行い、次に最大平均と2番目の最小の平均の平均の比較、と最大平均とその他全ての平均が比較される(あるいは有意差が見られなくなる)まで行うことが重要である。この後、2番目の最大の平均と最小平均の比較を同様に行っていく。
標本の大きさが異なる場合
[編集]標本の大きさが異なる場合でも検定を行うことは可能である。この場合、全ての対比較について推定標準偏差を1956年にClyde Kramerによって形式化された方法で計算しなければならない。このため、標本の大きさが異なる場合の方法はテューキー・クレーマーの方法と呼ばれることがある[4]。
関連手法
[編集]- スチューデント=ニューマン=コイルス法(SNK法)
- テューキーのHSD法は一律に厳しい基準を適用するシングルステップ法であるが、SNK法は平均の比較の異なる対に対して異なる臨界値を用いるステップダウン法である[6]。
- テューキーのWSD(wholly significant difference)検定
- 「『厳しすぎる』テューキーのHSD法と『やや甘い』SNK法の平均化を図った方法」[6]。
- Tukey Welsch (Q) 法
- 「ステップ数に応じてシダックの不等式に有意水準を調整したq分布の臨界値を使う方法」[6]。
- Games-Howell法
- 非等分散性を仮定する「ウェルチ検定により算出された統計量と、より厳しくされた自由度を使ったq分布の臨界値にて有意性を判定する手法」[6]。
- ダネットのC法
- Games-Howell法よりも厳しく調整された自由度を用いる手法[6]。非等分散性を仮定する。
- Games-Howell-C法
- Games-Howell法とダネットのC法を平均化した手法[6]。非等分散性を仮定する。
シェッフェの方法による比較
[編集]もし対比較のみを行う場合は、テューキー・クレーマー法はシェッフェの方法よりも狭い信頼限界(好ましく、より検出力が高い)を与える。多くあるいは全ての対比(グループごとの比較)に興味がある時は、シェッフェの方法はより狭い信頼限界を与える傾向にあり、ゆえに好ましい手法となる。
脚注
[編集]- ^ Lowry, Richard. One Way ANOVA – Independent Samples. Vassar.edu. Retrieved on December 4th, 2008
- ^ Tukey, J. (1949). “Comparing Individual Means in the Analysis of Variance”. Biometrics 5 (2): 99-114. PMID 18151955 .
- ^ a b c d Linton, L.R., Harder, L.D. (2007) Biology 315 – Quantitative Biology Lecture Notes. University of Calgary, Calgary, AB
- ^ a b c d 永田 & 吉田 1997, p. 37.
- ^ a b 永田 & 吉田 1997, p. 35.
- ^ a b c d e f 林 智幸、新見 直子「厳格化の観点からの多重比較法の整理」『広島大学大学院教育学研究科紀要. 第三部, 教育人間科学関連領域』第54号、2006年、189–196頁、doi:10.15027/27381。
参考文献
[編集]- 永田靖、吉田道弘『統計的多重比較法の基礎』サイエンティスト社、1997年。ISBN 978-4914903466。