ファミリーワイズエラー率

統計学において、ファミリーワイズエラー率（ファミリーワイズエラーりつ、英: familywise error rate、略称: FWER）は、多重仮説検定を行う際に、全ての仮説の中で少なくとも1つの正しい帰無仮説が誤って棄却されてしまう（第一種過誤）確率である。ファミリーは帰無仮説の集合（帰無仮説族^[1]）のことであり、ファミリーワイズは「帰無仮説の集合ごとの」といった意味である。したがってFWERは「帰無仮説の集合ごとの第一種の過誤の確率」を意味する。Error rateは誤り率や危険率とも訳される。

ボンフェローニ補正といったFWER手順は、偽発見率 (FDR) 制御法と比較してより厳しく偽発見を制御する。FWER制御は、偽発見の予測比率ではなく、「たった1つの」偽発見の確率を減らそうと試みる。ゆえに、FDR手順は第一種過誤の確率が上昇するという代償を払ってより高い検出力を有している^[2]。

定義

m個の仮説検定の分類

→詳細は「多重比較問題」を参照

以下のm個の帰無仮説を仮定する。

H₁, H₂, ..., H_m

統計的検定を用い、それぞれの仮説が有意であるか有意でないかを示す。H_i に渡る検定結果を合計すると、以下の表ならびに関連する確率変数が得られる。

	帰無仮説が真	対立仮説が真	系
有意	$V$	$S$	$R$
有意でない	$U$	$T$	$m-R$
Total	$m_{0}$	$m-m_{0}$	$m$

$m_{0}$ は真である帰無仮説の数で未知のパラメーター。
$m-m_{0}$ は真である対立仮説の数
$V$ は偽陽性（第一種過誤）の数
$S$ は真陽性の数
$T$ は偽陰性（第二種過誤）の数
$U$ は真陰性の数
$R$ は棄却される帰無仮説の数
$R$ は観測できる確率変数であるが、 $S$ 、 $T$ 、 $U$ 、および $V$ は観測できない確率変数である。

FWER

FWERはファミリーの中の少なくとも1つの正しい帰無仮説が誤って棄却されてしまう確率である。

\mathrm {FWER} =\Pr(V\geq 1),\,

あるいは

\mathrm {FWER} =1-\Pr(V=0).

ゆえに、 $\mathrm {FWER} \leq \alpha \,\!\,$ であることを保証することによって、ファミリーの中の少なくとも1つの正しい帰無仮説が誤って棄却されてしまう確率が $\alpha \,\!$ 水準に制御される。

全ての帰無仮説が真（すなわち $m_{0}$ = $m$ であり、包括的帰無仮説が真）である時のみ $\alpha \,\!$ 水準でのFWER制御が保証される場合、この手法は弱い意味でFWERを制御する。

真である帰無仮説や偽である帰無仮説のいかなる組み合わせ（包括的帰無仮説を含む）に対しても $\alpha \,\!$ 水準でのFWER制御が保証される場合、この手法は強い意味でFWERを制御する。

ファミリーの概念

統計的枠組みの中では、「ファミリー」という用語に対して複数の定義が存在する。

まず第一に、探索的データ解析と確認的データ解析との間の区別を付けなければならない。探索的解析では、ファミリーは全ての下された推定と下される可能性のある推定から構成されるのに対して、確認的解析の場合は、ファミリーは研究に先立って指定された興味のある推定のみを含む。

Hochberg & Tamhane (1987)^[3]は、「ファミリー」を「ある組み合わされたエラーの程度を考慮するために意味を持つ推定の集合」と定義する。

Cox (1982)によれば、一組の推定は

データの浚渫による選択効果を考慮するため
全体の決定が正しいことを保証するために一組の推論を同時の正しさを確かにするため

にファミリーと見なされなければならない。

まとめると、ファミリーは目の前にした選択される可能性のある推定によって適切に定義できる。ファミリーは分析における推定の最小の組であり、研究の目標のためのそれらの意味については置き換え可能であり、影響、発表、あるいは強調のために結果の選択がなされうる。

歴史

テューキーは初め、研究者が多重仮説実験における制御水準として用いなければならない過誤の確率として、実験あたりの（experimentwise）エラー率と実験前のエラー率という用語を造った。

実験で行われる全ての検定が単一のファミリーによって構成されなければならない訳ではない（例えば多段階の実験では、それぞれの段階ごとに異なるファミリーが用いられる）ため、この用語はミラーによって「ファミリーワイズエラー率」と改名された（後にテューキーはこれを「バッチワイズ」あるいは「バッチごとの」として採用した）。

同時推定と選択的推定

FWERの制御は、ファミリー中の全ての推定が前もって指定されたエラー率まで一緒に修正される同時推定の一形式である。ファミリーの定義に依存し、研究者は異なる形式の推定を選択できる。

例えば、同時推定は、現在科学が取り組んでいるような特定の大規模な問題に対しては保守的過ぎるかもしれない。こういった問題に対しては、大規模な集合からの仮説の部分集合をファミリーと見なす選択的推定アプローチがより適している。選択的推定は大抵、偽発見率（FDR）を制御することによって行われる。FDR制御は（ボンフェローニ補正といった）FWER手順よりも検出力が高い（すなわちより保守的でない）手順であり、棄却された仮説の中に偽陽性を含む確率が増大する代償を払っている。

制御手順

以下は強力な $\alpha$ 水準でのFWER制御が保証されている「old and trusted（頼りになる）」な手順の一部である。

ボンフェローニ補正

→詳細は「ボンフェローニ補正」を参照

帰無仮説 $H_{i}$ を検定するためのp値 $p_{i}$ によって示される
$p_{i}\leq {\frac {\alpha }{m}}$ ならば $H_{i}$ は棄却される

シダックの手順

→詳細は「シダック補正」を参照

検定統計量が独立とすると、水準 $\alpha _{SID}=1-(1-\alpha )^{\frac {1}{m}}$ での個々の仮説の検定がシダックの多重検定手順である。
ボンフェローニの手順よりも一般的でない。

テューキーの手順

→詳細は「テューキーの範囲検定」を参照

テューキーの手順は一対比較にのみ適用できる。
検定される観測の独立と観測全体での等分散性を仮定する。
それぞれの対に対してスチューデント化された範囲の統計量 ${\frac {Y_{A}-Y_{B}}{SE}}$ を計算する（ $Y_{A}$ 2つの平均のうち大きい方、 $Y_{B}$ は小さい方、 $SE$ は問題になっているデータの標準誤差）。
テューキーの検定はファミリーワイズエラー率を制御することを除けばスチューデントのt検定と本質的に同じである。

ホルムのステップダウン手順（1979年）

→詳細は「ホルム＝ボンフェローニ法」を参照

p値を（最小から最大まで） $P_{(1)}\ldots P_{(m)}$ と順序付け、結び付いた仮説を $H_{(1)}\ldots H_{(m)}$ とする
$R$ は $P_{(k)}>{\frac {\alpha }{m+1-k}}$ となるような最小の $k$ とする
帰無仮説 $H_{(1)}\ldots H_{(R-1)}$ を棄却する。 $R=1$ ならば全ての帰無仮説は棄却されない
この手順はボンフェローニのものよりも一様に優れている^[要出典]
この手順がm個全ての仮説を強くα水準で制御する理由は、これが実質的に閉検定手順だからである。つまり、それぞれの共通集合は単純なボンフェローニ補正を用いて検定される。

ホッホベルクのステップアップ手順（1988年）

ホッホベルクのステップアップ手順（1988年）は、以下の段階を用いて行われる^[4] 。

p値を（最小から最大まで） $P_{(1)}\ldots P_{(m)}$ と順序付け、結び付いた仮説を $H_{(1)}\ldots H_{(m)}$ とする
任意の $\alpha$ に対して、 $R$ は $P_{(k)}\leq {\frac {\alpha }{m+1-k}}$ となるような最大の $k$ とする。
帰無仮説 $H_{(1)}\ldots H_{(R)}$ を棄却する

ホッホベルグの手順はホルムの手順よりも検出力が高い。そうは言っても、ホルムの手順が検定統計量の併さった分布について制限のないボンフェローニ補正に基づいているのに対して、ホッホベルグの手順はシムズ検定（1987年）に基づいているため、独立が仮定される時のみ（あるいはある種の正の依存性が仮定される時のみ）有効である。

ダネットの補正

→詳細は「ダネットの検定」を参照

チャールズ・ダネット（1955年、1966年）はk個の群を同じ対照群と比較する時にαエラーを調節する代替手法を記述した。現在はダネットの検定として知られているこの手法は、ボンフェローニ補正よりも保守的でない。

シェッフェの方法

→詳細は「シェッフェの方法」を参照

閉検定手順

→詳細は「閉検定手順」を参照

閉検定手順における全ての共通集合仮説が正当な局所α水準を用いて検定されるとすると、閉検定手順はファミリーワイズの第一種過誤の確率を制御する。閉検定手順は、ボンフェローニの手順やホルムのステップダウン手順を含む検定手順の柔軟な一般分類である。

その他の手順

強い $\alpha$ 水準FWER制御を保証する進んだ手順としては、最大絶対値検定がある。

また注目すべきは、ファミリーワイズエラー率を制御するための試みには多くの代替手段が存在することである。中でも注目すべきは、ベンジャミーニとホッホベルクによって1955年に考案された偽発見率であり、偽発見率はより実用的な方法で大規模推定問題の多くに対処する。

例

以下の3つの群を用いた新しい抗うつ薬のランダム化臨床試験を考える。

既存薬
新薬
プラセボ

こうようなデザインにおいて、研究者は新しい薬を使用した時に古い薬を使用した時よりもうつ症状が減少するか（例えばベックのうつ評価尺度よって計測される）に興味があるだろう。その上、副作用（例えば過眠症、性欲減退、ドライマウス）が観察されるかに興味があるかもしれない。こういった場合、以下の2つのファミリーが同定されうる。

うつ症状に対する薬の効果
副作用の発生

研究者はそれぞれのファミリーに対して容認できる第一種過誤（Type Iエラー）の確率 $\alpha$ （通常0.05）を指定し、適切な多重比較手順を用いてファミリーワイズのエラーを制御する。

一つ目のファミリーであるうつ症状に対する抗うつ薬の効果では、群間の一対比較がテューキーの範囲検定といった手法を用いて一緒に制御される。ここでは、検定が3つのみのため、ボンフェローニ補正でも十分である。
副作用プロフィールに関しては、それぞれの副作用について3つの比較を行うため、それぞれの副作用に0.05のα水準を与えて検定すると、少くとも1つの第一種過誤を犯す確率は37%になってしまう（ $1-0.95^{9}=1-0.63=0.37$ ）。計9個の仮説があるため、この場合はボンフェローニ補正は保守的過ぎ、テューキーの範囲検定やホルム＝ボンフェローニ法といったより検出力の高い手法がより適切であろう。例えば、研究者は $\alpha$ を3で割り（0.05/3 = 0.0167）、この0.0167をそれぞれの副作用の多重比較手順に割り当てることができる。したがって、テューキーの範囲検定の場合、スチューデント化された範囲検定量の臨界値qは、0.0167の $\alpha$ 値に基づくこととなる。

脚注

^ 永田靖、吉田道弘『統計的多重比較法の基礎』サイエンティスト社、東京都、1997年。ISBN 978-4914903466。
^ Shaffer J.P. (1995). “Multiple hypothesis testing”. Annual Review of Psychology 46: 561-584. doi:10.1146/annurev.ps.46.020195.003021.
^ Hochberg Y, Tamhane AC (1987). Multiple comparison procedures. New York: Wiley
^ Hochberg, Yosef (1988). “A Sharper Bonferroni Procedure for Multiple Tests of Significance”. Biometrika 75 (4): 800–802. doi:10.1093/biomet/75.4.800.

外部リンク

Large-scale Simultaneous Inference – Syllabus, notes, and homework from Efron's course at Stanford. Includes PDFs for each chapter of his book.

[1] 永田靖、吉田道弘『統計的多重比較法の基礎』サイエンティスト社、東京都、1997年。ISBN 978-4914903466。

[2] Shaffer J.P. (1995). “Multiple hypothesis testing”. Annual Review of Psychology 46: 561-584. doi:10.1146/annurev.ps.46.020195.003021.

[3] Hochberg Y, Tamhane AC (1987). Multiple comparison procedures. New York: Wiley

[Hochberg1988-4] Hochberg, Yosef (1988). “A Sharper Bonferroni Procedure for Multiple Tests of Significance”. Biometrika 75 (4): 800–802. doi:10.1093/biomet/75.4.800.

[1]

[2]

[3]

[4]

定義