有意

統計学的有意（とうけいがくてきゆうい、英: statistical significance）は、確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」^[1]ことを指す。科学分野での用語として、有意である（significant）とは「注目に値するほど大きい、ないしは重要である」という意味も持つ^[2]。

P値

→詳細は「P値」を参照

帰無仮説の下で実際にデータから計算された統計量よりも極端な（仮説に反する）統計量が観測される確率を、P値という。P値の利用に伴う諸問題を考慮した社会心理学系のジャーナル、Basic and Applied Social Psychology（英語版）（BASP）は、帰無仮説有意性検定およびそれに類する統計学的処理を禁止すると発表した^[3]。

有意水準

有意水準α (0<α<1) は、どの程度の正確さをもって帰無仮説 $H_{0}$ を棄却するかを表す定数である。有意水準αの仮説検定は、 $p<\alpha$ の時に $H_{0}$ を棄却する。このとき、「統計量はα水準で有意である」という。有意水準αは仮説 $H_{0}$ が正しいにもかかわらず仮説検定で棄却してしまう確率（第一種過誤を犯す確率）に等しい。日本工業規格では、「第一種の誤りの確率の上限値」と定義している^[4] 。

有意水準 $\alpha$ の値としては、0.05 (5%) を用いるのが一般的であるが、そのとり方は学問・調査・研究対象によっても違いがあり、社会科学などでは0.1（10%）を用いる場合もあり、厳密さが求められる自然科学では0.01（1%）などを用いる場合もある。また、データ表示に当たっては有意性に段階をつけて複数の有意水準を同時に用いることもあり、たとえば0.05水準で有意ならば * 、0.01水準と0.001水準に対してはそれぞれ ** 、 *** と表示する。

有意であるからといって「偶然ではない」と断定できるわけではなく、「偶然とは考えにくい」という意味に過ぎない。したがって、たとえば有意水準5%で有意という場合には、「実際には偶然に過ぎないのに、誤って『意味がある』と判断している」可能性が多くて5%ある。

逆に、 $p>\alpha$ の場合は、「有意差があるとはいえない」とまでしかならない^[5]。

有意水準に対する批判

2010年代初頭に入ると科学は「再現性の危機」に苦しんでいて、研究者も助成機関も出版社も、学術文献は信頼できない結果にまみれているのではないかと不安を募らせている。2017年に72人の著名な研究者が、新たな発見をしたと主張する際の証拠の統計的基準の低さが再現性の危機の一因になっているとする論文を発表した。新発見の統計的有意性を評価するために、科学者が好んで用いる有意水準 $\alpha$ の値は0.05から0.005に引き下げるべきであると、統計学の大家たちは主張する。

その一方、イリノイ工科大学の計算機科学者Shlomo Argamonは「実験する方法が多数ある限り、どんなに小さい有意水準 $\alpha$ の値を用いてもその中に一つの実験方法が偶然に有意になる可能性が極めて高い」と新しい方法論的な基準を求める。実際小さい有意水準 $\alpha$ の値を用いたらお蔵入り問題がより著しくなり、多数の論文が出版できなくなる^[6]。

2016年にはこの問題について、アメリカ統計協会が声明を発表^[7]し、「どんなに小さい効果でも、サンプルサイズが大きかったり測定精度が十分高ければ小さいP値となりうる」「P値は仮説やその計算の背後にある仮定に基づいたデータについての記述であり、仮説や背後にある仮定自身についての記述ではない」など、P値についての基本的な問題点を整理し、「P値は、それだけでは統計モデルや仮説に関するエビデンスの、よい指標とはならない」ことを強調している。

2019年には科学者800人超が、『ネイチャー』に署名し、P値が有意水準より大きい場合、「有意差があるとはいえない」とまでしかならないが、誤って「有意差がない＝薬などの効果がない」と推論する文献は791文献中の51%に見当たったということで、「統計的有意性」を使うのをやめて信頼区間を互換区間という言葉に言い換えて使用すべきだとされた^[5]。

多重比較

→「多重比較問題」も参照

同種の検定を繰り返して全体での有意性の有無を判断する場合（多重比較）、1回の検定に対する有意水準をαとすると、k回の同様の試行に対して一度でも有意な結果を得る確率 $\alpha _{k}$ はk回の試行の独立性に依存する。たとえば、k回の試行が独立であるときは、 $\alpha _{k}=1-(1-\alpha )^{k}$ となる。しかしながら、 $\alpha _{k}$ の上限はkαであることから、1回の検定に対する有意水準をα/kと定めれば、k回の同様の試行に対して有意水準が高々αの検定を行うことができる。これをボンフェローニ補正という。ただし、この方法ではkの値が大きくなるにつれて有意水準が下がり、実用性に乏しくなる。そのため、より検定力の高い手法が提案されている。古くはLSD法が、ボンフェローニ法と共に計算が容易であるため好まれた。今日では、テューキーの範囲検定やRyan法が最も一般的である。また、シェッフェの方法やWSD法も見かけるようになっている。これらは、分散分析で3水準以上の要因の主効果が有意であった場合の下位検定にも用いられる。