平均への回帰
平均への回帰(へいきんへのかいき、または平均回帰、回帰効果)とは、ある1つの試験結果について偏った成績(特別に良かったもしくは悪かった)の集団を対象として2つ目の試験(時間的には逆でもよい)の結果を見ると、その集団の平均成績は1つ目より2つ目のほうが平均値に近づくという統計学的現象をいう。
回帰分析の語源となったが、これとは異なる概念である。
わかりやすい例
[編集]例1)生徒たちが中間試験と期末試験を受ける。中間試験で特別に高得点だった生徒たちに注目して調べると、(たぶん期末試験でも得点は高い方だろうが)一般に中間試験のときよりは平均点に近い(平均からの偏差がより小さい)結果になる。それは、中間試験で働いた「幸運」(偶然)が、期末試験では必ずしも働かなかったからである。逆に、期末試験で特別に高得点だった生徒たちについて調べても、中間試験での平均からの偏差は期末試験のそれより一般に小さい。また、低得点の生徒たちで調べても同じ傾向が見られる。
例2)特異に学業成績優秀な両親から生まれた子どもは、両親の成績と比較して学業成績はより平均に近くなる可能性が高い。(同時に遺伝的な能力の観点から、平均よりも成績が良い可能性も高い。)
歴史
[編集]回帰とは元来、生物データから見出された現象であり、その最初はフランシス・ゴルトンにより1877年に発表された種子の重量に関する結果である。ゴルトンは7組のスイートピーの種子(種子の重量は組により異なるが、組の中では同じにした)を栽培し比較したところ、以下のことを見出した:
- 子世代の種子重量は親世代と同じく正規分布に従い、また子世代種子の平均直径を親の平均直径に対してプロットすると直線に近い関係がある(現在でいう線形回帰が適用できる)。
- しかし、子の平均直径は親の直径と比較すると、より全体の平均直径に近づく傾向がある(回帰)。
彼は初めこの直線の勾配を「復帰係数」[1]と呼んだ(いわゆる先祖帰りのような生物的現象と考えた)。その後この効果は生物的なものでなくデータの扱いの結果であることを発見し、その名を「回帰係数」[2]と変更した。この結果は「有利な形質をもつ個体が生存して子孫を残し、代を重ねるごとにその形質は顕著になる」という当時の進化に関する考えと矛盾するように見えて注目された。実際にはこの種子の大きさは遺伝による部分より偶然的変動が大きかったということである。彼はさらに研究を重ね、1888年に「相関」[3]という言葉を使い、これを表す定数(相関係数)にという字を用いた。
また、このような研究をヒトにも適用し、たとえば様々な分野の天才を調べ、彼らの子はほとんど常に親より平均に近くなることを見出した。さらに定量的で客観的な方法として、父親と息子の身長を比較し、やはり特別に高身長の父親でも、特別に低身長の父親でも、息子たちの身長は父親たちの身長より平均に近くなることを見出した。
普遍性
[編集]平均への回帰は普遍的な統計現象であり、生物や遺伝と関係ないときにも起きる。時間経過を逆にしても起きる。特別に高身長な人たちの「父親」の身長は、息子たちの身長より平均に近い。全体の身長の分布は、父親世代も息子世代も同じである。
数学的説明
[編集]とをいずれも標準正規分布(平均は、分散は)に従うランダム変数とし、これらの相関係数をとする。 である。正規分布の性質から、の値が決まっている場合のの期待値はに比例する、すなわち である。ここで であるから、の期待値はの観察値よりもに近い。一般の確率分布についても同様の結果が得られる。
これは、2変数の相関が小さくなる(が小さくなる)ほど、平均への回帰は顕著になる、ということを示している。つまり現在、相関を分析する方法として回帰分析、線形回帰などという言葉が用いられるが、元来の意味での「回帰」は、むしろ「相関が低い」ことを表している。
回帰に関する誤解
[編集]回帰の誤謬[4]とは、平均回帰に気づかずにデータの収集と解釈を行い、さも科学的根拠があるような誤った結論(改善効果があった、悪化が見られる、等)を出してしまうことをいう。
有名な例には統計学者ホレース・セクリストの著書「The Triumph of Mediocrity in Business」(ビジネスにおける平凡さの勝利、1933年)がある。ここでは「競合するビジネスの利益率には時間平均に近づく傾向がある」という「経営学の法則」を示すために、膨大なデータを集めたが、実際のところ平均回帰の一例(あるいは盛者必衰の理?)を示したにすぎない。
よくありがちな誤謬には次のようなものがある。ある薬が成績を増すかどうかをテストしたい。まず生徒にテストをさせ、点数が最下位10%だった生徒たちに薬を与え、再度別のテストをさせる。すると平均成績が顕著に上がったという結果が得られる。しかしこれは薬の効果について何もいったことにならない。この例では薬なしの比較対照実験も可能だが、どちらの場合も同じことが起きるということがわかるだろう。
脚注
[編集]- ^ 英: coefficient of reversion
- ^ 英: coefficient of regression
- ^ 英: co-relation
- ^ 英: regression fallacies