要約統計量
要約統計量(ようやくとうけいりょう)とは、標本の分布の特徴を代表的に(要約して)表す統計学上の値であり、統計量の一種。記述統計量(英: descriptive statistics value)、基本統計量、代表値(英: representative value)ともいう[1] [2]。
正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度や歪度などの高次モーメントから求められる統計量を用いる。
正規分布から著しく外れた場合には、より頑健な中央値、四分位点、最大値・最小値や最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値では、いかに飛び抜けた値であっても1例としてしか扱われないので、より大多数の実感に近い値を示すことができる。
モーメントから求められる要約統計量
N 個のデータ に対する統計量を考える。まず、平均値 と、平均値まわりの m 次中央モーメント[3] を
で定義する。
平均
原点まわりの1次モーメント 。和を個数で割ったもの。
分散、標準偏差
2次中央モーメントから求められる統計量。分布の広がりを表す。
- 分散:
- 標準偏差:
歪度
3次中央モーメントから求められる統計量。分布の左右非対称の度合いを表す。
尖度
4次中央モーメントから求められる統計量。分布の峰の鋭さ(裾野の広さ)を表す。
ただし、3 を引かない定義もある。
順序から求められる要約統計量
以下、昇順にソートされた N 個のデータ に対する統計量(順序統計量)を考える。
中央値
メジアン、メディアン (英: median) ともいう。データの大きさに関してちょうど中央に当たるデータ x(N + 1) / 2 。ただし、整数でない添数に対する中央値は線形補間によって定義する(つまり N が偶数のときは xN / 2 と xN / 2 + 1 の平均とする)。
刈込平均(トリム平均)
最大値、最小値を除外した平均。除外する数を増やして行くと、最後は中央値になる。そのため、中央値は刈込平均の一つである[4]。
四分位点
集団を値の大きさで4等分するとき、その境界となる値。x(N + 3) / 4 を第1四分位点、x(3N + 1) / 4 を第3四分位点という。x(2N + 2) / 4 、つまり第2四分位点は中央値である。
最小値・最大値
集団に含まれる最も小さい値 x1 と、最も大きい値 xN 。
これらの統計量を視覚化するために、箱ひげ図を用いる。
中点値
最大値と最小値を足して2で割ったものを中点値(英: mid-range)とよび、代表値として用いることがある[5]。
範囲
最大値と最小値の差を範囲(英: range)とよび、代表値として用いることがある[6]。記号はRを用いる。
度数から求められる要約統計量
モード (英: mode)、並み数 ともいう。データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値。
脚注
- ^ 西岡, p.1.
- ^ 伏見, 第III章 記述統計量 13節 確率分布、統計分布 p.110.
- ^ 用語「m 次中央モーメント」は、竹内啓(編集委員代表)『統計学辞典』東洋経済新報社, 1989 による。
- ^ 西岡康夫,数学チュートリアル やさしく語る 確率統計,オーム社, p.5, p.52013, ISBN 9784274214073
- ^ JIS Z 8101-1 : 1999, 2.16 中点値.
- ^ JIS Z 8101-1 : 1999, 2.17 範囲.
参考文献
- 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。
- 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999)
- 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127 。
- 竹内啓(編集委員代表)『統計学辞典』東洋経済新報社、1989年。ISBN 9784492010389。