「ヒストグラム」の版間の差分

削除された内容追加された内容

インライン

2016年11月15日 (火) 16:59時点における版

ヒストグラムの例。アメリカで1973年から1978年にかけて事故死した人数を月毎に集計したもの。横軸は各月に事故死した人数を500人毎に区切った階級を、縦軸は各階級に属する月の数（＝度数）を表している。ヒストグラムからは(a)ひと月に事故死する人数の平均はおよそ8500人前後であること、(b)ひと月に事故死する人数は6500-11500人であること、(c)分布はおよそ対称であること、などが読み取れる。

ヒストグラム（英: histogram^[1]）とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱図表^[1]、度数分布図、柱状グラフともいう。

また、工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。

語源

Histogram（ヒストグラム）は、ギリシャ語で「すべてのものを直立にする」（帆船のマスト、織機のバー、ないしはヒストグラムの縦棒など）という意味を持つ histos（ヒストス）と、同じくギリシャ語で「描いたり、記録したり、書いたりすること」という意味を持つ gramma（グラマ）を合わせたものである。この用語は、イギリスの統計学者カール・ピアソンによって1895年に創案された^[2]。

定義

日本工業規格JIS Z 9041-1:1999では、「ヒストグラムの書き方方眼紙又は適当な用紙に図 4 のように横軸に測定値の級の値，縦軸に度数を目盛り，各級に属する度数を柱の高さで示す。図の右上に測定値の総数 n を記入する。」とだけ定義している。累積度数図をその次に説明している。

日本工業規格JIS Z 8101-1 : 1999の2.7 ヒストグラム histogramでは「計量特性の度数分布のグラフ表示の一つ。測定値の存在する範囲をいくつかの区間に分けた場合，各区間を底辺とし，その区間に属する測定値の度数に比例する面積をもつ長方形を並べた図。備考1.ヒストグラムで用いられた区間の幅が一定ならば，長方形の高さは各区間に属する値の度数に比例する。したがって，この場合には高さに対して度数の目盛を与えることができる。備考2.級の上限を横軸に，累積度数を縦軸にとって打点し，それらの点を結んで得られる折れ線を累積折れ線 (cumulative frequency polygon) という」と規定している。

ヒストグラム

ヒストグラムは、各々が互いに素である区間・階級（カテゴリ、これをビン (bins) という。ヒストグラムのグラフの柱（棒）のこと）に分類できる、観察結果の数を図にしたもの。計算する関数 $m i$ である。ヒストグラムの図は、階級を一つ決めた時のヒストグラムを表現する方法である。階級の幅は一つの階級のデータ数が全データ数の平方根程度がよいとう見解をはじめ何種類か推奨がある（後述）^[3]。基準点も０を含む場合には０を基準点にすることがある。それ以外の場合には、最小値、最大値を含む切りのよい値にする方法と、切りのよい数を中央値とする方法がある。すべての観察結果の数 $n$ とすべてのビンの数 $k$ 、ヒストグラム $m i$ を与えて、これらには以下の式の関係が成り立つ。

n=\sum _{i=1}^{k}{m_{i}}.

累積度数図

累積度数図（英: cumulative histogram）は、特定のビンまでのすべてのビンに含む観察結果の累積数を記入する。累積度数関数と $M i$ はヒストグラム関数 $m j$ を用いて以下の式のように定義できる。

M_{i}=\sum _{j=1}^{i}{m_{j}}.

なお、累積度数(umulative frequency)を日本工業規格では、「ある値以下の観測値の度数または相対度数」と定義している^[4]。

具体例

ウィキペディア日本語版の記事「ヒストグラム」（当記事）の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである^[5]。

日	閲覧回数	日	閲覧回数
1	78	16	625
2	126	17	606
3	156	18	483
4	231	19	377
5	215	20	370
6	304	21	587
7	484	22	667
8	544	23	643
9	566	24	756
10	545	25	505
11	478	26	436
12	258	27	399
13	225	28	611
14	373	29	679
15	620	30	575
		31	565

[表の見方] 11 の欄が 478 となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が 478 回であったことを意味する。

これを集計すると、次のようになる。上述の通り、ビンの数と幅の設定には諸説あるが、ここではビンの数を 8、幅を 100 とした。

閲覧回数	その回数を記録した日数
0 - 99	1
100 - 199	2
200 - 299	4
300 - 399	5
400 - 499	4
500 - 599	7
600 - 699	7
700 - 799	1

[表の見方] 400 - 499 の欄が 4 となっているのは、1 日の記事「ヒストグラム」の閲覧回数が 400 回から 499 回であった日が2013年1月に 4 日あったことを意味する。

したがって、これをヒストグラムにすると、図1のようになる。

ビンの個数と幅

ビンの個数についての最良の値はなく、ビンの大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適なビンの個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまなビンの幅 (bin width) が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある^[6]。

ビンの幅 $h$ は、直接的に与えられるか、下で示されるビンの個数 $k$ から次式で与えられる。

h=\left\lceil {\frac {\max x-\min x}{k}}\right\rceil .

上式の大括弧は天井関数を示す。

平方根選択（英: Square-root choice）: $k={\sqrt {n}},\,$; 標本中のデータ数の平方根をとるものである^[7]。
スタージェスの公式（英: Sturges' formula）^[8]: $k=\lceil \log _{2}n+1\rceil ,\,$; この式はビンの大きさに暗黙の仮定を置いている。そのため、n < 30 (ビン数が7未満)の場合、この式の使用は不適切である。また、標本が一般的な分布と大きく異なる場合も、この式が適さないことがある。
スコットの選択（英: Scott's choice）^[9]: $h={\frac {3.5\,\sigma }{n^{1/3}}},$; ここで $σ$ は標本の標準偏差である。
フリードマン＝ダイアコニスの選択（英: Freedman–Diaconis' choice）^[10]: $h=2\,{\frac {\operatorname {IQR} (x)}{n^{1/3}}},$; IQR で示される四分位範囲に基づく。
$L 2$ 危険関数推定の最小化に基づく選択^[11]: ${\underset {h}{\operatorname {arg\,min} }}{\frac {2\,{\bar {m}}-v}{h^{2}}}$; ここで $m$ と $v$ は、ビンの幅が $h$ であるヒストグラムの平均値および標本分散である。つまり、 $m = .mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}1/k ∑ki = 1 mi$ であり、 $v = 1 / k \sum k i = 1 (m i - m) 2$ である。

種類

次の4種類に分けられる。

U字型分布
均一分布
山型分布
歪曲分布次の2種類に分類できる。
1. 左歪曲分布
2. 右歪曲分布

以下の項目を例を用いて説明する。

U字型分布

最初の区間から徐々に下がっていき、中間（ほとんどの場合）で最小となり、再び上がっていく。このようなヒストグラムをU字型分布 (U-shaped distribution) という。ビンの数を 10、幅を 10 とする。

点数	この点数をとった学生の数
0.5-10.5	10
10.5-21.5	8
21.5-31.5	6
31.5-41.5	4
41.5-51.5	2
51.5-61.5	0
61.5-71.5	2
71.5-81.5	4
81.5-91.5	6
91.5-101.5	8

均一分布

→詳細は「連続一様分布」、「離散一様分布」、および「一様分布」を参照

すべての区間の数が等しいとき、または、近いとき（だいたい差が 2 以下）、このヒストグラムを均一分布 (uniform distribution) という。一様分布ともいう。次の 2 種類に分類できる。

連続一様分布 (Continuous uniform distribution)
離散一様分布 (Discrete uniform distibution)

山型分布

中央区間が最大になっているヒストグラムを山型分布 (mound-shaped distribution) という。

歪曲分布

スケートボード場のような屈曲した形の分布を歪曲分布 (skewed distribution) という。左から下がっていくのを右歪曲分布 (right-skewed distribution)、右へ上がっていくのを左歪曲分布 (left-skewed sidtribution) という。

脚注

[脚注の使い方]

^ ^a ^b 『学術用語集数学編』。
^ Magnello 2005.
^ 西岡, 1.4 度数分布 p.8.
^ JIS Z 8101-1 : 1999, 2.5 累積度数.
^ 閲覧回数のデータはWikipedia article traffic statisticsによった。
^ たとえば Venables & Ripley 2002, § 5.6 "Density Estimation".
^ Microsoft Excelのヒストグラムやその他多数で採用されている。
^ Sturges 1926.
^ Scott 1979.
^ フリードマン＝ダイアコニスの法則の出典は Freedman & Diaconis 1981。
^ Shimazaki & Shinomoto 2007.

参考文献

日本工業規格 JIS Z 9041-1:1999 データの統計的な解釈方法− 第 1 部：データの統計的記述
西岡康夫『数学チュートリアルやさしく語る確率統計』オーム社、2013年。ISBN 9784274214073。
日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999)
伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。

文部省編『学術用語集数学編』大日本図書、1954年。ISBN 4-477-00170-3。
Magnello, M. Eileen (2005). “Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician”. The New Zealand Journal for the History and Philosophy of Science and Technology 1. ISSN 1177–1380{{issn}}のエラー: 無効なISSNです。.
Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer. ISBN 978-0-387-95457-8
Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66. http://www.jstor.org/stable/2965501.
Scott, David W. (1979). “On optimal and data-based histograms”. Biometrika 66 (3): 605–610. doi:10.1093/biomet/66.3.605.
Scott, David W. (1992). Multivariate density estimation. Theory, practice, and visualization (Second ed.). John Wiley & Sons. ISBN 978-0-471-69755-8. MR3329609. "3. Histograms: theory and practice"
Freedman, D.; Diaconis, P. (1981). “On the histogram as a density estimator: L₂ theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi:10.1007/BF01025868.
Shimazaki, H.; Shinomoto, S. (2007). “A method for selecting the bin size of a time histogram”. Neural Computation 19 (6): 1503–1527. doi:10.1162/neco.2007.19.6.1503. PMID 17444758.
坂元慶行、石黒真木夫、北川源四郎、『情報量統計学 (情報科学講座 A・5・4)』共立出版 1983/1 ISBN 978-4320021716

@@ 276行目: / 276行目: @@
 |ref   = harv
 }}
-* 坂元慶行、石黒真木夫、北川源四郎、『[http://www.orsj.or.jp/~archive/pdf/bul/Vol.28_06_274.pdf 情報量統計学 (情報科学講座 A・5・4)]』 共立出版 1983/1 ISBN:978-4320021716
+* 坂元慶行、石黒真木夫、北川源四郎、『[http://www.orsj.or.jp/~archive/pdf/bul/Vol.28_06_274.pdf 情報量統計学 (情報科学講座 A・5・4)]』 共立出版 1983/1 ISBN 978-4320021716
 == 関連項目 ==