コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

「ヒストグラム」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
Cewbot (会話 | 投稿記録)
m cewbot: 修正ウィキ文法 69: ISBNの構文違反
276行目: 276行目:
|ref = harv
|ref = harv
}}
}}
* 坂元慶行、石黒真木夫、北川源四郎、『[http://www.orsj.or.jp/~archive/pdf/bul/Vol.28_06_274.pdf 情報量統計学 (情報科学講座 A・5・4)]』 共立出版 1983/1 ISBN:978-4320021716
* 坂元慶行、石黒真木夫、北川源四郎、『[http://www.orsj.or.jp/~archive/pdf/bul/Vol.28_06_274.pdf 情報量統計学 (情報科学講座 A・5・4)]』 共立出版 1983/1 ISBN 978-4320021716


== 関連項目 ==
== 関連項目 ==

2016年11月15日 (火) 16:59時点における版

ヒストグラムの例。アメリカで1973年から1978年にかけて事故死した人数を月毎に集計したもの。横軸は各月に事故死した人数を500人毎に区切った階級を、縦軸は各階級に属する月の数(=度数)を表している。ヒストグラムからは(a)ひと月に事故死する人数の平均はおよそ8500人前後であること、(b)ひと月に事故死する人数は6500-11500人であること、(c)分布はおよそ対称であること、などが読み取れる。

ヒストグラム: histogram[1])とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学数学画像処理等で用いられる。柱図表[1]度数分布柱状グラフともいう。

また、工業分野では、パレート図チェックシート管理図特性要因図層別法散布図と並んで、品質管理のためのQC七つ道具として知られている。

語源

Histogram(ヒストグラム)は、ギリシャ語で「すべてのものを直立にする」(帆船マスト織機のバー、ないしはヒストグラムの縦棒など)という意味を持つ histos(ヒストス)と、同じくギリシャ語で「描いたり、記録したり、書いたりすること」という意味を持つ gramma(グラマ)を合わせたものである。この用語は、イギリス統計学者カール・ピアソンによって1895年に創案された[2]

定義

日本工業規格JIS Z 9041-1:1999では、「ヒストグラムの書き方 方眼紙又は適当な用紙に図 4 のように横軸に測定値の級の値,縦軸に度数を目盛り,各級に属する度数を柱の高さで示す。図の右上に測定値の総数 n を記入する。」とだけ定義している。累積度数図をその次に説明している。

日本工業規格JIS Z 8101-1 : 1999の2.7 ヒストグラム histogramでは「計量特性の度数分布のグラフ表示の一つ。測定値の存在する範囲をいくつかの区間に分けた場合,各区間を底辺とし,その区間に属する測定値の度数に比例する面積をもつ長方形を並べた図。備考1.ヒストグラムで用いられた区間の幅が一定ならば,長方形の高さは各区間に属する値の度数に比例する。したがって,この場合には高さに対して度数の目盛を与えることができる。 備考2.級の上限を横軸に,累積度数を縦軸にとって打点し,それらの点を結んで得られる折れ線を累積折れ線 (cumulative frequency polygon) という」 と規定している。

同じデータから作られた一般的なヒストグラム(左)と累積度数図。このデータは平均 0、標準偏差 1 の正規分布から無作為に選んだ 10,000 点のサンプルを示している。

ヒストグラム

ヒストグラムは、各々が互いに素である区間・階級(カテゴリ、これをビン (bins) という。ヒストグラムのグラフの)のこと)に分類できる、観察結果の数を図にしたもの。計算する関数 mi である。ヒストグラムの図は、階級を一つ決めた時のヒストグラムを表現する方法である。階級の幅は一つの階級のデータ数が全データ数の平方根程度がよいとう見解をはじめ何種類か推奨がある(後述)[3]。基準点も0を含む場合には0を基準点にすることがある。それ以外の場合には、最小値、最大値を含む切りのよい値にする方法と、切りのよい数を中央値とする方法がある。すべての観察結果の数 n とすべてのビンの数 k、ヒストグラム mi を与えて、これらには以下の式の関係が成り立つ。

累積度数図

累積度数図(: cumulative histogram)は、特定のビンまでのすべてのビンに含む観察結果の累積数を記入する。累積度数関数と Mi はヒストグラム関数 mj を用いて以下の式のように定義できる。

なお、累積度数(umulative frequency)を日本工業規格では、「ある値以下の観測値の度数または相対度数」と定義している[4]

具体例

ウィキペディア日本語版の記事「ヒストグラム」(当記事)の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである[5]

閲覧回数 閲覧回数
1 78 16 625
2 126 17 606
3 156 18 483
4 231 19 377
5 215 20 370
6 304 21 587
7 484 22 667
8 544 23 643
9 566 24 756
10 545 25 505
11 478 26 436
12 258 27 399
13 225 28 611
14 373 29 679
15 620 30 575
31 565

[表の見方] 11 の欄が 478 となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が 478 回であったことを意味する。

図1.ウィキペディア日本語版の記事「ヒストグラム」の2013年1月における閲覧回数から作成されたヒストグラム

これを集計すると、次のようになる。上述の通り、ビンの数と幅の設定には諸説あるが、ここではビンの数を 8、幅を 100 とした。

閲覧回数 その回数を記録した日数
0 - 99 1
100 - 199 2
200 - 299 4
300 - 399 5
400 - 499 4
500 - 599 7
600 - 699 7
700 - 799 1

[表の見方] 400 - 499 の欄が 4 となっているのは、1 日の記事「ヒストグラム」の閲覧回数が 400 回から 499 回であった日が2013年1月に 4 日あったことを意味する。

したがって、これをヒストグラムにすると、図1のようになる。

ビンの個数と幅

ビンの個数についての最良の値はなく、ビンの大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適なビンの個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまなビンの幅 (bin width) が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある[6]

ビンの幅 h は、直接的に与えられるか、下で示されるビンの個数 k から次式で与えられる。

上式の大括弧は天井関数を示す。
平方根選択(: Square-root choice
標本中のデータ数の平方根をとるものである[7]
スタージェスの公式(: Sturges' formula[8]
この式はビンの大きさに暗黙の仮定を置いている。そのため、n < 30 (ビン数が7未満)の場合、この式の使用は不適切である。また、標本が一般的な分布と大きく異なる場合も、この式が適さないことがある。
スコットの選択(: Scott's choice[9]
ここで σ標本標準偏差である。
フリードマン=ダイアコニスの選択(: Freedman–Diaconis' choice[10]
IQR で示される四分位範囲に基づく。
L2 危険関数推定の最小化に基づく選択[11]
ここで mv は、ビンの幅が h であるヒストグラムの平均値および標本分散である。つまり、m = 1/kk
i = 1
mi
であり、v = 1/kk
i = 1
(mim)2
である。

種類

次の4種類に分けられる。

  1. U字型分布
  2. 均一分布
  3. 山型分布
  4. 歪曲分布 次の2種類に分類できる。
    1. 左歪曲分布
    2. 右歪曲分布

以下の項目を例を用いて説明する。

U字型分布

最初の区間から徐々に下がっていき、中間(ほとんどの場合)で最小となり、再び上がっていく。このようなヒストグラムをU字型分布 (U-shaped distribution) という。 ビンの数を 10、幅を 10 とする。

点数 この点数をとった学生の数
0.5-10.5 10
10.5-21.5 8
21.5-31.5 6
31.5-41.5 4
41.5-51.5 2
51.5-61.5 0
61.5-71.5 2
71.5-81.5 4
81.5-91.5 6
91.5-101.5 8

均一分布

すべての区間の数が等しいとき、または、近いとき(だいたい差が 2 以下)、このヒストグラムを均一分布 (uniform distribution) という。一様分布ともいう。次の 2 種類に分類できる。

  1. 連続一様分布 (Continuous uniform distribution)
  2. 離散一様分布 (Discrete uniform distibution)

山型分布

中央区間が最大になっているヒストグラムを山型分布 (mound-shaped distribution) という。

歪曲分布

スケートボード場のような屈曲した形の分布を歪曲分布 (skewed distribution) という。から下がっていくのを歪曲分布 (right-skewed distribution)へ上がっていくのを歪曲分布 (left-skewed sidtribution) という。

脚注

  1. ^ a b 『学術用語集 数学編』
  2. ^ Magnello 2005.
  3. ^ 西岡, 1.4 度数分布 p.8.
  4. ^ JIS Z 8101-1 : 1999, 2.5 累積度数.
  5. ^ 閲覧回数のデータはWikipedia article traffic statisticsによった。
  6. ^ たとえば Venables & Ripley 2002, § 5.6 "Density Estimation".
  7. ^ Microsoft Excelのヒストグラムやその他多数で採用されている。
  8. ^ Sturges 1926.
  9. ^ Scott 1979.
  10. ^ フリードマン=ダイアコニスの法則の出典は Freedman & Diaconis 1981
  11. ^ Shimazaki & Shinomoto 2007.

参考文献

  • 日本工業規格 JIS Z 9041-1:1999 データの統計的な解釈方法− 第 1 部:データの統計的記述
  • 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073 
  • 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090 
  • JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999), http://kikakurui.com/z8/Z8101-1-1999-01.html 
  • 伏見康治確率論及統計論河出書房、1942年。ISBN 9784874720127http://ebsa.ism.ac.jp/ebooks/ebook/204 

関連項目