データセット

データセット（英: data set, dataset）は、データの集合のこと。表形式のデータの場合、テーブルの各列が特定の変数を表し、各行が特定のレコードに対応するような1つ以上のデータベーステーブルをデータセットという。データセットには、各オブジェクトの高さや重量といった変数の値が並べられている。データセットは、ドキュメントやファイルの集合で構成することもできる^[1]。

オープンデータの分野では、データセットはパブリックなオープンデータリポジトリで公表された情報量を測定するための単位でもある。例えばヨーロッパオープンデータポータル（英語版）は、50万以上のデータセットを集約している^[2]。データセットの定義は複数提案されているが^[3]、2020年現在公式の定義といえるものはない。データセットの中にはリアルタイムデータソース^[4]なども存在しており、そうしたデータの存在もまた、データセットの定義について合意することを困難にしている。

属性

いくつかの特性により、データセットの構造とプロパティが定義される。この特性には、属性や変数の個数やタイプのほかに、標準偏差や尖度といった、属性や変数に対して適用可能なさまざまな統計的尺度（英語版）が含まれる^[5]。

データセットに含まれる値は、例えば、実数または整数などの数値である場合がある（例えば人の身長は、センチメートルという単位を用いて数値で表される）が、他方でカテゴリのような文字列で表現されるラベルである場合もある（例えば、ある人物が属する民族は数値では表せない^{[注釈 1]}）。より一般的には、値は尺度のいずれかに当てはまる^[6]。通常、同じ変数に対応する値は、データが変わっても同じ種類である。ただし、データによっては欠落がある可能性もあり、それも何らかの方法で示す必要がある^[7]。

統計学においては、データセットは通常、母集団をサンプリングすることによって取得される、実際の観測値に由来するものである。データセットの各行は、母集団の1要素の観測値に対応する。データセットは、特定の種類のソフトウェアをテストする目的で、アルゴリズムを用いてさらに生成される場合もある。また、データが欠落していたりその値が正しいかどうか疑わしい場合には、代入法を使用してデータセットを完成させることもある^[8]。

古典的なデータセット

統計学の文献では、古典的なデータセットが広く使用されている。

アヤメの花データセット – ロナルド・フィッシャーによって1936年に導入された多変量データセット^[9]。
MNISTデータベース – 分類、クラスタリング、画像処理アルゴリズムの評価に一般的に使用される手書き数字の画像を含むデータセット。
Categorical data analysis – An Introduction to Categorical Data Analysis（Alan Agresti、2019年）で用いられているデータセット。
Robust statistics – Robust Regression and Outlier Detection（Rousseeuw（英語版）、 Leroy、1986年）で使用されているデータセット。
Time series – チャットフィールドのThe Analysis of Time Seriesで使用されているデータ。
Extreme values – An Introduction to the Statistical Modeling of Extreme Valuesで使用されているデータは、本の著者であるStuartColesが提供していたデータのスナップショットである。
Bayesian Data Analysis – 同名の本（A. Gelman, J. B. Carlin, H. S. Stern, D. B. Rubin, 1995年）で使用されているデータは、著者の1人であるAndrew Gelmanによりオンラインで提供されている。
アンスコムのカルテット – 統計的誤謬を回避するためにデータをグラフ化する重要性を示す目的の、小規模のデータセット。

脚注

出典

^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). “'Big Data': Big gaps of knowledge in the field of Internet”. International Journal of Internet Science 7: 1–5.
^ “European open data portal”. European open data portal. European Commission. 2016年9月23日閲覧。
^ “Dataset definition – MELODA”. www.meloda.org. 2016年8月17日閲覧。^{[リンク切れ]}
^ Atz, U (2014). “The tau of data: A new metric to assess the timeliness of data in catalogues”. CEDEM 2014 Proceedings 2021年2月24日閲覧。.
^ Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1
^ 平山淳一 (2016). “データ分析効率化のための尺度水準判定方式”. 人工知能学会全国大会論文集 JSAI2016: 2P114in1-2P114in1. doi:10.11517/pjsai.JSAI2016.0_2P114in1.
^ 株式会社野村総合研究所 2013, p. 23.
^ United Nations Statistical Commission; United Nations Economic Commission for Europe (2007) (pdf). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. ISBN 978-9211169522 19 July 2015閲覧。
^ Fisher, R.A. (1936). “The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics 7 (2): 179-188. doi:10.1111/j.1469-1809.1936.tb02137.x.

注釈

^ もちろん、便宜上数字を割り当てることはできる。例えばゲルマン民族を1、漢民族を2といった具合だが、その場合でも身長とは異なり、数の大小や比率に意味はない。

参考文献

株式会社野村総合研究所『統計データの補完推計に関する調査 (pdf)』（レポート）、総務省統計委員会事務局、2013年3月、1–96頁。2021年2月24日閲覧。

外部リンク

Datahub – コミュニティベースでオープンデータを管理しているサービス
Data.gov – アメリカ政府が公開しているオープンデータ
Bayesian Data Analysisの付録

[Editorial-1] Snijders, C.; Matzat, U.; Reips, U.-D. (2012). “'Big Data': Big gaps of knowledge in the field of Internet”. International Journal of Internet Science 7: 1–5.

[2] “European open data portal”. European open data portal. European Commission. 2016年9月23日閲覧。

[3] “Dataset definition – MELODA”. www.meloda.org. 2016年8月17日閲覧。^{[リンク切れ]}

[4] Atz, U (2014). “The tau of data: A new metric to assess the timeliness of data in catalogues”. CEDEM 2014 Proceedings 2021年2月24日閲覧。.

[5] Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1

[7] 平山淳一 (2016). “データ分析効率化のための尺度水準判定方式”. 人工知能学会全国大会論文集 JSAI2016: 2P114in1-2P114in1. doi:10.11517/pjsai.JSAI2016.0_2P114in1.

[FOOTNOTE株式会社_野村総合研究所201323-8] 株式会社野村総合研究所 2013, p. 23.

[sde-9] United Nations Statistical Commission; United Nations Economic Commission for Europe (2007) (pdf). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. p. 20. ISBN 978-9211169522 19 July 2015閲覧。

[fisher36-10] Fisher, R.A. (1936). “The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics 7 (2): 179-188. doi:10.1111/j.1469-1809.1936.tb02137.x.

[6] もちろん、便宜上数字を割り当てることはできる。例えばゲルマン民族を1、漢民族を2といった具合だが、その場合でも身長とは異なり、数の大小や比率に意味はない。

[1]

[2]

[3]

[4]

[5]

[注釈 1]

[6]

[7]

[8]

[9]

属性

古典的なデータセット

関連項目

脚注

出典

注釈

参考文献

外部リンク