データサイエンス
機械学習および データマイニング |
---|
Category:データマイニング |
データサイエンス(英: data science、略称: DS)またはデータ科学[1][2]とは、データを用いて新たな科学的および社会に有益な知見を引き出そうとするアプローチのことであり、その中でデータを扱う手法である情報科学、統計学、アルゴリズムなどを横断的に扱う。
概要
[編集]データサイエンスは、統計的、計算的、人間的視点から俯瞰することができる。それぞれの視点がデータサイエンスを構成する本質的な側面であり、これらの3つの視点の有機的結合こそがデータサイエンスという学問の神髄である(Blei and Smyth, 2017[3])。
これまでのデータ解析における現場の知識の重要性に対する認識不足が、データサイエンスという学問に対する幅広い誤解の源泉であると考えられる(Hernan, Hsu and Healy, 2018[4])。
手法・理論
[編集]データサイエンスで使用される手法は多岐にわたり、分野として数学、統計学、計算機科学、情報工学、パターン認識、機械学習、データマイニング、データベース、可視化などと関係する。
実践・応用
[編集]データサイエンスは、はっきりとした応用の文脈をもち、超領域性の様相を呈していて、また研究成果に対しては明確な社会的説明責任が求められ、さらに、研究成果の質的保証のためには従来の座学的基準以外に質のコントロールのための追加の基準が必要とされる。
データサイエンスの有効な推進のためには組織の異種混合性も重要である。これらの要件を満たす科学はギボンズらが主張するモード2科学[5]の一種として認識することが出来る。
データサイエンスの研究者や実践者はデータサイエンティストと呼ばれる。
データサイエンスの応用としては、生物学、医学、工学、経済学、社会学、人文科学などが挙げられる。化学もそうである。
所得の平等
[編集]先進国でも発展途上国でも、データサイエンスのスキルに優れている国々では、所得の平等が高まっている。ドメイン全体での国の平均スキル能力と、国の上位10%が保有する収入の割合との間には負の相関関係がある[6]。
歴史
[編集]データサイエンスという用語は古くから使われていた[要出典]が、特に1974年にピーター・ナウアが使用した[7]ことで注目を集めた。著書『Concise Survey of Computer Methods』[8]において、ナウアはデータ処理手法とその応用を述べる中でデータサイエンスという表現を使用した。
2010年代後半から世界的にデータサイエンティストが不足しているので、高度な知識をもたない利用者でも解析ができるシステムの開発が進んでいる[9]。
一方、2012年、ハーバード・ビジネス・レビュー誌が「21世紀で最もカッコいい仕事」[10]と位置づけたことから「データサイエンス」という言葉はバズワードになったと見る者もいる。フォーブス誌においても、明確な定義がなく、大学院で習うビジネス分析が単に置き換えられただけだと批判された[11]。
2020年、質の高いメタ分析によれば、データサイエンスの需要は増加する[12]。人工知能の爆発的な成長により、データサイエンスのような分析系の仕事は人工知能に取って代わられるであろうが、コンビニ店員やタクシー運転手のような機械系の仕事が先に取って代わられると予測する専門家もいる一方で[13]、将来のデータサイエンティストの需要は人工知能によって爆発的に伸びると予測する者もいる[14]。
関連項目
[編集]- 巨大知
- 集合知
- ビッグデータ
- データマイニング
- データサイエンス学部
- 統計検定 (資格)
- Kaggle
- 複雑系科学
- 数値解析ソフトの比較
- 数値解析ソフトウェアの一覧
- 数式処理システムの一覧
- 主な応用数値解析ソフトウェア
脚注
[編集]- ^ 椿広計「システム科学とデータ科学」『横幹』第14巻第1号、横断型基幹科学技術研究団体連合、2020年、64-69頁、doi:10.11487/trafst.14.1_64、ISSN 1881-7610、NAID 130007855120。
- ^ 岡崎, 直観「データジャーナリズムとデータ科学(Data Journalism and Data Science)」『電子情報通信学会誌』第99巻第4号、2016年、339頁、ISSN 0913-5693、NAID 40020802401。
- ^ Smyth, Padhraic; Blei, David M. (2017-08-15). “Science and data science” (英語). Proceedings of the National Academy of Sciences 114 (33): 8689-8692. doi:10.1073/pnas.1702076114. ISSN 1091-6490. PMID 28784795 .
- ^ Healy, Brian; Hsu, John; Hernán, Miguel A. (2018-04-28) (英語). Data science is science's second chance to get causal inference right: A classification of data science tasks .
- ^ Baber, Zaheer; Gibbons, Michael; Limoges, Camille; Nowotny, Helga; Schwartzman, Simon; Scott, Peter; Trow, Martin (1995-11). “The New Production of Knowledge: The Dynamics of Science and Research in Contemporary Societies.”. Contemporary Sociology 24 (6): 751. doi:10.2307/2076669. ISSN 0094-3061 .
- ^ “Announcing the Coursera 2020 Global Skills Index” (英語). Coursera Blog (2020年7月16日). 2020年11月11日閲覧。
- ^ Cao Longbing (2017-06-29). “Data Science” (英語). ACM Computing Surveys 50 (3): 1–42. arXiv:2007.03606. doi:10.1145/3076253.
- ^ Peter Naur (1974). Concise Survey of Computer Methods. Studentlitteratur, Lund, Sweden. ISBN 91-44-07881-1 2022年1月12日閲覧。
- ^ 『NEC、業務システムにおける大規模データ予測を自動化する「予測分析自動化技術」を開発』(プレスリリース)日本電気株式会社、2016年12月15日 。2021年7月15日閲覧。
- ^ Davenport, Thomas H.; Patil, DJ (2012-10). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review .
- ^ “Data Science: What's The Half-Life Of A Buzzword?”. Forbes (2013年8月19日). 2019年6月8日閲覧。
- ^ Chao, Lemen; Xing, Chunxiao; Zhang, Yong; Zhang, Chen (2020-10-23). “Data Science: State of the Art and Trends” (英語). Data Science and Informetrics 01 (01): 22. doi:10.4236/dsi.2020.11002 .
- ^ “A Theory of AI Job Replacement - AI and the future of work”. Coursera. 2023年8月7日閲覧。
- ^ “Feel the Fear! AI Turns Deadly, Data Disappears, Criminals Clone Voices, and more” (英語). Feel the Fear! AI Turns Deadly, Data Disappears, Criminals Clone Voices, and more (2023年10月25日). 2023年11月6日閲覧。
学習用参考図書
[編集]- 講談社データサイエンス入門シリーズ
- 濵田悦生:「データサイエンスの基礎」、ISBN 978-4-06-517000-7(2019年8月29日)。
- 椎名洋、姫野哲人、保科架風:「データサイエンスのための数学」、ISBN 978-4-06-516998-8(2019年8月29日)。
- 梅津佑太、西井龍映、上田勇祐:「スパース回帰分析とパターン認識」、ISBN 978-4-06-518620-6 (2020年2月26日)。
- サイエンス社ライブラリデータ科学
- 第1巻、早稲田大学データ科学教育チーム:「データ科学入門 I データに基づく意思決定の基礎」,ISBN 978-4-7819-1540-1 (2022年4月10日)。
- 第2巻、早稲田大学データ科学教育チーム:「データ科学入門 II 特徴記述・構造推定・予測 ― 回帰と分類を例に」、ISBN 978-4-7819-1567-8 (2023年3月10日)。
- 第3巻、「データ科学入門III」(発行予定)。
- 第4巻、「データ科学入門IV」(発行予定)。
- 第5巻、「データ科学実践」(発行予定)。
- 第6巻、「回帰と分類のデータ科学」(発行予定)。
- 第7巻、「時系列構造のデータ科学」(発行予定)。
- 第8巻、「潜在構造のデータ科学」(発行予定)。
- 第9巻、「空間構造のデータ科学」(発行予定)。
- 第10巻、「因果構造のデータ科学」(発行予定)。
- 第11巻、「データ科学のためのモデリング」(発行予定)。
- Anand Rajaraman and Jeffrey David Ullman: 「大規模データのマイニング」、共立出版、ISBN 978-4-320-12375-5 (2014年7月25日).
- Daniela Calvetti and Erkki Somersalo: "Mathematics of Data Science: A Computational Approach to Clustering and Classification", SIAM, ISBN 978-1-611976-36-6 (2020).
- ギルバート・ストラング:「ストラング:線型代数とデータサイエンス」、近代科学社、ISBN 978-4-7649-0600-6 (2021年10月31日).
- D.P.Kroese, Z.I.Botev, T.Taimre and R.Vaisman:「データサイエンスと機械学習:理論からPythonによる実装まで」、東京化学同人、ISBN 978-4-8079-2029-7 (2022年12月5日).
- 牧野浩二、橋本洋志:「データサイエンス教本(第2版)」、オーム社、ISBN 978-4-274-23114-8 (2023年11月20日).
- 皆本晃弥:「Pythonによる数理・データサイエンス・AI」、サイエンス社、ISBN 978-4-7819-1585-2 (2023年11月25日).
外部リンク
[編集]- 一般社団法人 データサイエンティスト協会
- 新村秀一、データ解析からデータ・サイエンスへ - 情報技術(統計ソフト・WWW・AI)との共生により統計知識を国民の知的共有財に - 統計数理 第45巻 第1号 特集「統計ソフトウェアの新展開2」 p.23-40
- インクィジティブ・マインド:Data Science (データサイエンス)
- 環境と品質のためのデータサイエンス