データウェアハウス

データウェアハウスとは、企業内のシステムやアプリ、クラウドサービスなどから定期的にデータを時系列に蓄積していくシステムのこと。

概要

定義

データウェアの提唱はアメリカの計算機科学者ビル・インモン（英語版）(William H. Inmon)で、1990年の著作によれば、「データウェアハウスは、意思決定(Decision)のため、主題別(Subject-oriented)に編成され、統合(Integrate)され、時系列で、削除(Delete)や更新(Update)しないデータの集合体」とされる。

複数の基幹系システム（製造管理システム、販売管理システム、会計システムなど)から、マスタやトランザクション(取引)を抽出して、再構成・再蓄積したシステムを指すことが多い。

データウェアハウスの成立と発展

データウェアハウスの登場は、1990年代にハードディスクが安くなったことと、PCやサーバで使用可能な安価なCPUを並列で使用する技術ができてきたことによる。この時代にはまだ基幹系システムのCPUやハードディスクは高止まりしており、データウェアには専用のハードウェアやソフトウェアが使用されていたが、汎用PCにより構成出来るようになったことで、データを長期間に渡り蓄積するという観点を実現出来るようになった。

その後、2010年代にクラウドコンピューティングのデータウェアハウスとしてGoogle BigQueryやAmazon Redshiftなどの、よりクラウドネイティブなデータウェアハウスの提供がされるようになった。イニシャルコストを最小限に抑え、時間および使用リソースによる従量課金でデータウェアハウスが利用出来るようになり、データウェアハウスの利用用途が飛躍的に広がった。

特徴

基幹系システムではデータの参照時点での状況が把握できればよいので、過去のデータは基本的に保持されず、短ければ半期、長くても1年ごとに個別データをサマリに更新する。このため基幹系システムのディスク使用量は業務量が増大しない限り大きく変動しない。

これに対してデータウェアハウスの目的は過去のデータの蓄積と現在との比較であるため、データの削除や更新はされず、保持データ量は時間と比例して増大する。例えばある顧客が今までにどのような買い物をしたのか、さらに今後どの程度の購買が期待できるのか、といった判断のためにデータウェアハウスが使用される。

データウェアハウス製品

SAP - SAP NetWeaver Business Warehouse, SAP BW/4HANA, SAP IQ
Oracle - Oracle Database / Oracle Exadata
Teradata - Teradata Database / Teradata Vantage
IBM - Red Brick
Netezza - Netezza TwinFin
NEC - InfoFrame DWH Appliance
マイクロソフト - Microsoft SQL Server
日本HP - HP Neoview Platform

表話編歴データベースモデル
モデル	フラットファイルデータベース階層型データモデルディメンショナルモデリング（英語版）データウェアハウスネットワーク型データモデル関係モデル実体関連モデル拡張（英語版）グラフデータベース（英語版）オブジェクト(指向)データベースエンティティ属性数値(EAV)モデル（英語版）
他のモデル	アソシアティブ(連想)モデル（英語版）コリレーション(相関)データベース（英語版）多次元データベース(OLAP) Array DBMS（英語版）セマンティックデータモデル（英語版）スタースキーマ XMLデータベース
実装	フラットファイルデータベースデータベース管理システム(DBMS) 列指向DBMS オブジェクト(ODBMS) 関係(RDBMS) オブジェクト関係(ORDBMS) Document-oriented database（英語版）演繹的データベース（英語版）テンポラルデータベース（英語版） XML-DBMS キーバリュー型データベーストリプルストア（英語版）

データウェアハウス

概要

定義

データウェアハウスの成立と発展

特徴

関連するシステム

データウェアハウス製品

関連項目