- Knowledge
- 用語
DWH(データウェアハウス)
英語表記 :DWH(Data Ware House)
中国語表記 : 企业数据仓库(qǐ yè shù jù cāng kù: チーイェーシュージューツァンクー)
重要性 :★★
定義
データに基づく意思決定のために、種々のシステムが持つデータから必要なデータを収集・整理し、スムーズに分析できる状態にしたデータ群、および、そのためのシステム。分析に必要なデータが格納されていることから「Warehouse(倉庫)」と呼んでいる。
概要
DWH(データウェアハウス)は、アメリカのコンピュータ科学者ビル・インモン氏が提唱した概念です。同氏はDWHを「意思決定のため目的別に編成されたデータの集合体」と定義しました。「意思決定のため」がポイントです。デジタルトランスフォーメーション(DX)への取り組みにおいてデータ分析は欠かせませんが、迅速な意思決定を可能にするためには、データをスムーズに分析するための環境としてのDWHは不可欠だと言えます。
DWHによく似た用語に「Data Mart(データマート)」があります。これは、DWHに格納されたデータを、アプリケーションシステムやユーザーが、より使いやすい形に成形したもので、DWHとは概念が異なります。最近のDWHにはData Martを作成する機能を持つものもあります。
種々のシステムがデータを収集しデータベースを構築しています。ですが、実務で使われているデータベースを、そのままデータ分析に利用できるケースは多くありません。
例えば流通・小売業では、売れ筋商品などを把握するためにPOS(販売時点情報管理)システムを使って販売データを収集しています。ポイントカードなどの顧客情報と紐付けた「ID-POS」というデータもあります。
しかし、「売上拡大のために、どの顧客に、どのタイミングでクーポンを配布すれば良いか」といった意思決定のためには、POS/ID-POSデータだけでは不十分です。こうしたデータ分析のためには、顧客IDを元に、販売明細と顧客マスターを組み合わせたり、顧客マスターとアンケートで得たデータを名寄せしたりと、データ分析の前にデータに処理を加えなければなりません。この前処理を終え、分析できる状態にあるのがDWHです。
DWHが扱うデータは、集計や比較などのために項目別に整理した「構造化データ」です。ただDXへの取り組みでは、音声や画像、IoT(モノのインターネット)のセンサーデータなどの分析への期待が高まっています。これらのデータは「非構造化データ」と呼ばれ、DWHへの格納や分析が容易ではありません。非構造データをそのままの形で保存する仕組みは「データレイク」と呼ばれています。
DWHを構築するためのシステム製品は、様々なデータを時系列に保存・整理するために次のような機能を備えています。
・社内外のデータベースから必要なデータを取り込むためのETL(Extract:抽出、Transform:変換、Lord:書きだし)機能やAPI(アプリケーションプログラミングインタフェース)
・データの欠損や不良を修正する機能
・複数のデータベースから共通のキーを用いてデータを結合する機能
・列単位でデータを取得する機能
これらの機能は、DWHの導入目的によってはすべてが必要なわけではありません。適宜取捨選択して利用します。
アルサーガパートナーズ DX用語集チーム
リーダー:山川 信之シニアコンサルタント、中国語監修:胡 文軒ディレクター