Column
課題解決のためのデータ活用の始め方

企業内に点在するデータを収集して蓄積する【第6回】

若尾和広（primeNumber データイノベーション推進室室長）

2026年2月18日

前回は、データ活用を始めるための第一歩として「現状調査」の重要性と、その進め方について解説しました。今回は、その次のステップとして、あちこちに点在するデータを収集（取得）し、蓄積するための仕組み作りについて解説します。

　現状調査を終えて自社のデータの状況が把握できたら次は、それらのデータを収集（取得）・蓄積し、活用できる状態にする必要があります。多くの企業では、データが各部門のシステムに分散して存在しており、そのままでは活用できないのが実状です。

データを収集して貯めるのに重要な「ETL」と「DWH」

　データ活用を進めるには、各システムに散在するデータを収集する必要があります。データ収集には、さまざまな手法があります。例えばAPI（Application Programming Interface）で直接連携する方法、ファイルベースで取り込む方法、データベースに直接接続する方法などです。その中で重要な概念が「ETL」です。

　ETLは「Extract、Transform、Load」の頭文字を取ったもので、データソースからデータを抽出（Extract）し、用途に合わせて変換・加工（Transform）し、格納先に保存（Load）するプロセスを指しています。同様の概念に「ELT」があります。ELTは、抽出したデータを格納してから、格納先で加工する方法を指します。

　収集したデータを蓄積する場所として多く用いられるのが「データウェアハウス（DWH：Data Warehouse）」です。その内部ではデータを3層構造で管理する方法が広く採用されています（図1）。

図1：データウェアハウス（DWH）の3層構造

第1層＝データレイク ：収集したデータをそのまま格納する
第2層＝セントラルウェアハウス ：データレイクに格納されたデータを分析しやすいように標準化した上で保持する
第3層＝データマート ：特定の分析や用途に合わせて抽出・集計したデータを格納する。データ量の増加や、さまざまな目的に柔軟に対応できるようになる

　なお収集したデータを直接DWHに格納せずに、CSVなどのファイルとしてストレージに置き、それをデータレイク層として扱う場合もあります。この場合、必要なデータは外部のデータレイク層からDWHのセントラルウェアハウス層に取り込みます。

　ではなぜ、データをそのままではなく、加工したうえで蓄積する必要があるのでしょうか。それには、データ管理の技術やコスト上の制約が関係しています。

　かつてのデータベースはオンプレミス環境、すなわち企業が管理するデータセンターやコンピュータールームにあるサーバー上で動作していました。そのため蓄積できるデータ量に限りがあり、単位データ量当たりものコストも高額でした。結果、データをそのまま保存するのではなく、途中で加工してデータ量を減らしてから保存していました。

　それが現在はクラウドコンピューティングが台頭し、そこにDWHを構築できるようになったことから、格納できるデータ容量が大幅に増加しコストも下がり、より大量のデータを、まずは蓄積できるようになったのです。

　ただDWHには、テーブル形式に構造化されたデータしか取り込めません。昨今、その活用が期待されている映像や自然言語などの非構造化データや、XMLやJSONといった半構造化データをDWHに取り込むには、何らかの加工が必要です。

次へ
ETLツールとDWHを結ぶデータパイプラインを整備する