• Column
  • 課題解決のためのデータ活用の始め方

企業内に点在するデータを収集して蓄積する【第6回】

若尾 和広(primeNumber データイノベーション推進室 室長)
2026年2月18日

前回は、データ活用を始めるための第一歩として「現状調査」の重要性と、その進め方について解説しました。今回は、その次のステップとして、あちこちに点在するデータを収集(取得)し、蓄積するための仕組み作りについて解説します。

 現状調査を終えて自社のデータの状況が把握できたら次は、それらのデータを収集(取得)・蓄積し、活用できる状態にする必要があります。多くの企業では、データが各部門のシステムに分散して存在しており、そのままでは活用できないのが実状です。

データを収集して貯めるのに重要な「ETL」と「DWH」

 データ活用を進めるには、各システムに散在するデータを収集する必要があります。データ収集には、さまざまな手法があります。例えばAPI(Application Programming Interface)で直接連携する方法、ファイルベースで取り込む方法、データベースに直接接続する方法などです。その中で重要な概念が「ETL」です。

 ETLは「Extract、Transform、Load」の頭文字を取ったもので、データソースからデータを抽出(Extract)し、用途に合わせて変換・加工(Transform)し、格納先に保存(Load)するプロセスを指しています。同様の概念に「ELT」があります。ELTは、抽出したデータを格納してから、格納先で加工する方法を指します。

 収集したデータを蓄積する場所として多く用いられるのが「データウェアハウス(DWH:Data Warehouse)」です。その内部ではデータを3層構造で管理する方法が広く採用されています(図1)。

図1:データウェアハウス(DWH)の3層構造

第1層=データレイク :収集したデータをそのまま格納する
第2層=セントラルウェアハウス :データレイクに格納されたデータを分析しやすいように標準化した上で保持する
第3層=データマート :特定の分析や用途に合わせて抽出・集計したデータを格納する。データ量の増加や、さまざまな目的に柔軟に対応できるようになる

 なお収集したデータを直接DWHに格納せずに、CSVなどのファイルとしてストレージに置き、それをデータレイク層として扱う場合もあります。この場合、必要なデータは外部のデータレイク層からDWHのセントラルウェアハウス層に取り込みます。

 ではなぜ、データをそのままではなく、加工したうえで蓄積する必要があるのでしょうか。それには、データ管理の技術やコスト上の制約が関係しています。

 かつてのデータベースはオンプレミス環境、すなわち企業が管理するデータセンターやコンピュータールームにあるサーバー上で動作していました。そのため蓄積できるデータ量に限りがあり、単位データ量当たりものコストも高額でした。結果、データをそのまま保存するのではなく、途中で加工してデータ量を減らしてから保存していました。

 それが現在はクラウドコンピューティングが台頭し、そこにDWHを構築できるようになったことから、格納できるデータ容量が大幅に増加しコストも下がり、より大量のデータを、まずは蓄積できるようになったのです。

 ただDWHには、テーブル形式に構造化されたデータしか取り込めません。昨今、その活用が期待されている映像や自然言語などの非構造化データや、XMLやJSONといった半構造化データをDWHに取り込むには、何らかの加工が必要です。