- Column
- 課題解決のためのデータ活用の始め方
企業内に点在するデータを収集して蓄積する【第6回】

前回は、データ活用を始めるための第一歩として「現状調査」の重要性と、その進め方について解説しました。今回は、その次のステップとして、あちこちに点在するデータを収集(取得)し、蓄積するための仕組み作りについて解説します。
現状調査を終えて自社のデータの状況が把握できたら次は、それらのデータを収集(取得)・蓄積し、活用できる状態にする必要があります。多くの企業では、データが各部門のシステムに分散して存在しており、そのままでは活用できないのが実状です。
データを収集して貯めるのに重要な「ETL」と「DWH」
データ活用を進めるには、各システムに散在するデータを収集する必要があります。データ収集には、さまざまな手法があります。例えばAPI(Application Programming Interface)で直接連携する方法、ファイルベースで取り込む方法、データベースに直接接続する方法などです。その中で重要な概念が「ETL」です。
ETLは「Extract、Transform、Load」の頭文字を取ったもので、データソースからデータを抽出(Extract)し、用途に合わせて変換・加工(Transform)し、格納先に保存(Load)するプロセスを指しています。同様の概念に「ELT」があります。ELTは、抽出したデータを格納してから、格納先で加工する方法を指します。
収集したデータを蓄積する場所として多く用いられるのが「データウェアハウス(DWH:Data Warehouse)」です。その内部ではデータを3層構造で管理する方法が広く採用されています(図1)。
第1層=データレイク :収集したデータをそのまま格納する
第2層=セントラルウェアハウス :データレイクに格納されたデータを分析しやすいように標準化した上で保持する
第3層=データマート :特定の分析や用途に合わせて抽出・集計したデータを格納する。データ量の増加や、さまざまな目的に柔軟に対応できるようになる
なお収集したデータを直接DWHに格納せずに、CSVなどのファイルとしてストレージに置き、それをデータレイク層として扱う場合もあります。この場合、必要なデータは外部のデータレイク層からDWHのセントラルウェアハウス層に取り込みます。
ではなぜ、データをそのままではなく、加工したうえで蓄積する必要があるのでしょうか。それには、データ管理の技術やコスト上の制約が関係しています。
かつてのデータベースはオンプレミス環境、すなわち企業が管理するデータセンターやコンピュータールームにあるサーバー上で動作していました。そのため蓄積できるデータ量に限りがあり、単位データ量当たりものコストも高額でした。結果、データをそのまま保存するのではなく、途中で加工してデータ量を減らしてから保存していました。
それが現在はクラウドコンピューティングが台頭し、そこにDWHを構築できるようになったことから、格納できるデータ容量が大幅に増加しコストも下がり、より大量のデータを、まずは蓄積できるようになったのです。
ただDWHには、テーブル形式に構造化されたデータしか取り込めません。昨今、その活用が期待されている映像や自然言語などの非構造化データや、XMLやJSONといった半構造化データをDWHに取り込むには、何らかの加工が必要です。
