• Column
  • データの散在で高まるデータ分析基盤の価値

データドリブン経営が求めるデータ分析基盤の基礎知識

齋藤 公二(インサイト合同会社 代表)
2022年7月21日

データ分析ニーズが高まるほどデータは散在していく

 こうした企業変革のドライバーとしてのデータ分析を可能にするために重要になるのが、データ分析基盤(プラットフォーム)です。ビッグデータへの対応に加え、さまざまな部門で発生するデータ分析ニーズに応えられるよう、必要なデータを組織として収集・管理する仕組みが必要になるためです。

 例えば、先に挙げた小売業におけるデータ分析であれば、自社店舗の販売状況や在庫状況はデータで把握できても、将来の需要を予測するためには、近隣でのイベント状況は気象予報情報などを加味する必要があります。

 さらに本来的には、近隣競合店の販売状況なども知りたいところですが、競合店のPOSデータを直接的に利用することはできません。それを補うために、外販されているPOSデータを利用したり、SNSなどへの投稿内容を分析したりするわけです。こうしたデータを各店舗、あるいは販売部門や調達部門などのそれぞれがそろえることは非効率です。

 データ分析に取り組む際には、そのニーズに合わせて、チームが編成され、目的に合った分析手法や分析ツールの選定、データの確保などに取り組むケースが増えています。メンバーにすれば、参加するチームが異なるたびに、データの内容やツールなどが異なっていては、データ分析に集中できないといったことになりかねません。共通化が図れる部分をデータ分析基盤に集約することで、より柔軟なデータ分析が可能になります。

 もちろん、特定の分析ニーズに特化したデータ分析基盤を構築・運用することも考えられます。Webマーケティング用、生産ラインの稼働効率の分析用、社内の業務プロセス改善用などなどです。分析ニーズが明確に異なっていれば、個別最適化したほうが運用しやすく、利便性は高められるでしょう。

 さらに昨今は、個人情報保護やプライバシーへの関心が高まっていますし、企業が持つデータを狙ったサイバー攻撃なども増えています。顧客や生活者に関するデータを、彼らからの信頼を損ねず、かつ法令などに沿いながら分析するためには、組織としてのデータに対するガバナンスを効かせたり、セキュリティを確保したりするための仕組みの重要性が強まる一方です。

 データの格納方法やセキュリティ/ガバナンスの確保など、基盤が持つべきシステム要件には共通点が少なくありません。個別最適化したシステムを複数、構築・運用することはコスト高にもなります。後から「あのシステムが持っているデータを利用したい」といった時にも、直ぐには利用できないかもしれません。

 そこにデータ分析基盤を構築するメリットとしては、データの一元管理、分析の高速化、ビジネスニーズへの柔軟な対応、導入・運用コストの最適化、属人化・サイロ化の防止などが挙げられます。

標準的なアーキテクチャーでは5つのレイヤーからなる

 データ分析基盤に対しては、標準的なアーキテクチャーや参考情報としてのリファレンスアーキテクチャーが提案されています。それらを整理すると、データ分析基盤は大きく5つのレイヤー(層)で構成されます。

(1)データ収集レイヤー

 さまざまなデータソースからデータを収集するレイヤー。データソースは、基幹システムのほか、POSシステムやEC(電子商取引)システム、IoTシステム、Webサイト、クラウドサービスなどへと広がる一方のため、これらへの対応力が求められる。データ連携のためのデータハブやゲートウェイを設置したり、エッジ側でデータの前処理を実行したりすることもある。

(2)データ蓄積レイヤー

 データの特性に応じて、生データをバッチ処理によりデータレイクに保存したり、センサーデータをストリーム処理によりDWHなどと連携したりするための仕組みを提供する。

(3)データ加工レイヤー

 データレイクに蓄積された生データなどをDWHやデータマートとして利用できるようにETLツールなどで加工する。DWHがデータレイクやETLの機能を持つこともある。

(4)データ分析レイヤー

 データをBIツールを使って分析したりレポートを作成したりする。機械学習(ML:Machine Learning)や深層学習(DL:Deep Learning)などAI(人工知能)関連技術を使った分析を可能にする動きが強まっている。アプリケーションやWebサイトに組み込むための仕組みを用意する製品もある。

(5)データ管理レイヤー

 (1)収集、(2)蓄積、(3)加工、(4)分析の各レイヤーに共通に必要な機能を提供する。データ品質や、データガバナンス、データマネジメント、データセキュリティ、可用性などを担保する。(1)収集から(4)分析までのデータ活用のための業務プロセス(パイプライン)の管理や、利用できるデータの一覧性を高める「データカタログ」、データのライフサイクルを可視化する「データリネージ」といった機能もある。

 データドリブン経営の実現に向けて今後、データ分析に取り組む事業部やチームなどが組織内に広がっていくはずです。そこでは、共通部分を統合したり連携を容易にする仕組みを構築したりすることで全体最適化を図ったデータ分析基盤の必要性が高まっていくことでしょう。