• Column
  • デジタルツインで始める産業界のDX

デジタルツインに必要なデータ基盤の要件(前編)【第4回】

草薙 昭彦(Cognite チーフソリューションアーキテクト 兼 CTO JAPAN)
2021年5月26日

ストレージに必要な機能と考え方

 データを保持するデータ基盤の内部構成を、もう少し詳しく見ていきましょう。データ基盤は大きく、(1)データを格納する「ストレージレイヤー」と、(2)データを加工・変換する「処理レイヤー」の2つに分かれます。

 さらに、ストレージレイヤーは、収集したデータを未加工のまま格納しておく「データレイク」領域と、アプリケーションが効率的に利用できるように加工したデータを格納しておく「データマート」領域に分かれます(図3)。

図3:データ基盤のストレージレイヤーや、データレイク領域とデータマート領域に分かれる

 なぜ、このような構成が必要なのでしょうか。その理由の1つは、データソースで扱われるデータの構造と、アプリケーションの利用に適したデータの構造が大きく異なるためです。

 データソースシステムでは、業務を正確かつ信頼性の高い形で記録することが重視されます。そのため一般的に、リレーショナル・データベース(RDB)のようなトランザクション処理に対応したシステムが採用され、データの一貫性を維持するために正規化された(重複が排除された)多数のテーブルでデータを管理します。

 これに対し、デジタルツインのように大規模なデータを扱うシステムでは、正規化されたデータへのアクセスは利用時に大量の結合処理が実行されるため、期待通りの性能が出ないことがよくあります。

 そこで考え方を変え、データの更新がない用途においては正規化が重要ではなくなることから、データの重複を許容し事前に加工したデータを用意しておくことが定石になります。これにより、データ利用時に必要な処理が大幅に減り、アプリケーションの性能が向上します。

 このような背景から、未加工のデータを格納するデータレイク領域と、加工済みデータを格納するデータマート領域を同じデータ基盤内に設け、両方に効率的にアクセスできる処理レイヤーを用意することが理にかなっているのです。

 データレイク領域に未加工のデータを格納しておくことには、複数の利点があります。1つは、データ収集とデータ変換の処理を、データレイク領域を間に挟むことで分離できることです。処理の変更やメンテナンスが容易になります。

 用途が拡大し、新たなデータ加工が必要になったときも、元のデータソースにアクセスしなくても、未加工データからの再加工が容易です。これはデータソースであるシステムの性能に対する影響を回避し、開発効率を高めることにつながります。

 さらに、デジタルツインを活用したデータ分析において、分析担当者からの「未加工のデータを見たい」というニーズにも答えられます。未加工データへのアクセスを許容することで、そこから新たなデータ活用につながることが期待できます。

処理レイヤーに必要な機能と考え方

 蓄積されたデータの処理レイヤーでは、処理性能はもとより、自動化、セルフサービス化の機能が重要になります。

 処理性能に関しては、「速ければ良い」ということはもちろんですが、アーキテクチャーの観点からは、処理機能がきちんと分散処理システムとして実装され、データの増大にリソースの追加で対応できることを確認しておく必要があります。即時性のあるデータ利用を望むのであれば、処理レイヤーにはバッチ処理に加え、ストリーミング処理能力も求められます。

 自動化は、運用になるべく人手を割かないようにするための機能です。開発した処理ロジックの定期的な実行や、実行の契機となる事象の管理などを担います。処理を小さな機能に分割して管理する「マイクロサービス」の手法を取り入れた製品も登場してきています。

 セルフサービス化は、ITの専門家ではないユーザーがデータの加工・変換処理を実装できるようにするための機能です。データ分析において、専門部署や外部のパートナーに依頼した作業の完了を待つことにフラストレーションを抱えるユーザーは少なくありません。ツールの支援を受けながら独力で分析できるようになることは、業務効率を大きく高めることにつながります。

 今回説明したのは、データ基盤のためのシステムの中でも「土台」にあたる部分です。次回、後編では、データの意味付けによる活用の促進と、システム管理機能について説明します。

草薙 昭彦(くさなぎ・あきひこ)

Cognite チーフソリューションアーキテクト 兼 CTO JAPAN。1975 年神奈川県生まれ。東京大学大学院工学系研究科電子情報工学専攻修士課程修了。大手外資系IT企業数社を経て、現職。シンガポール在住。近年はデータエンジニアリング、分析および、その表現手法としてのビジュアライゼーション技術に重点を置いている。東京の公共交通3Dマップ「Mini Tokyo 3D」の作者としても知られる。