• News
  • 共通

データ複製なしで企業内データをリアルタイム分析するサービス、米Databricksが発表

DIGITAL X 編集部
2026年6月23日

企業内に蓄積したデータをリアルタイム分析するサービスを、米Databricksが発表した。AI(人工知能)エージェントや顧客向けアプリケーション、分析ダッシュボードを利用する際、別の分析基盤へ複製することなくライブデータへ直接アクセスし、ミリ秒単位でクエリを実行するという。2026年6月16日(米国時間)に発表した。

 米Databricks(データブリックス)が発表した「Lakehouse//RT」は、データレイクとデータウェアハウス(DWH)を統合した「データレイクハウス」に蓄積したデータを対象に、リアルタイム分析を実行するためのサービス。企業がAI(人工知能)エージェントや顧客向けアプリケーション、分析ダッシュボードなどを構築する際、データを推論のためのサービング基盤へ複製することなく、データを直接利用できるという。現在はベータ版を提供している。

 Lakehouse//RTが対象とするテーブルフォーマットは、Databricksの「Delta」やオープンソースの「Apache Iceberg」で管理するデータ。既存のテーブルを指定するだけで、データを独自フォーマットへ変換したり、別環境へコピーしたりする必要がなく、ライブデータへのクエリを開始する。

 分析のための基盤技術として、新たにDatabricksが開発したコンピュートエンジン「Reyden」を採用した。高い同時実行性と低レイテンシー(遅延時間)の両立を図った完全非同期の実行モデルにより、多数のクエリが同時に発生する環境でも応答性能の低下を抑える。応答時間は小規模データセットで10ミリ秒、大規模データセットで100ミリ秒程度だという。

 複雑な分析クエリ向けには独自の最適化技術を適用する。標準的な分析ベンチマークでは、毎秒1万2000クエリで100ミリ秒未満のレイテンシーを記録したという。顧客環境では、既存の専用リアルタイムサービング基盤と比べ、最大16倍の性能向上を確認したとしている。

 クエリはすべて、Databricksのデータガバナンス基盤「Unity Catalog」の管理下で実行する。アクセス権限やポリシー、監査ログなどの管理を共通基盤上で運用するため、分析環境個別にガバナンス機能を構築する必要がなく、データレイクハウスと分析サービング環境との間での分断を防げるとする。データ変更を検知して他システムへ反映するCDC(Change Data Capture)やデータ同期パイプラインの運用負荷も抑える。

 Lakehouse//RTを先行利用する米Cisco Systems データプラットフォーム責任者のChris Kopek氏は「脅威情報の検索において応答時間が5倍改善した」と説明する。また「ユーザーやAIエージェントによる利用が増加しても、データレイクハウス上低レイテンシーを維持しながら運用できる」点を評価している。

 また、広告プラットフォームを運営する米Magnite エンジニアリング担当シニアディレクターのKayvon Raphael氏は「毎秒数百件のクエリを処理する環境で利用している」という。主要なダッシュボードクエリでは「安定して200ミリ秒未満の応答性能を維持しており、データレイク内でガバナンスを一元管理できる点が、データパイプラインの複雑さの軽減につながる」とコメントしている。

 Databricksによると、データレイクハウス上でのリアルタイム分析では「レイテンシーを受け入れる」か「データ基盤を分断して専用サービングレイヤーを構築する」かの選択を迫られていたという。後者では、インフラコストの増加に加え、データ複製による鮮度の低下やガバナンス管理の分散、特定ベンダーへの依存という課題があった。

 AIエージェントは、企業内データへ継続的にアクセスしながら推論を実行する。その性能は、必要なデータへどれだけ高速にアクセスできるかに大きく左右される。