• News
  • 共通

機械学習によるデータ分析・活用を容易にする機能、米Databricksが提供

DIGITAL X 編集部
2021年6月25日

AI(人工知能)技術を使ったデータ分析を専門家ではない従業員でも利用可能にする機能を、データ分析基盤サービス「Databricks Lakehouse」を提供する米Databricksが追加する。2021年5月27日(米国時間)に発表した。

 米Databricksの「Databricks Lakehouse」は、AI(人工知能)技術を使ったデータ分析のための基盤サービス(図1)。分析対象になるデータを一元的に管理するデータレイク/DWH(データウェアハウス)の機能と、機械学習の機能とを併せ持っており、データ量に応じた従量課金で提供される。

図1:AI技術を使ったデータ分析を可能にする「Databricks Lakehouse」の概念

 今回、データ分析やAI技術の利用者層を専門家以外にも広げるための機能を追加した。具体的には、(1)「Databricks Machine Learning」、(2)「Delta Live Tables」、(3)「Unity Catalog」、(4)「Delta Sharing」の4つである。

 Databricks Machine Learningは、機械学習(ML:Machine Learning)の実行に必要な機能を提供するサービス。モデルの構築から学習、デプロイ、管理までの機能を用意する。「AutoML」と「Feature Store」の2機能を追加した。

 AutoMLでは、機械学習プロセスを強化するために、これまで手作業だったステップを自動化し、制御性と透明性を確保する。Feature Storeは、モデル機能の発見性やガバナンスを高めモデルの再利用を促すものである。いずれもGUI(グラフィカルユーザーインタフェース)ベースで利用できる。

 Delta Live Tablesは、分析するデータの品質を確保するための機能。データ分析や機械学習での使用に必要なデータの品質を、OSS(オープンソースソフトウェア)プロジェクト「Delta Lake」が持つETL(抽出、変換、ロード)機能により確保する。データの品質チェックやエラーハンドリングを含め、チーム内でナレッジを共有できる。

 Unity Catalogは、Databricks Lakehouseが管理するデータを「データカタログ」に集約し可視化する機能だ(図2)。社内外とのデータの共有・交換において、複数のクラウド環境に対するガバナンスを有効にするために、データの定義・加工や、アクセス権の設定ができる。

図2:「Unity Catalog」は、複数のクラウドにあるデータを「データカタログ」として可視化する

 データ共有時の安全性を高めるのがDelta Sharingである。Delta Lakeのオープンなプロトコルにより、組織間でデータをリアルタイムに共有する(図3)。

図3:「Delta Sharing」はオープンプロトコルで社内外のデータを共有する