• News
  • 共通

文書や画像など非構造化データを分析用に収集・加工するサービス、DATAFLUCTが開始

DIGITAL X 編集部
2021年12月27日

文書や画像など非構造化データを分析に適した構造化データに変換するサービスを、ビッグデータ分析などを手掛けるDATAFLUCTが2021年12月中旬に開始した。文書検索の効率を高めたり、音声から感情を分析したりできる仕組みの構築を支援する。2021年11月19日に発表した。

 ビッグデータ分析などを手掛けるDATAFLUCTの「AirLake」は、社内外にある各種非構造化データを、分析しやすい構造化データに変換・加工するためのサービス(図1)。文書の部門を跨がっての検索や、コンタクトセンターにおける対話内容から顧客の感情を分析するといった仕組みを実現する際のデータの前処理を容易にする。

図1:「AirLake」は、社内外の非構造化データを構造化データに変換するサービス

 AirLakeが扱える主な非構造化データは、画像/動画、音声、自然会話、ID基盤、地理空間、センサーデータ、SNS(ソーシャルネットワーキングサービス)など。これらを構造化するためのテンプレートを提供する。例えば、画像に対して「何を示しているか」などの関連情報(メタデータ)を付与するアノテーションなどである(表1)。

表1:AirLakeが扱える非構造化データと構造化処理の例
対象データ構造化処理の例
画像/動画アノテーション(抽出対象、異常検知対象など)、メタ情報(上下幅、色、サイズ、カテゴリーなど)
音声形式変換(フーリエ変換による周波数領域変換)、テキスト化、不要語削除
文章クリーニング(ノイズ除去)、ストップワード除去、単語の分割、正規化、文字種の統一など
センサーデータ半構造化データ(json、xml)の構造化変換、ダウンサンプリング、データの結合分割、正規化など

 構造化したデータは一元管理し、カタログとして提示できる。種々のデータを扱い様々な用途に使えるよう、ETL(抽出、変換、読み込み)ツールやVPN(仮想私設網)、API(アプリケーションプログラミングインタフェース)といったコネクターを用意する。セキュリティ対策として、データごとにアクセス権を付与することもできる。

 AirLakeの利用料金は、月額基本料が40万円(税別)。扱うデータ量が1テラバイトを超えるとストレージやトランザクションの利用料が発生する。ほかに保守運用費やオプション利用料がかかる。