- News
- 共通
文書や画像など非構造化データを分析用に収集・加工するサービス、DATAFLUCTが開始
2021年12月27日
文書や画像など非構造化データを分析に適した構造化データに変換するサービスを、ビッグデータ分析などを手掛けるDATAFLUCTが2021年12月中旬に開始した。文書検索の効率を高めたり、音声から感情を分析したりできる仕組みの構築を支援する。2021年11月19日に発表した。
ビッグデータ分析などを手掛けるDATAFLUCTの「AirLake」は、社内外にある各種非構造化データを、分析しやすい構造化データに変換・加工するためのサービス(図1)。文書の部門を跨がっての検索や、コンタクトセンターにおける対話内容から顧客の感情を分析するといった仕組みを実現する際のデータの前処理を容易にする。
AirLakeが扱える主な非構造化データは、画像/動画、音声、自然会話、ID基盤、地理空間、センサーデータ、SNS(ソーシャルネットワーキングサービス)など。これらを構造化するためのテンプレートを提供する。例えば、画像に対して「何を示しているか」などの関連情報(メタデータ)を付与するアノテーションなどである(表1)。
対象データ | 構造化処理の例 |
画像/動画 | アノテーション(抽出対象、異常検知対象など)、メタ情報(上下幅、色、サイズ、カテゴリーなど) |
音声 | 形式変換(フーリエ変換による周波数領域変換)、テキスト化、不要語削除 |
文章 | クリーニング(ノイズ除去)、ストップワード除去、単語の分割、正規化、文字種の統一など |
センサーデータ | 半構造化データ(json、xml)の構造化変換、ダウンサンプリング、データの結合分割、正規化など |
構造化したデータは一元管理し、カタログとして提示できる。種々のデータを扱い様々な用途に使えるよう、ETL(抽出、変換、読み込み)ツールやVPN(仮想私設網)、API(アプリケーションプログラミングインタフェース)といったコネクターを用意する。セキュリティ対策として、データごとにアクセス権を付与することもできる。
AirLakeの利用料金は、月額基本料が40万円(税別)。扱うデータ量が1テラバイトを超えるとストレージやトランザクションの利用料が発生する。ほかに保守運用費やオプション利用料がかかる。