• Column
  • 大和敏彦のデジタル未来予測

生成AIにより高まる非構造化データの重要性【第86回】

大和 敏彦(ITi代表取締役)
2024年11月18日

センサーや動画、音声、SNS(ソーシャルネットワーキングサービス)などにより非構造化データが加速度的に増加している。認識技術の進化や生成AI(人工知能)技術の登場で、それらをデータとして分析や活用することが容易になっている。すなわち、非構造化データを使った改革や高精度の意思決定が可能になっている。今回は、非構造化データを使ったDX(デジタルトランスフォーメーション)について考えてみたい。

 DX(デジタルトランスフォーメーション)への取り組みの大きな目標の1つに“データ駆動型経営”への変革がある。そのため、データを活用した正しい現状把握や、データ分析に基づく高い精度での予測などへの期待が高まっている。

 そうした場面で分析に活用されてきたデータは、列と行の概念を持つ表計算ソフトウェアのテーブルのように整理された「構造化データ」が多い。整理されているため、集計や比較、検索が容易であり、データの解析や分析に適している。

 一方、報告書などのテキストデータやメモ、SNS(ソーシャルネットワーキングサービス)メッセージ、センサーデータ、画像や音声などは、特定の形式を持たず「非構造化データ」と呼ばれる。構造がなく整理されていない膨大なデータの扱いは手作業が多く、手間と時間がかかる。

 だが認識技術の進化や生成AI(人工知能)技術の登場が、非構造化データの取り扱いを容易にした。例えば、テキストデータから抽出した情報を元に、文章を要約したり、感情分析によって消費者の行動や意識を判断したりが可能になる。画像データに対しても画像認識や情報抽出ができる。

企業が生成するデータの9割は非構造化データ

 ホワイトペーパー『非構造化データについて あらゆる経営幹部が理解すべきこと』(米IDC)によれば、2022年に世界中の企業が生成したデータの90%が非構造化データで、構造化データは、わずか10%に過ぎなかった。

 非構造化データの総量は2022年に5万7280エクサバイトで、2023年には28%増の7万3000エクサバイト以上になるとみられる。これほどに膨大なデータを蓄積・分析し、企業にとって役立つインサイト(洞察)を導き出すことを考える必要がある。

 同ホワイトペーパーは、ビジネスデータに関する企業の優先事項も報告している。1位はコンプライアンスとデータプライバシー、2位は非構造化データからのインサイトを取り入れた意思決定、3位はデータセキュリティである。EU(欧州連合)のGDPR(一般データ保護規則)や日本の個人情報保護法などコンプライアンスやデータセキュリティを強化する動きが強まる中で、非構造化データを意思決定に、いかに使っていくかが重視されているわけだ。

 ただ2023年時点で、分析により価値を引き出せている非構造化データは58%だった。2回以上再利用されている非構造化データの割合も半分程度である。非構造化データの価値を理解し、非構造化データを含めたデータ管理や活用の検討が急務になっている。

 構造化データと非構造化データを組み合わせた分析も必要になる。これまで特定の目的でしか活用されていなかった非構造化データが、新ビジネスや企業変革に役立つとの期待は大きい。

 データ活用基盤ベンダーの米Snowflakeが発行する『Data Trend 2024』によれば、非構造化データの活用は2023年7月から2024年1月までに123%増加した。生成AIの学習に、一般に利用できるデータセットに含まれている構造化されていないデータが使われたことが背景にある。生成AIの進化と伴に、非構造化データが、さまざまな分野で使われるようになっていくだろう。