• Column
  • シアトル発、工藤卓哉のデジタル便り

AWSの「re:Invent」で感じた機械学習の未来【第4回】

工藤 卓哉(アクセンチュア)
2019年1月7日

データレイクのマネージドサービス

 わずか数日でデータレイクを構築できるマネージドサービス「AWS Lake Formation」も発表されました。同時発表された複数アカウントをよりセキュアに構築できる「AWS Control Tower」を活用することにより、データレイクへデータを移行する際、AWSアカウントのアクセス権限を統合管理できるようになりました。

 統合された環境では、ログ、セキュリティ監査、ダッシュボード管理が可能になり見栄えもよくなることから、これは特に一般ユーザー受けしそうな新サービスであると感じました。

OCRを超える文字認識サービス

 現在、自然言語処理(NLP)では、トークナイゼーション(Tokenization)という機密情報をトークンに置き換えて保存する技術を活用しています。ただ実際には、前処理の段階でOCR(光学文字認識)を用いるケースことがほとんどです。

 これに対し、スキャンした画像のテキストなどをデジタルデータに変換する新サービス「AWS Textract」が発表されました。その特徴は以下のとおりです。

・画像ファイルに含まれる文字を認識し、表記文字を抽出
・同画像ファイルにマトリックスが含まれる場合、列・行の配列を維持したデータ抽出が可能
・マトリックスに枠がなくても文字を読む方向性に従って、配列の整合性を維持した文字列の抽出が可能。たとえば、飲食店のメニューの画像に「牛丼680円 豚丼600円」といった文字がある場合、680円が牛丼の価格に該当し、600円が豚丼の価格であることを正しく認識できることになる
・手書き文字については現時点では未対応
・既存の「AWS Rekognition」は、画像フレーム内の文字認識に対応しているが、AWS TextractはテキストOCR判別に特化したサービスとして切り離されている。1画像につき3000文字(words)まで対応が可能

機械学習の民主化に向け人材育成にも乗り出す

 AWSが発表した一連の新サービスを分析してみると、機械学習にも“民主化の波”が到来しつつあるのを実感します。AWSは企業が機械学習を展開する上での課題として以下の4点を挙げています。

課題1:業務要件が次々に生まれる一方で、対応できるスキルを持つ人材が不足している
課題2:社内データが部署ごとにサイロ化された状態で存在している
課題3:モデルのイテレーション(反復)を行うスピード/瞬発力が劣る
課題4:非機能要件を満たした基盤の選択・設定が難しい

 このうち、課題1の人材については、他部署と接触を持つ機械学習の専門チームそのものがサイロ化されてしまい、技術的アウトプットは提供するものの、そのコンテンツがブラックボックスになってしまい、事業部門との統合が十分でない傾向があります。限られた人材がモデルを整備するため、課題3のようなイテレーション速度が上がらないという問題も存在します。

 これらの解決方法としてAWSは、これまで社内の開発者やデータサイエンティスト向けに提供してきた約30種類もの機械学習トレーニング講座を無償で一般公開し、認定制度も用意しました。なかでも、フルマネージド型の機械学習サービス「Amazon SageMaker」向けトレーニングは“イチ押し”講座に挙げられています。

 Amazon SageMakerは、単なる機械学習の民主化だけではなく、高度に意思決定を支え、サイエンスとしての再現性をエンタープライズレベルで実現できる可能性と設計思想を秘めていると言えます。

 ソフトウェアエンジニアリングと機械学習が融合する過程をはじめ、長らくデータサイエンスを見てきた私は、この領域がまだ小さかった時代を覚えています。それが、いよいよエンタープライズレベルで、計算資源のみならず、ビジネス成果を最適化するという本質的な課題に向き合い、スケールアウトを狙う時代になりつつあるのです。

機械学習のためのマーケットプレイスやラジコンカーも登場

 データサイエンスや機械学習の民主化という文脈では、AWSマーケットプレイスに新たに機械学習カテゴリが追加され、アルゴリズムとモデルパッケージの売り買いが可能になったことも注目に値するでしょう。発表時点ですでに150以上のモデルが販売されており、今後も新たなモデルや売り手が追加されていく見通しです。

 さらにAWSは、ハッカソンなどで手を動かしながら強化学習を学べるラジコンカー「AWS DeepRacer」を発表しました。AWSが主催する「Robocar Rally」で使用されていたラジコンが一般向けにも公開されたことに加え、プログラミングに関しては「Amazon SageMaker」と密結合されているのが特徴です。

 機械学習関連以外にも、Amazon S3に「Intelligent-Tiering」という新しいストレージクラスが追加されるなど、期間中には盛りだくさんの発表がありました。ですが、すべてを紹介するわけにもいきませんので、今回はこのあたりで筆を置くことにします。

 2018年のre:Inventでは機械学習関連の発表が前年と比べて大幅に増えていることからも明らかなように、今後もAWSの取り組みには目を離せない状況が続くでしょう。

工藤 卓哉(くどう・たくや)

アクセンチュアData Science Center of Excellence グローバル統括 兼 ARISE analytics Chief Science Officer。