- Column
- AI活用に取り組む企業のためのプラットフォーム
データサイエンティストの生産性を高めるAIプラットフォームが必要【条件2】
第1回では、AI(人工知能)プロジェクトの確実な推進に必要なAIインフラについて考察した。同インフラから、必要なAIリソースを、必要なタイミングに、必要な利用者に割り振っていく。割り振った環境を本稿では「AIプラットフォーム」と呼んで、AIインフラと区別する。今回は、データサイエンティストやAIエンジニアという利用者の生産性を高められるAIプラットフォームの必要性を提言する。
多くの企業がAI関連プロジェクトを立ち上げビジネスの改善に取り組んでいる。そこでは、データサイエンティストの生産性向上が重要な課題になる。データサイエンティストとは、「データから価値を創出し、ビジネス課題に答えを出す」ことをミッションに、「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」(データサイエンティスト協会による定義)である。
データサイエンティストを価値創出に集中させよ
しかしながら、多くのデータサイエンティストが、そのミッションではなく、ミッションの実行に必要なインフラやプラットフォームを構築・保守するための作業に少なくない時間を費やしているのが現実だ。データサイエンティストに関する具体的な課題をいくつか挙げよう。
課題1:最新ソフトウェアの安定的な利用
第1回で述べたように、AI関連技術の進展は、まさに日進月歩である。データサイエンティストが利用するツール、典型的には「TensorFlow」や「PyTorch」といったディープラーニング(深層学習)フレームワークも頻繁に更新されている。ツールと組み合わせて利用するライブラリー(複数のツールが共通に試用するソフトウェア部品)も複数存在する。
結果、ツールとライブラリーの依存関係が複雑になり、それぞれ、どのバージョンを組み合わせれば正しく動作するのかを試行錯誤しなければならないケースがある。こうした作業は、データサイエンティストが頭を悩ませるべき問題ではなく、AIプラットフォーム側で解決されることが望ましい。
AIプラットフォーム側で広く利用されている解決策が「コンテナ」技術の活用だ。コンテナとは、コンピューター上に、ある種の“区画”を作成し、その区画内にソフトウェアの実行に必要なファイルのすべてを含めることで、区画外に影響を与えず独立して実行するための技術である。
コンテナ技術を使い確実に動作するAIツールと、そのツールが依存するライブラリなどの組み合わせを予めコンテナ化しておけば、データサイエンティストはAIツールを容易に実行できるようになる。ただし、コンテナの利用には、コンテナの実行環境それ自体を準備する必要があるため、AIプラットフォームがコンテナ技術サポートすることが望ましい。