Column
DXの核をなすデータの価値を最大限に引き出す

データ活用サイクル・ステップ1：収集段階の取り組みと留意点【第2回】

佐藤恵一（日立製作所公共システム事業部パブリックセーフティ推進本部）

2024年3月14日

データの信頼性を高めるには収集段階からの考慮が不可欠

　いずれのプローチ戦略を採っても、データの収集段階では、データそのものの信頼性を考慮する必要があります。データの信頼性は解析結果の信頼性に直結するからです。

　データの信頼性は、主に「精度」と「由来」から形成されます。精度は「ばらつきや再現性」を指し、由来は「そのデータが、どのようにして取られたか」を指しています。データの信頼性を具体的に考えるために、次のケースを想定してみます。

＜想定ケース＞
A社の全社員を対象に毎年、体重計を使って体重を測る
＜条件＞
・体重計によって測定精度が異なり、100グラム単位で測れる体重計と1キログラム単位でしか測れない体重計がある
・体重測定とともに、簡単な血液検査と運動頻度に関するアンケートを実施する
・体重データとアンケート結果を収集し全体を解析し、その結果に基づくアドバイスを本人に提供する

　このケースでデータの信頼性に関して考慮しなければならないことを挙げてみます。

考慮点1：計測測定装置の選択

　体重計から出力されるデータに対し、解析段階でデータを加工しないことを前提にすれば、精度が異なる体重計がある場合、次の2つが選択できます。（1）すべての体重データを1キログラム単位で解析するか、（2）100グラム単位で測れる体重計で測定した体重データのみを抜き出し100グラム単位で解析するかです。

　データを抜き出す場合、体重データとともに「どの体重計で測定したか」、すなわち測定精度も意識しなければなりません。このケースの場合、事前に「100グラム単位で測れる体重計を使用する」と決めていれば、すべてのデータを使って1キログラム単位よりも精密な数値解析が可能になります。

考慮点2：データの発生源の特定

　得られた体重データは、本当にAさんが体重計に乗った際のものでしょうか。個人の情報を収集する際は、個人に紐づけた情報管理が不可欠ですが、場合によっては、第三者の確認や本人確認といった運用が必要になります。これも事前に決めておく必要がありそうです。

考慮点3：計測装置の確からしさ

　体重計のデータは複数回測っても同じ結果かどうか。できれば複数回測定し、平均をとるほうが情報の精度が高まる可能性があります。

考慮点4：データの収集期間

　測定データを、どのくらいの期間、収集し続ける必要があるか。十分なデータ量がないと十分な解析ができません。仮説に基づき「取り組みを何年間続ける」といった計画をあらかじめ立てる必要があります。

考慮点5：測定項目と測定方法

　データとして単純に比較できるかどうか。想定ケースで実施する血液検査では、ルールが事前に決められ、どこの検査機関でも同じ結果が出る検査項目は単純に比較が可能です。しかし検査機関ごとに試薬や手順が異なる項目においては、その結果を単純に比較できないことがあります。その場合は、検査結果だけでなく検査機関ごとの試薬や手順を含む検査方法についても押さえる必要があります。

考慮点6：アンケート項目の回答方法

　アンケートでは項目の設定および回答方法は適切か。例えば運動頻度について、回答を自由記述式にすると、「週に〇日」や「一日〇時間」など、ばらつきが大きくなります。回答欄を「一日（　）時間」のように示せば、ばらつきをある程度抑制できますが、小数点を含めて回答する人もいるでしょう。

　ばらつきや入力ミスを考慮すれば、選択式は有用な手段です。しかし、例えば1日当たりの運動時間に対する選択肢を「1時間以下、1～2時間、2時間以上」とした場合と、「30分以下、10分以上60分以下、60分以上」とした場合とでは、両者の回答データは単純に比較できません。他のデータと照合するためには、選択肢の尺度をできるだけ合わせる必要があります。

考慮点7：ルールの確からしさ

　事前に定めたルールは適切かどうか。第三者の監査を受けているか、国際基準に従っているか、あるいはルールが、しっかりと守られているかどうかなどを確認する必要があります。データを転記する場合はダブルチェックがなされているでしょうか。こうした運用方法がデータの信頼性を左右します。

収集したデータがすべての基準を満たすケースは少ない

　この想定ケースでいえば「精度」は測定精度、収集回数、尺度などです。「由来」は検査方法、運用方法などになります。体重測定というケースでも、考慮点が多数あったように、収集したデータが、精度や由来のすべての基準を満たしていることは、まれであることを実感いただけたかと思います。

　近年は、診療行為に基づく情報を集めた医療ビッグデータである「RWD（リアルワールドデータ）」の活用への関心が高まっています。その進展に向けては、「世の中にどのような情報があり、足りない要件は何か」を見極めたうえで、不足するデータを新たに収集しなければなりません。その際には、上記のような考慮点に留意しデータを収集することが、高いレベルでの情報活用につながっていきます。

　次回は、RWDなど、種々のデータ中でも特段の留意が必要な「ヒトのデータ」、すなわち個人情報やパーソナルデータの扱い方を説明します。

佐藤恵一（さとう・けいいち）

日立製作所公共システム事業部パブリックセーフティ推進本部パブリックセーフティ第二部主任技師　2000年日立ソフトウェアエンジニアリング株式会社入社。2009年大阪大学大学院工学研究科応用化学専攻博士後期課程修了。同年に秘匿情報管理サービス「匿名バンク」を事業化。産業・金融・公共・ヘルスケア分野に高セキュアなクラウドサービスを展開。2015年日立製作所へ転属。現在は「匿名バンク」事業推進を主として、公的機関や民間企業向けのITコンサルティング業務などにも従事。情報処理安全確保支援士。一般社団法人遺伝情報取扱協会理事。博士（工学）。

前へ
データ収集には“信頼性重視”と“量重視”のアプローチがある