GEM Japan OmicsXchange Podcast Episode 4: Re-envisioning the Data Access Process: An interview with Melanie Courtot and Craig Voisin

「データアクセス制御がもたらす課題と各チーム内で開発している解決策について」(概要)

背景

データへのアクセスに必要なプロセスは非常に長くなっており、関心のあるデータを実際に取得するには2~6週間かかっています。現時点では、すべてプレーンテキストかつ手動で行われていることも挙げられます。データアクセスには複数の段階がありますが、最初は利用可能で役に立つデータセットが、どこにあるか探すところから始めます。次に、データセットを読み取るために、アクセスIDの申請を行う必要があります。しかし、どこにログインすればよいのか、データがどこにあるのかなど、データにアクセスするための前準備の段階で困難が生じています。Data Access Committee(DAC)はデータセットの内容と比較して、リクエストの内容を評価する必要があり、それを手動で行っています。データの活用には、患者様から得ることができた元の同意フォームに準拠して行われますが、その作業には専門知識が必要なため、時間を要します。さらに、データセットの数は増えており、そのデータにアクセスするためのアプリケーションの数も増えています。それ故、DACが担っている、アクセスID の申請から承認までのプロセス(スケーラビリティ)の煩雑さが問題となっています。

データアクセスの自動化の意義

登録されるデータ(供給)とデータを利用する人(需要)のそれぞれの数が増えてしまうと、それらの関係の複雑さを維持しつつ、データシステム全体の多様化に対応するには、アクセスIDの登録フォームを作成する様々なツールを使用すると、データ利用者は単一のプロジェクトしかアクセスすることができず、大きな障害となります。現在のデータセットには、アクセスを要求するタイプと、制限のタイプがあります。それらの80%は標準化されており、DACによるアクセス要求のトリアージに役立っています。そのため、すべてを完全に自動化することではなく、DACの負荷を軽減することが目標となります。

Data Use Ontology(DUO)によるデータアクセスの適合

DUOを使用すると、データアクセス制限を表すために明確な一連の用語が提供され、プロセスのさまざまな段階で使用可能となります。したがって、目的のデータセットを見つけようとしているときは、実際にアクセスできるデータセットのみを取得できるようになる模様です。

データアクセスプロセスにおけるGA4GH Passportsの適合性

GA4GH Passportsを介して、データ利用者の認証と承認を簡便に処理できるようになったことに併行して、DACがDUOのタグ付き要素を自動的に確認するプロセスも確立しています。したがって、これらDUOとGA4GH passportの連携を通して、データ利用者(研究者)がデータにアクセスするために、1つの共通のワークフローを作り上げることが重要になります。

データ利用者がデータにアクセスするためには、アクセスIDの認証と承認プロセスの標準化と自動化によって、研究活動全体がどのように改善されるかが問われています。
データの再利用状況の改善、分析に使用するためのデータフローの高速化、複数の機関や提供先からのデータを見いだすためのアプリケーション開発を実現し、研究活動を促進する必要があります。


GA4GHニュース(英語):OmicsXchange Podcast Episode 4: Re-envisioning the Data Access Process: An interview with Melanie Courtot and Craig Voisin

(記事協力:AMED科学技術調査員 秦千比呂)

最終更新日 令和2年6月15日