GEM Japan Discovery: Beacon v2
Beacon v2の必要性
世界で共有可能なデータセットはdbGaPやgnomAD、GTEx、The Cancer Genome Atlas(ATGC)など様々な組織から提供されています。しかし、これらのデータセット群の中には、アクセス制限が課されているデータセットもあります。例えば、あるデータセットから特定のアレルを持つゲノムデータを取得したいとき、データ利用者はその都度、データセットを提供する管理組織に使用権限を申請した上で、承認される必要がありました。この点を解消するべく、GA4GH Passportsが構築されつつあります。それによって、データ利用者は、従来のプロセスに費やす大変な労力と時間を軽減できるようになりました。一方で、データ利用者が共有可能なデータセットを効率よく活用するために、どのデータセットがデータ利用者に役立つデータを内包しているかどうかを、容易に探索できることも重要です。その際、データセットを構成する各登録データは、患者/参加者に由来するため、個人情報(プライバシー)保護の観点から遵守されなければなりません。それ故、データ利用者に、安易に登録データを公開することもできません。このような問題に配慮した上で、特定の患者/参加者を参照させずに、データ利用者が調べたい特定のアレルを内包するゲノムデータセットを網羅的に知る手法の開発が求められていました。
Beacon v2の利便性
Beacon v2はDiscovery ワークストリームを中心に開発され、例えば「あるゲノム中の変異を持つデータセットはありますか?」という問いにyes/noを返すことで、データ利用者が活用したいデータセットを提示してくれます。すなわち、データ利用者が様々なデータセットに利用申請をして詳細な閲覧や解析を行う前に、データ利用者が見出したい特定アレルを持つゲノムデータを、それを内包するデータセット群から、網羅的かつ一括して検索することが可能となります。その結果、個々のデータアクセスへのハードルが下がるとともに、データ利用者の検索効率も向上します。また、アクセスレベルに応じて、「Public/Registered/Controlled」が設定されており、利用者自身が許可されている範疇で、データを検索することができます。そのため、データのプライバシーやセキュリティを担保しつつ、利用者には興味のある特定のアレルを持つデータセットを選出するための検索が容易となり、データの利活用が促進されます。
今後の改善課題と進捗
リンク
- Beacon(英語)
- GA4GH genome beacon (英語)
- GA4GH News (Extensions to the GA4GH Beacon API will enable a more powerful community resource: 英語)
- ELIXIR Beacon Project(英語)
- GA4GH Work Streams ウェブページ(英語)
(記事協力:AMED科学技術調査員 秦千比呂)
最終更新日 令和2年7月9日