GEM Japan Discovery: Beacon v2

Beacon v2の必要性

世界で共有可能なデータセットはdbGaPやgnomAD、GTEx、The Cancer Genome Atlas(ATGC)など様々な組織から提供されています。しかし、これらのデータセット群の中には、アクセス制限が課されているデータセットもあります。例えば、あるデータセットから特定のアレルを持つゲノムデータを取得したいとき、データ利用者はその都度、データセットを提供する管理組織に使用権限を申請した上で、承認される必要がありました。この点を解消するべく、GA4GH Passportsが構築されつつあります。それによって、データ利用者は、従来のプロセスに費やす大変な労力と時間を軽減できるようになりました。一方で、データ利用者が共有可能なデータセットを効率よく活用するために、どのデータセットがデータ利用者に役立つデータを内包しているかどうかを、容易に探索できることも重要です。その際、データセットを構成する各登録データは、患者/参加者に由来するため、個人情報(プライバシー)保護の観点から遵守されなければなりません。それ故、データ利用者に、安易に登録データを公開することもできません。このような問題に配慮した上で、特定の患者/参加者を参照させずに、データ利用者が調べたい特定のアレルを内包するゲノムデータセットを網羅的に知る手法の開発が求められていました。

Beacon v2の利便性

Beacon v2はDiscovery ワークストリームを中心に開発され、例えば「あるゲノム中の変異を持つデータセットはありますか?」という問いにyes/noを返すことで、データ利用者が活用したいデータセットを提示してくれます。すなわち、データ利用者が様々なデータセットに利用申請をして詳細な閲覧や解析を行う前に、データ利用者が見出したい特定アレルを持つゲノムデータを、それを内包するデータセット群から、網羅的かつ一括して検索することが可能となります。その結果、個々のデータアクセスへのハードルが下がるとともに、データ利用者の検索効率も向上します。また、アクセスレベルに応じて、「Public/Registered/Controlled」が設定されており、利用者自身が許可されている範疇で、データを検索することができます。そのため、データのプライバシーやセキュリティを担保しつつ、利用者には興味のある特定のアレルを持つデータセットを選出するための検索が容易となり、データの利活用が促進されます。

今後の改善課題と進捗

Beaconが提供するデータセットの充実や複雑な要求への対応が今後の課題となっています。これまでのBeacon はyes/noを返す単純な構造であったため、より具体的に「あるゲノム変異を持つ患者は、どのような疾患であるのか」などの臨床的なメタデータに対応できていません。また、Beaconが提供するデータセット群は、ゲノムの構造多型(一塩基多型やコピー数多型など)に起因する、個々のゲノム多様性を集積した(集団ゲノム)データセットであるが故に、Beaconは「複雑な変異の検索」にも対応できていません。一方で、Beaconは、世界規模のデータシェアリングに向けて、その活用法の標準化を目指すために、他のGA4GH ワークストリーム由来の開発ツール(DUOやGA4GH passport)との連携を推進しており、さらなる機能性の向上に貢献しています。PhenopacketsやVariation Representation、Variant Annotationとの連携を介して、多様なデータ形式に対応することで、Beaconの有用性の向上に取り組んでいます。、OmicsXchange Podcast Episode 5において、世界的な情報共有により蓄積したウイルスゲノム関連のデータセットを、Beaconを活用して、「COVIDパンデミックに有効なデータセット(ウイルスゲノムなど)を、効率的に検索できるようにする」COVID Beaconが紹介されています。
 

リンク

最終更新日 令和2年7月9日