GEM Japan Guest Post: Seven myths about CRAM - the community standard for genomic data compression

CRAMは、FASTQやBAMなどの「ファイルフォーマット」の一つです。このCRAMの開発者でありGA4GH Large Scale Genomics Work StreamのメンバーでもあるJames Bonfield氏(Sanger Institute)が、よく見られるCRAMに関する7つの「誤解」を紹介しています。例えば、CRAMはリファレンスへの参照が必須であり、アライメントしたデータのみを表現する、不可逆圧縮のファイルフォーマットであるといった「誤解」に対し、その正しい理解について技術的な面も含めて解説しています。また、現在のプロトタイプであるCRAM3.1においてサイズと速度がどの程度の折り合いとなるかについて図説し、NGSデータをストリーミングデータとして効率的に取得できるhtsgetとの関連についても言及しています。

GA4GHニュース(英語):Guest Post: Seven myths about CRAM—the community standard for genomic data compression

掲載日 令和元年11月7日

最終更新日 令和元年11月8日