アーカイブロングリード　― とめどない繰り返しとの暗闘。あるいは、隠された意味を見据える力

市川和樹助教／鈴木裕太特任助教
東京大学大学院新領域創成科学研究科

2017年秋、科学技術振興機構（JST）と東京大学から「染色体の交差部位（セントロメア）が進化のカギ～メダカのセントロメアDNA配列の部分的解読に成功～」と題された共同発表のプレスリリースが配信された。新領域創成科学研究科の森下真一研究室（以下、森下研）と理学系研究科の武田洋幸研究室の共同研究である。

セントロメアは、染色体の長腕と短腕が交差する箇所で、この部分のDNAは「膨大な繰り返し配列」によって構成されている。長い間、詳細が明らかではなかったメダカという脊椎動物のセントロメア領域の解析に足を踏み入れた意欲的なこの成果では、Illumina に代表されるようなショートリードで高精度な配列解読を行うNGS（Next Generation Sequencer、次世代シークエンサー）と、PacBioやONTなどの "第三世代"と呼ばれるロングリードシークエンサーの特性を駆使した森下研のロングリード解析力が大きく貢献した。セントロメアのような「膨大な繰り返し配列」を読むためにロングリードが必要であることは叫ばれて久しいが、ロングリードシークエンサーでの高エラー率やノイズの多さが壁となり、これまで多くの研究者が解析困難と諦めていた。森下研は今、その壁を乗り越えつつある。

あらゆるゲノムサンプルをロングリードで解析

森下研は、平成28年度ゲノム医療実現推進プラットフォーム事業「先端ゲノム研究開発（GRIFIN）」採択課題タイプA（大規模ゲノム解析を伴う研究）「ヒトゲノムDe Novo情報解析テクノロジーの創出」（研究開発代表者：東京大学大学院新領域創成科学研究科　森下真一）に採択されている。冒頭で示したメダカゲノムの研究成果は、ヒトゲノムの新規遺伝子予測法（de novo）開発へ突き進むための前哨戦となる。これを担う鈴木裕太先生と市川和樹先生は、森下研の若き精鋭研究者だ。

「私の研究テーマは2つありまして、まず、1つ目は『DNAメチル化を観測するプロジェクト』です。PacBio Sequelでゲノムアセンブリをする際に副産物として出てくるデータをもとにDNAメチル化の情報を再構成するという、ちょっと貧乏性だけど技術的には難しい研究をやっています（笑）。それから2つ目、今、一番集中して取り組んでいるテーマとして『セントロメア領域の再構成』をやっています。こちらはまさに未知の領域ですね」と鈴木先生。未解読の部分が多く存在するセントロメア。力強く語るその言葉から、思い入れの強さを感じる。

一方、市川先生は「メダカゲノムの再構成」に取り組む。
「メダカゲノムは10年ほど前に最初のドラフトゲノムが完成し、私が関わってからは2016年にドラフトゲノムのver.2が完成しました。しかし、まだミスアセンブリやギャップが残っているため、それらを修正しながら再構成しています」。メダカはこれまで、性決定遺伝子および発生生物学などの研究に役立ってきたが、セントロメアDNA配列の生物学的な意義の解明のためにも重要なモデル生物だ。

森下研はGRIFINに採択されてから、ロングリード対応機器であるPacBio Sequel、10X Chromium、Oxford nanopore MinIONを導入した。それらの稼働により、日夜、ヒトゲノムを始めとするさまざまなゲノム解析を行なっている。病院からはヒトゲノムサンプル、動物発生学研究室からはメダカゲノムサンプル、海外からは線虫ゲノムのサンプル。共同研究先から送られてくるサンプルを解析する日々だ。いずれも共同研究なので、その目的ごとに解析の中身が変わる。ヒトゲノムではGWAS、ゲノムアセンブリ、エピジェネティクスなど、それぞれ戦略が変わってくるという。
「延々と繰り返しが続くデータを眺めていると、正直、目眩がしてきます（笑）。実際に私たちが眺めているデータは、ACGTの配列ではなく、番号がついたIDの配列です」と鈴木先生。繰り返されるデータとの格闘に苦労をにじませながらも、表情は明るい。

隠された部分を読み当てる『3つのテクノロジー』

写真3：森下研で駆使されているシークエンサーたち — 写真3：森下研で駆使されて
いるシークエンサーたち

2000年代後半に続々と登場したNGS。その後、急速に技術革新が行われたため、NGS現行機種の性能は登場当初のものをはるかに凌ぐ性能に至っている。また、ロングリードシークエンサーへの発展も起こっている。
2018年現在、主要なシークエンサーは、NGSであればIllumina社のHiSeqとMiSeq、ロングリードシークエンサーであればPacific Bioscience社のPacBio（ RS 、RS II、PacBio Sequel）やOxford Nanopore Technologies社のMinIONとPromethIONなどが挙げられる。NGSは精度が高く、ロングリードシークエンサーは精度が低いという特徴があるが、機種による特徴もある。例えばMinIONは、「ナノポア」と呼ばれる"筒状の微細な穴"が空いたタンパク質に、長いDNA分子をくぐらせて通過時のイオン電流測定から塩基を読むという方法によって小型化と解析コストを安価に抑えることに成功している。さらに、NGSを使ってショートリードで読んでも結果的にロングリードとして解読できる「リンクドリード」という新しい発想のライブラリー調製技術も出てきているという。

発展著しいシークエンサーだが、そもそもショートリードとロングリードとの違いとは何か？
ゲノムアセンブリの世界的権威であるEugene Myers博士によれば、ゲノムの完全な再構成に必要な条件として「リードが元の配列から満遍なく取れること」、「リードを読み取る時のエラーが配列に依存せずランダムに生じること」、「ゲノムの中の『繰り返し配列』よりもリードのほうが長いこと」の3つを挙げている（参考資料１）。この3つめの条件はロングリードによって初めてクリアできることなのだ。
そもそもゲノムには「長大な繰り返し配列」が多く含まれているが、ショートリードのリード長よりも繰り返し配列が長い場合、複数箇所にマッピングされてうまく取り扱うことができない。この問題を解決するためにペアエンドリード（1つのリードを頭からと後ろからの計2回読む方法）やHi-C法（chromosome conformation capture法を応用した方法で、DNAの三次元で核内での近接情報を取得する技術）によってスキャフォールディングしていくが、それでも「長大な繰り返し配列」を決定していくことは難しい。よって、極端なリピート部分を無視するのがショートリード時代の常識であった。PacBioなどのロングリード解析では「長大な繰り返し配列」を内包するリード長で読むことができるため、ショートリードでは読めなかった部分が明らかになる。それによって、ショートリードで見えていたゲノムが一気に姿を変えていく。これがロングリードの最大の利点だ。実際、NGSが読めるリード長は300塩基であるのに対して、ロングリードシークエンサーは、読めるリード長にばらつきが生じるものの1万塩基を超えるという。この差がゲノム解析内容を塗りかえてくれるのだ。しかし、ロングリードシークエンサーはエラー率が15%と高く、登場した当初は使い物にならないという意見も多かった。「森下研ではそのようなロングリード解析のエラーを修正するために、適切な情報解析技術を研究しています。また、NGSの性能とリンクドリード技術とを組み合わせた解析も行なっています」（鈴木先生）。

さらに、森下研ではPacBioとMinIONといったロングリードシークエンサー同士の組み合わせによる解析も行なっているという。「ショートリード、ロングリード、リンクドリード。3つのテクノロジーをどのように組み合わせて、どのように解析していくかが大切なのですが、これには相当な経験を要すると思います。例えば、構造多型の検出ではどの技術もそこそこ検出してくれます。しかし、3つのテクノロジーで少しずつコールが違ったりするのです。どんな時にミスコールが起こるのか、まだはっきりとは分かっていません」と鈴木先生は語ってくれた。

ゲノム解析の難関『セントロメア』を征するために

市川先生が手がけるメダカゲノム解読の軌跡はそのままシークエンサー変遷の歴史と重なる。最初のドラフトゲノムが発表されたのが2007年。その後、NGSが次々に登場し、新たなドラフトゲノムのアセンブリが行われた。「ロングリードを用いたDe novo assemblyにより新しいメダカのドラフトゲノムの作成を行いました。このver.2.2.4は、米国国立生物工学情報センター（NCBI）のゲノムデータベースに登録しています」（市川先生）。
Ver.2のメダカゲノムのアセンブリでは、ロングリードで出てきたContigをジェネティックマーカー（でき上がったContigが染色体のどの位置にあるべきかを復元できる情報）を使って染色体スケールまでつなげていった。また、Hi-C法も使って、セントロメア周辺のContigを並べるアセンブリも行なった（図1）。さらに、現在、ロングリードのデータを使用してミスアセンブリの修正を行っている。
「市川さんが作られたメダカドラフトゲノムver.2.2.4は、ヒトゲノムを除けば、おそらく、もっともクオリティの高いゲノムの1つです。多くの生物のリファレンスゲノムでは、まだ不完全な部分が多いのですが、ヒトやメダカのゲノムは完全にかなり近いのではないかと思います」（鈴木先生）。

メダカという魚の大きな特徴は、近交系（遺伝学における同一系統内での交配を繰り返し、遺伝的な均一性を高めた系統）が作れるという点だ。「森下研のメダカドラフトゲノムでは、日本の近交系2種（Hd-rR、HNI）と韓国の近交系1種（HSOK）からアセンブリしました。近交系ゲノムは父親由来の染色体と母親由来の染色体が完全に同配列となるため、とてもきれいなゲノムになるのです。他のゲノミクス研究のリソースとしても使いやすい」。
メダカゲノムの成果が今後、ヒトゲノム解析にも生かされていくであろうことは想像に難くない。

（ａ）3.2～3.5億年前の真骨魚類の全ゲノム重複の時に重複した染色体の中で、染色体間の大規模な変化が起こらなかった５つの染色体の組の内、4つ染色体の組において、セントロメアの位置は保存されている。●がセントロメアの位置を示す。番号は染色体番号を示し、染色体中の空白は全ゲノム重複前の領域との対応情報が不足している領域を示す。

（ｂ）セントロメアは染色体の中心だけでなく、末端部分（acrocentric）にも存在するが、中心に近いほど塩基の変異が有意に蓄積されやすい。

（図1：2017年11月28日科学技術振興機構（JST）・東京大学共同発表プレスリリースより引用、図版提供：東京大学）

一方、鈴木先生のメインテーマであるヒトゲノムのセントロメア解析。多くの研究者が解析困難とする、この難題にあえて挑戦しようとしている。
「セントロメア解析をやって『何かが見つかるはずだ』という確証を持っているわけではありません。何もないかもれないけれど、やりたいのです。ちゃんと見てセントロメアも配列を決めて行かなければ、ヒトゲノムの完全解析は達成できませんからね。そうですね...。登山ではないですが、『そこにセントロメアがあるからやるのだ』と思っています」（鈴木先生）。
セントロメアを征することができれば、"ゲノム解析において、繰り返し配列をどう扱うのがもっとも適切なのか"という一般理論を打ち立てることができる。そのテストケースを作るために鈴木先生はセントロメアと闘っている。

さらに、鈴木先生が試している方法がもう1つある。HLA領域や悪性腫瘍の中の微細な体細胞変異の検出にも用いられる技術で、CCSと呼ばれるPacBioの高精度モードで読むという方法だ。あえてライブラリーを短く調整してPacBioで同じDNA分子を何度も繰り返し読む。それによって、読んだ配列の精度は飛躍的に向上する。
「シークエンサーの機能を最大限に活用してさまざまなやり方を考えていきたいと思っています。セントロメア解析の勝算ですか？　もちろんあります！　現在もいろいろと葛藤して苦しみながら方針を決定してやっているわけですが、アドホックな操作も適宜加えながらやっていけば、きっと完走できるのではないかと思っています」。

繰り返し回数を決定する新アルゴリズムの創造

「森下先生は現在、『ショートタンデムリピート（2～5塩基の同じ配列が繰り返される現象）』の伸長を検出するためのアルゴリズムを書かれています。これはロングリード独特の問題点の解決を目指すものです」と鈴木先生は語る。ゲノムの中には、3塩基配列などの短い単位が10回50回100回と繰り返している部分があるが、これをショートリードで読んでも何回繰り返しているのかが判然としないため、ロングリードで読む。その際のエラー率は15%。研究室を率いる森下真一教授は、この「15%のエラーを視野に入れて情報科学的に繰り返し回数を決定する」というアルゴリズムを作っている。ショートリードの範囲内でならば、「短い単位での繰り返し」に関するアルゴリズムはすでに広く研究されている。ショートタンデムリピートの長さに個人的な違いがあるかどうかを検出するアルゴリズムなどだ。しかし、ロングリードで繰り返し数を決定しようとするアルゴリズムはかつて存在しなかったという。

その森下先生が開発に携わったアルゴリズム「TRhist プログラム」を活用した成果として、今年（2018年（平成30）年）3月に東京大学とAMEDとの共同発表でプレスリリースされた「てんかんの新しい発症機構の解明 ―繰り返し配列の異常伸長によっててんかんが生じることを発見― 」（発表：東京大学医学部附属病院の辻省次特任教授・石浦浩之助教）がある。これは、家族性てんかんの原因となる3遺伝子を発見し、当該遺伝子内のイントロン領域にある5塩基繰り返し配列の異常伸長が発症原因となっていることなどを解明したもの。森下教授のアルゴリズムはすでに医療応用に近づきつつあるのだ。

ロングリードシークエンサー、NGS、観測技術との組み合わせ模索、繰り返し回数を情報科学的に決定するアルゴリズムの創造。そして、誰も見たことがないセントロメア領域の解明。
日本人ゲノムの完全解析を達成する日を目指して、研究者の「とめどない繰り返しとの暗闘」はこれからも続いていく。

インタビュー動画

コラム研究者紹介（youtube動画）

研究者経歴

市川和樹
1990年、栃木県生まれ。2012年3月に東京大学理学部生物情報科学科卒業。 2015年4月から現職。2018年6月に東京大学大学院新領域創成科学研究科メディカル情報生命専攻論文博士取得。博士（科学）。専門分野は、バイオインフォマティクス。

鈴木裕太
1990年、宮城県仙台市生まれ。2013年3月に東京大学理学部生物情報科学科卒業。2015年4月から2018年3月まで日本学術振興会特別研究員（DC1）、2018年3月に東京大学大学院新領域創成科学研究科メディカル情報生命専攻修了。博士（科学）。2018年4月から現職。

参考資料

参考資料1
実験医学別冊　NGSアプリケーション「今すぐ始める！メタゲノム解析実験プロトコル」第3章 3「PacBioロングリードを用いたメタゲノム解析」
鈴木慶彦、森下真一
羊土社、pp.149-155、2016年12月
参考資料2
実験医学「どこでも誰でもより長くナノポアシークエンサーが研究の常識を変える！」
羊土社、Vol.36 No.1、2018年1月
参考資料3
「ゲノム研究の歴史と技術革新」
兼崎友
生物工学会誌、第95巻第3号、pp.136-139）、2017年
参考資料4
「ついに来た！ゲノム解析第 3 世代の波」
磯部祥子、小柳亮、大崎研
育種学研究、19巻1号、pp.30-34、2017年

掲載日　平成30年8月30日

最終更新日　令和2年3月30日

アーカイブロングリード　― とめどない繰り返しとの暗闘。あるいは、隠された意味を見据える力

あらゆるゲノムサンプルをロングリードで解析

隠された部分を読み当てる『3つのテクノロジー』

ゲノム解析の難関『セントロメア』を征するために

繰り返し回数を決定する新アルゴリズムの創造

インタビュー動画

推薦論文

研究者経歴

関連リンク

参考資料

アーカイブ ロングリード ― とめどない繰り返しとの暗闘。あるいは、隠された意味を見据える力

あらゆるゲノムサンプルをロングリードで解析

隠された部分を読み当てる『3つのテクノロジー』

ゲノム解析の難関『セントロメア』を征するために

繰り返し回数を決定する新アルゴリズムの創造

インタビュー動画

推薦論文

研究者経歴

関連リンク

参考資料

アーカイブロングリード　― とめどない繰り返しとの暗闘。あるいは、隠された意味を見据える力