AMEDシンポジウム2017開催レポート AMEDシンポジウム2017開催レポート:ワークショップ⑤ 医療を創るICT(3)

(抄録)

ワークショップ⑤ 医療を創るICT MEDが支援するICT関連事業について

「臨床研究等ICT基盤構築・人工知能実装研究事業」

座長
酒巻 哲夫氏(群馬大学名誉教授/PS[プログラム・スーパーバイザー])
高林 克日己氏(千葉大学名誉教授/PO[プログラム・オフィサー])
講演者
大江 和彦氏(東京大学大学院医学系研究科医療情報学分野 教授)
阪本 雄一郎氏(佐賀大学医学部救急医学講座 教授)
藤井 進氏(佐賀大学医学部附属病院医療情報部 講師)
森川 和彦氏(東京都立小児総合医療センター臨床研究支援センター)
今村 知明氏(奈良県立医科大学公衆衛生学講座 教授)
小川 久雄氏(国⽴循環器病研究センター理事⻑)

3. データベースの利活用「NDB(ナショナルデータベース)分析の現状とこれから」

写真(今村 知明氏)

今村 知明氏(奈良県立医科大学公衆衛生学講座 教授)

NDB(ナショナルデータベース)、医療のビッグデータなど多くのデータが、なぜ利用されないのか、どうすれば利用できるようになるのか、研究班で研究しています。問題は大きく2つあります。一つは、匿名化された細切れのデータを再度データベースに作り直す作業(ミンチ肉をステーキ肉に戻すような作業)があります。もう一つは、巨大なデータの中から必要な部分だけを切り出す作業(調理人が一頭の牛からひれ肉のステーキを作る作業)です。

この問題を解決するために、オンサイトセンターのある東京大学と京都大学、それに今までNDBの分析実績のある産業医科大学と協同して研究を行っています。

細切れのレセプトデータ

NDBはレセプト(請求書)束です。今、6年分、100億枚のレセプトデータが蓄積されています。このデータは、薬、病名、診療行為が一つのセットになっているものですが、どうやって分析するのかが課題となっています。レセプトデータは、厚労省に集められた段階で全て匿名化され、さらに細切りになっています。これを研究者が利用するためには、研究用のデータベースに持ち上げるというステップが必要なのですが、これがなかなか困難です。

NDB利用の参入障壁

NDB利用における参入障壁は、大きく5つあります。

  1. 申請から利用できるまでに半年ぐらいかかります
  2. 1年分のデータが約3テラバイトと非常に大きく、研究者が通常使っているコンピューターでは分析することができません
  3. データ形式が非常に特殊でセッティングするのが大変。また、出来高払いと包括払いのデータが交ざっているため、整理に時間がかかります
  4. 1医療機関に1人の月単位のデータなので、一症例1データ化するのが難しい
  5. 匿名化されているので、「名寄せ」作業がとても難しい

巨大データをどう小さくする

レセプトデータは施設ごと、月ごとに1データなので、このままでは一人のデータとしてみることができません。一患者のデータを見るためには最初にデータをつなぐしかありませんが、あまりにデータが大き過ぎて普通のコンピューターではつなげられません。IDだけ先に作って、「ミンチ」になったデータに共通IDを振り、後の抽出段階で抜き出すという作業をしなくてはいけません。

しかし、病院を変わると1割ぐらいの人は名前の書き間違えがあり、調剤薬局でも5%ぐらい起きます。つまり、医療機関数が増えていくとID数も増えていくという現象が起きます。名寄せができれば必要な情報抽出が可能になり抽出のやり方によっては全体の100分の1程度になり、重要な情報だけを抽出することができるのです。

また、処理時間の問題もあります。処理の高速化のために並列処理を行っていますが、カーソル処理というプログラム処理を1カ所でもするととても時間がかかるため、気の付かない所で処理時間が膨大にかかってしまうこともあるようです。

大腿骨近位部骨折の治療薬

説明図・2枚目(説明は本文中に記載)
図2 ビッグデータの分析
※画像をクリックするとPDFファイルが表示されます

DPCを使って、大腿骨近位部骨折について調べました。手術時期と死亡率の相関や、治療薬の組み合わせについての傾向が分かりました。

NDBはレセプトデータ(請求書)の束なので、一患者一データ化し、コホート化できるかがカギを握っています。「巨大過ぎて扱いづらい」点は、技術的には解決できそうですが、実行するのは非常に大変ことも分かりました。

道のりはまだ長そうですが、NDBは1億人分の日本国民全体の全数超巨大コホート調査ですので、宝の山であることは間違いありません。

最終更新日 平成29年10月18日