【最近の講演会より】未来の富山-ビッグデータとデジタル技術がもたらす社会変容-
大学コンソーシアム富山共同授業科目「とやま地域学」(2020・9・3) 講師:高木利久氏 富山国際大学学長/科学技術振興機構バイオサイエンスデータベースセンター長
科学は一般的に基礎研究から始まり、応用研究を経て実際に社会で使われるようになるが、最近は基礎研究から社会実装までのサイクルが非常に短くなっている。新型コロナウイルスも基礎研究からすぐに「薬を作ろう」「ワクチンを作ろう」「治療をどうしよう」という話になっている。そのため基礎研究がどうなっているかを知ることは、これからの社会がどうなるかを知ることにつながる。
基礎技術が別の目的で使われ、社会を変える例も多い。インターネットは最初、アメリカで軍事用途で作られた。それらは今や社会を変えるまでになっている。富山県にゆかりのある話をすれば、2018年にノーベル生理学・医学賞を受賞した本庶佑京都大学特別教授の免疫研究が、最近はがんの特効薬として注目を浴びている。このように、当初は違う目的で作られたものや、基礎研究だったものがすぐさま私たちに関わってくる。
私は18歳まで富山で過ごし、40数年富山を離れていた。大学の工学部で数理工学を専門に学んだ。現在、富山国際大学の学長と東京の科学技術振興機構バイオサイエンスデータベースセンターのセンター長という二足の草鞋を履いている。このデータベースセンターで携わっているのが「統合データベース」というプロジェクトで、生命分野、医学、農業、生物学等、世界中のデータを集めて整理しようという非常に膨大で途方もないことに取り組んでいる。
今日の講演のキーワード「ビッグデータ」に移る。ビッグデータとは(計算機用語としての定義はあるが最近はそれに囚われず)膨大なデータのことを言う。アマゾンや楽天市場で、どのサイトかを見た後に何を購入し、何の購入を取り消したかで、その人の興味や性格がわかってくる。またツイッターの膨大なつぶやきのデータを解析すると、どこでインフルエンザが流行し、新型コロナウイルスがどうなっているか、どの化粧品の評判がいいかなどがわかってくる。ビッグデータが出てきて、新たなサイエンス「データインセンティブサイエンス」がスタートした。
1998年、米国スタンフォード大学の学生が自身の研究のために世界中にある大量のデータを集めた。それがビジネスになると思い立ち、一晩でビジネス企画書を書き上げた。当初2人で始めた会社が今や世界トップクラスの企業グーグルになった。これがビッグデータのはじまりで、センサーや計測技術が大量にデータを生み出し、IoTでそれらのデータを集約し、人工知能など高度な情報処理やスーパーコンピュータで解析することによって価値を生むようになる。これがいま大きな流れとなっている。
ゲノム解析におけるビッグデータ
生命科学の分野で具体的にゲノム(遺伝情報)を例に話をする。ゲノムとは、ヒトの場合22本の常染色体と、XY2種類の性染色体の中に書かれた遺伝子の情報をいうが、これらをアルファベットで表すと、ヒトゲノムの場合は30億の文字(塩基対)になる。これが生物としてのヒトの設計図である。30億と聞くとものすごく多いように感じるが、たった3ギガでこれだけ複雑なもの(人間)が出来上がっている。それを解き明かそうというのが30年前にスタートした「ヒトゲノムプロジェクト」で、私はそれまで人工知能の研究をしていたが、「ヒトゲノムプロジェクト」が始まる際、依頼を受けて研究に加わった。
ヒトゲノムの30億の文字はそれぞれ個人で違い、設計図は微妙に違う。どのくらい違うかといえば30億のうち300万から1,000万くらい。その違いの組み合わせが私たちの個性や体質を生み出している。病気のなりやすさ、ある薬を使ったときの副作用の有無など、300万から1,000万の個人間の文字の違いが差異になって出てくる。ゲノムを解読する仕組みができ、その後非常に研究が進んだのは、それを解読する装置、すなわち計測技術の進歩のおかけだ。
それは「ムーアの法則」を超えていると言われる。「ムーアの法則」とは、コンピュータは18カ月経つと性能が2倍になるというコンピュータの経験則のことだが、DNAを解読する装置は「ムーアの法則」をはるかに超える性能の伸びによって生物のデータを瞬時に解読することが可能となった。ヒトのゲノムだけではなく新型コロナウイルスのゲノム、ウシのゲノム、イネのゲノムなど、さまざまなゲノムを全部解読するプロジェクトが世界中で進んでいて、現在、約30万種の生物でゲノム解析が行われている。
ヒトゲノムがどのくらいの数決まっているかというと、今は全世界の100万人分くらい、もう少しすると全世界の10億人分くらい決まってくる。さらにもう少しすれば世界中の人が全部、遺伝子がどういうタイプかわかる時代が来るとされる。それ以外にも遺伝子の発現、タンパク質、体の中の代謝物、フェノーム(体の表現形質)などを網羅的に集めることができる。
これまでは1つのタンパク質を調べるのも大変だったが、体の中のタンパク質を全部、代謝産物を全部調べるということが可能になっている。数百万人のオーダーでデータを集めるプロジェクトがアメリカやヨーロッパなどさまざまなところで進められており、何百億円、何千億円を投じてビッグデータが作られつつある。ビッグデータはこれからどんどん出てくるので、この遺伝子のタイプはこういう病気になるとか、この遺伝子のヒトはたばこを吸うとどうなるかなど、コンピュータで解析して明らかにすることが可能になる。まさにビッグデータの時代と言っていいだろう。
データ駆動型の研究開発
このようにデータが大量に出てくると、同時に知識も大量に生み出されてくる。生命科学分野の論文は今まで3,000万件書かれている。年間100万件、毎日3,000件の論文が出てきている計算で、とても人間が読める量ではない。これらの論文を全部コンピュータに処理させようというテキストマイニング(テキストから知識を発掘する)が進んでいる。今まで述べてきたような研究スタイルは「データ駆動型科学」と呼ばれる。
昔は「仮説駆動型」、つまり研究者が論文を読んだり実験をしたりして、頭の中で仮説を立てて研究をするのが従来のスタイルだったが、今はゲノム等様々なデータを瞬時に集め、そこから何らかの規則性を見出す。仮説は必要なく、ビッグデータをコンピュータに処理させ仮説を作り出すのが研究の世界の主流であり、社会経済活動でも主流になっている。
そのほか「テクノロジー駆動型」、これは新たしい計測技術などが研究をひっぱっていくことを意味する言葉で、生物学は新しいテクノロジーがどんどん出てきている。むしろそれにひっぱられて研究者がそれを使っているだけという側面がある。今はこの「データドリブン(データ駆動)」や「テクノロジードリブン(技術駆動)」で世の中が動いている。
ゲノムを使った医療の話をしたが、ゲノムを書き換える技術もできている。そうすると「背を高くしたい」「速く走れるようにしたい」「音楽の才能を伸ばしたい」などとゲノムの書き換えに手を染める人がいるかもしれない。
また遺伝病になった際は遺伝カウンセリングもしなければならない。個人情報保護にも関わってくるなど、ゲノム医療にはそれぞれの専門分野の人材が必要になってくる。生物学、医学、薬学、情報科学、物理学、ナノテク、生命倫理、遺伝カウンセリング、個人情報保護、スパコン等さまざまな人が一緒になって研究をしている。今後、皆さんが社会に出て働いたときにはそういう分野に関わってくる可能性がある。
オープンサイエンスの時代
新型コロナウイルスで言えば、スパコンを使って薬の設計をするという話を聞いたことがあるかもしれない。「三密」をどう避けるか、教育にどう関わってくるか、不動産価値はどうなるかなど、融合分野の研究やビジネスを推進するには世界中でデータを共有しなければならない。それが新しいイノベーションを起こすことになる。「オープンイノベーション」の時代である。
理系だとか文系だとかという自分の専門分野に関わらず、全部の分野が関わってくるというのが今のスタイルである。私たちの研究は税金を使っているから、研究のデータを自分たちだけで囲い込み、隠すことは許されない。これを「オープンサイエンス」という。またデータがオープンになってくると「シティズンサイエンス」すなわち一般市民も研究が可能となる。
良い人工知能のプログラムをもっていて、もし新型コロナウイルスのデータが世界中で共有されるのであれば、それを自分のパソコンにダウンロードして解析したらすごい結果が出るかもしれない。分野の垣根を越えてデータの共有が進めば、さまざまな人がさまざまな観点でアイデアさえあれば仕事ができる時代になった。逆に言えば、データを囲い込むやり方はもう通用せず、既得権が全部壊れていく世界でもある。若い人にとっては知恵さえあれば、お金はなくても、自分でデータを出せずとも研究ができる。すごいことができるかもしれない、わくわくとする時代になった。