GitHub Toggle language

すべての人が平等に科学の恩恵を受けられる社会を目指して

次世代のタンパク質工学を用いた「見捨てられた問題」への挑戦


Page 1

はじめに

私は大学で情報科学を専攻する傍ら、合成生物学の国際大会であるiGEMの活動に力を入れてきました。 活動していく中で、生命科学と情報科学、2つの異なる分野が融合したバイオインフォマティクスを知り、私は生命の複雑さと、それを解き明かす数理モデルに面白みを感じました。 そして、iGEMに参加する世界中の学生たちが、自らの地域で抱える課題を解決しようとする姿には感動を覚えました。 こうして彼らの活動を知っていくうち、課題を解決するために乗り越えてきた壁が共通していることに気づきました。

背景

その壁とは、従来のタンパク質工学が豊富なデータを必要としているということです。 従来のタンパク質工学には、次の2つがあります。 

  • 合理的設計
    タンパク質の立体構造といった知識に基づいて、タンパク質を設計する手法。 すなわち、正確な知識が必要です。

  • 経験的設計
    タンパク質に変異を導入し、その中から有用なタンパク質を選抜していくことで、タンパク質を設計する手法。 すなわち、多くの実験が必要です。

いずれの手法も、豊富なデータが前提となっています。 しかし、学生たちが挑むような地域の課題に関するデータは、乏しいのが現状です。この現実に、私は歯がゆさを覚えました。

課題

この「データが乏しいから挑戦できない」という構図は、タンパク質工学を用いる創薬育種といった分野にも共通しています。 創薬や育種における研究開発は、その多くが市場規模の大きい疾患や作物を対象にしています。 これはデータが手に入りやすく、資金が回収しやすいためです。 しかし、採算が合わないという理由だけで、放置されている問題が無数に存在します。 例えば、患者の数が少ないために、創薬されてこなかった医薬品であるオーファンドラッグ。 あるいは、特定の地域でのみ重視されるために、育種されてこなかったオーファンクロップ。 これらの問題に苦しむ人々は、その声の小ささゆえに、輝かしい進歩を遂げている科学の恩恵から取り残されているのが現状です。

提案

私はこの課題を解決するために、少数データからのタンパク質設計を可能にする、新たな機械学習モデルの研究開発を行っています。 LEAPSと名付けたそれは、「データが乏しい」という状況を前提として設計された、従来と異なる全く新しいアプローチの機械学習モデルです。 その核心は、ChatGPTやGeminiに代表される大規模言語モデルの原理を応用したタンパク質言語モデルの活用にあります。 タンパク質言語モデルはタンパク質のアミノ酸配列を「言語」として扱い、数十億もの既知のタンパク質を学習することで、タンパク質として成立するための普遍的な「文法」を獲得します。 LEAPSはタンパク質言語モデルを活用した予測モデル生成モデルの2つで構成されています。 そして、以下のような流れでタンパク質を設計します。

  1. 生成モデルによって新しいタンパク質を生成する
  2. 予測モデルによってタンパク質の機能を予測する
  3. 予測された機能に基づいてタンパク質を選別する
  4. 選別されたタンパク質を生成モデルが学習する

これを繰り返すことで、天文学的な組み合わせの中から、目的のタンパク質を効率的に探索できます。 しかし、この探索をわずか数十件のデータから可能にするまでには、様々な技術的課題がありました。

貢献

その解決において、私の情報科学の視点が重要な役割を果たしたと考えています。 例えば、少数データという制約がある場合、従来の手法では困難です。 しかし、私はタンパク質言語モデルが持つ尤度を活用したデータ拡張を行う手法を考案しました。 これは、生命科学と情報科学の知見が合わさったからこそ生まれたものでした。 結果として、わずか数十件のデータからでも実用的なタンパク質設計を可能にするという目的の実現に大きく貢献できました。 実際に、40件の蛍光タンパク質のデータのみで、難しいとされていた変異を持つ蛍光タンパク質の創出や狙った波長を持つ蛍光タンパク質の創出を、実験で確認しました。 これは、豊富なデータを必要とする従来のタンパク質工学の常識を覆すものであり、見捨てられた問題が抱える「データの乏しさ」という壁を打ち破るとなります。

展望

私の目標は、LEAPSを完成させること自体にあるのではありません。採算が合わないという理由だけで見捨てられた問題を、LEAPSの力で解決することです。 その実現の一歩として、私は次のような挑戦をしたいと考えています。 それは、希少疾患の治療に繋がるオーダーメイド酵素の開発です。 LEAPSをさらに強化することで、ごく少数の患者のデータから、失われた機能を補う酵素を設計できる可能性があります。 この挑戦が成功すれば、「患者が少ないから治療できない」という常識を覆し、一人ひとりに向き合った治療が実現できます。

おわりに

これまでに述べたように、現在のタンパク質工学を用いる分野には、採算が合わないという理由で、科学の恩恵から取り残された人々がいるという課題があります。 この課題の原因の1つにデータの乏しさがあり、その解決を目指しているのが、私の研究であるLEAPSです。