ゲノムAI「Evo 2」が全生物のDNAを学習しOSS公開

基盤モデル

Evo 2の革新性

数兆塩基対で訓練
三ドメイン全生物を網羅
オープンソースで公開
複雑なゲノム構造も内部表現

真核生物への対応

イントロン境界を認識
散在する調節配列を把握
スプライス部位の特定に成功
ジャンクDNA領域も学習対象
詳細を読む

Evo 2は、細菌・古細菌・真核生物の三ドメインすべてのゲノムで訓練された大規模AIモデルとして、開発チームがオープンソースで公開しました。数兆塩基対のDNAデータを学習に使用しています。

前身のEvoは2025年後半に発表され、細菌ゲノムのみを対象としていました。細菌では関連遺伝子がクラスター状に並ぶため、次の遺伝子の予測や新規タンパク質の提案が可能でしたが、複雑な生物への適用は課題とされていました。

真核生物のゲノムは細菌と大きく異なり、遺伝子内にイントロンと呼ばれる非コード領域が挿入され、調節配列は数十万塩基対にわたって散在します。こうした複雑な構造がAI学習の障壁となっていました。

Evo 2は訓練を通じて、調節DNAやスプライス部位など、ヒトゲノムを含む複雑なゲノムの重要な特徴を自律的に内部表現として獲得しました。これらは人間の研究者にとっても同定が困難な要素です。

真核生物ゲノムの大部分を占める不活性ウイルスや損傷遺伝子などのジャンクDNAも学習対象に含まれており、ゲノム全体の包括的な理解をAIが構築できることを示した点で、生命科学研究への応用が期待されます。