分散型AI訓練で太陽光住宅や遊休GPUを活用する動き

ハードウェアの分散活用

NvidiaやCiscoが拠点間接続技術を発表
Akash Networkが遊休GPUの貸借市場を構築
小規模GPUの活用で大規模訓練を実現

DiLoCoアルゴリズムの進展

Google DeepMindが低通信量の分散最適化手法を開発
Prime Intellectが5カ国横断で100億パラメータモデルを訓練
0G Labsが1070億パラメータモデルの分散訓練に成功

エネルギー問題への貢献

太陽光発電住宅をデータセンター化する構想
新規データセンター建設に頼らない訓練手法
詳細を読む

AIの訓練には膨大なエネルギーが必要であり、データセンターの炭素排出量は増加の一途をたどっています。大手テック企業は原子力発電への関心を高めていますが、実用化にはまだ時間がかかります。こうした背景のもと、研究者や企業がAI訓練の分散化という手法でエネルギー問題に取り組んでいます。分散化とは、単一のデータセンターに依存せず、遊休サーバーや太陽光発電住宅のコンピュータなど既存のリソースを活用してモデル訓練を行う仕組みです。

NvidiaはSpectrum-XGSイーサネットを発表し、地理的に離れたデータセンター間での大規模訓練を可能にしました。Ciscoも分散AIクラスタ接続用のルーターを投入しています。一方、Akash Networkはオフィスや小規模データセンターの遊休GPUを貸し出すピアツーピア型クラウドマーケットプレイスを運営しており、「データセンターのAirbnb」を標榜しています。

ソフトウェア面では、Google DeepMindが開発したDiLoCoアルゴリズムが注目を集めています。DiLoCoは「計算の島」と呼ばれるチップ群を形成し、島同士の同期頻度を抑えることで通信コストと障害耐性の課題を解決します。改良版のStreaming DiLoCoでは、訓練と並行してバックグラウンドで知識を段階的に同期し、帯域幅の要件をさらに低減しました。Prime Intellectはこの手法で5カ国にまたがる100億パラメータモデルを訓練し、0G Labsは1070億パラメータの基盤モデルの分散訓練に成功しています。

Akash NetworkはStarclusterプログラムを立ち上げ、太陽光パネルを備えた住宅のデスクトップやノートパソコンをAI訓練に活用する構想を推進しています。参加にはバッテリーや冗長なインターネット接続が必要ですが、業界パートナーとの協力でバッテリーコストの補助を検討中です。2027年までに住宅がプロバイダーとして参加できるようになることを目指しており、学校やコミュニティ施設への展開も視野に入れています。

分散型AI訓練は、新たなデータセンターを建設せずに既存の処理能力を活かすことで、AIのエネルギー消費問題に対する有望な解決策となります。Akash共同創業者のGreg Osuri氏は「エネルギーをAIのところに持っていくのではなく、AIをエネルギーのあるところに持っていく」とその理念を語っています。