FriendliAI、遊休GPUで推論実行し収益化する新基盤を発表

InferenceSenseの仕組み

遊休GPU推論ワークロード実行
Kubernetes上で自動検知・即時返却
オペレーター優先のスケジューリング
初期費用・最低契約なしの収益分配モデル

技術的優位性

vLLM基盤の連続バッチング技術
C++実装で標準比2〜3倍のスループット
DeepSeekQwen主要OSSモデル対応
スポット市場との差別化はトークン単位収益化
詳細を読む

FriendliAIは、GPUクラスターの遊休時間を推論ワークロードで収益化する新プラットフォーム「InferenceSense」を発表しました。ネオクラウド事業者の未使用GPU推論を実行し、トークン収益を分配する仕組みです。

同社の創業者Byung-Gon Chun氏は、ソウル大学で機械学習の効率的実行を研究し、連続バッチング技術を提案した論文「Orca」の著者です。この技術はオープンソース推論エンジンvLLMの中核として業界標準となっています。

InferenceSenseはKubernetes上で動作し、オペレーターが指定したGPUプールの遊休状態を自動検知します。未使用時に推論コンテナを起動し、オペレーターのジョブが必要になれば数秒以内GPUを返却する設計です。需要は直接クライアントやOpenRouter等の推論アグリゲーターから集約されます。

従来のスポットGPU市場がクラウド事業者による生の計算資源の貸し出しであるのに対し、InferenceSenseはトークンスループットで収益化する点が異なります。FriendliAIのエンジンはC++で記述され、独自GPUカーネルを使用することで標準的なvLLMの2〜3倍のスループットを実現するとしています。

AIエンジニアにとっての注目点は、ネオクラウドが遊休容量を推論で収益化できれば、API価格の引き下げ圧力が生まれる可能性がある点です。Chun氏は「より効率的な供給者が増えれば全体コストは下がる」と述べ、DeepSeekQwen等のモデルの低価格化に貢献する意向を示しました。