Hugging Face、画像生成パイプラインを自在に組み替える新基盤を公開
出典:Hugging Face
詳細を読む
Hugging Faceは、画像生成ライブラリDiffusersの新機能「Modular Diffusers」を公開しました。従来の固定的なDiffusionPipelineクラスに代わり、テキストエンコード・デノイズ・デコードなどの処理を独立したブロックとして組み合わせる設計を導入しています。
各ブロックは入出力が明確に定義されており、パイプラインから任意のブロックを抜き出して単独実行したり、別のブロックと差し替えたりすることが可能です。たとえば深度推定ブロックを作成し、ControlNetワークフローの先頭に挿入するといった柔軟な構成が数行のコードで実現できます。
カスタムブロックはHugging Face Hubに公開でき、他のユーザーがtrust_remote_codeオプションで即座に読み込めます。公式テンプレートも用意されており、コンポーネント定義・入出力宣言・処理ロジックの3要素を記述するだけでブロックを作成できます。
すでにコミュニティでの活用が始まっており、KreaはB200 GPU1枚で11fpsのリアルタイム動画生成パイプラインを構築しました。またOverworldのWaypoint-1はインタラクティブなワールド生成をモジュラーブロックで実装しています。
ノードベースのビジュアルインターフェース「Mellon」との統合も進んでおり、ブロックのAPI定義からUIを自動生成する仕組みを備えています。ComfyUIに似た操作感ながら、モデルに応じてノードが動的に変化する点や、パイプライン全体を1ノードに集約できる点が特徴です。