llama.cppにモデル動的管理機能が追加

2025年12月11日 Llama コンテキスト Ollama

ルーターモードの概要

動的なモデル切り替えが可能に

再起動なしでロード・アンロード

マルチプロセスで障害を分離

キャッシュからの自動検出

LRU方式で自動アンロード

モデルごとの個別設定に対応

Web UIからもモデル選択可能

詳細を読む

llama.cppサーバーに、複数モデルの動的管理を可能にするルーターモードが追加されました。モデルを指定せずにサーバーを起動すると、キャッシュやディレクトリからGGUFファイルを自動検出し、リクエストに応じてモデルを動的にロードします。

各モデルは独立したプロセスで実行されるため、一つのモデルがクラッシュしても他のモデルに影響しません。最大同時ロード数に達するとLRU方式で古いモデルが自動的にアンロードされ、VRAMを効率的に管理できます。

プリセットファイルを使えば、モデルごとにコンテキストサイズや温度などを個別に設定可能です。この機能は、Ollamaのようなモデル管理をllama.cppに求めるコミュニティの要望に応えたものです。