llama.cppにモデル動的管理機能が追加
ルーターモードの概要
動的なモデル切り替えが可能に
再起動なしでロード・アンロード
マルチプロセスで障害を分離
主な機能と使い方
キャッシュからの自動検出
LRU方式で自動アンロード
モデルごとの個別設定に対応
Web UIからもモデル選択可能
出典:Hugging Face
詳細を読む
llama.cppサーバーに、複数モデルの動的管理を可能にするルーターモードが追加されました。モデルを指定せずにサーバーを起動すると、キャッシュやディレクトリからGGUFファイルを自動検出し、リクエストに応じてモデルを動的にロードします。
各モデルは独立したプロセスで実行されるため、一つのモデルがクラッシュしても他のモデルに影響しません。最大同時ロード数に達するとLRU方式で古いモデルが自動的にアンロードされ、VRAMを効率的に管理できます。
プリセットファイルを使えば、モデルごとにコンテキストサイズや温度などを個別に設定可能です。この機能は、Ollamaのようなモデル管理をllama.cppに求めるコミュニティの要望に応えたものです。