GRPO(モデル学習手法・技術)に関するニュース一覧

vLLM V1移行で発覚した推論精度問題をServiceNowが修正

発覚した4つの問題

logprobの意味的差異
V1固有のランタイム設定差
学習中の重み更新パス不一致
fp32 lm_headの精度差

修正の原則と成果

推論の正確性を最優先で修正
目的関数の補正は後回し
V0基準と同等の学習曲線を再現
RL全般に応用可能な知見

ServiceNowのAI研究チームは2026年5月6日、強化学習フレームワークPipelineRLで使用する推論エンジンをvLLM V0からV1へ移行する際に発覚した4つの推論精度問題とその修正過程を公開しました。vLLM V1はV0の大規模な書き直しであり、ロールアウト時のlogprob(トークンの対数確率)がRL学習の方策比率やKL、クリップ率、報酬に直接影響するため、わずかな計算の不一致が学習動態を変えてしまいます。

最初の問題はlogprobの意味的な違いでした。V1はデフォルトで温度スケーリングやペナルティ適用前の「生の」logprobを返しますが、PipelineRLはサンプラーが使用する「処理済み」の分布からのlogprobを期待していました。設定をprocessed_logprobsに変更することで平均オフセットは解消されましたが、クリップ率やKLにはまだ差が残りました。

次に、V1固有のランタイムデフォルト設定が問題でした。プレフィックスキャッシュと非同期スケジューリングがV1のデフォルトで有効になっており、オンラインRL環境では重み更新の境界を無視してキャッシュが再利用される可能性がありました。これらを明示的に無効化し、さらに重み更新時のパスもV0の挙動に合わせて調整しました。

最後の問題はfp32 lm_headの精度でした。学習側では最終射影にfp32を使用していましたが、推論側が一致していませんでした。MiniMax-M1やScaleRLの論文でも同様の問題が報告されており、RL学習におけるlogit計算の精度が訓練の正確性に直結することが改めて確認されました。

チームが強調するのは、推論バックエンドの正確性を先に修正するという原則です。目的関数側の補正(重要度サンプリングの切り詰めなど)を先に適用すると、推論のバグを隠蔽してしまい、学習曲線の解釈が困難になります。4つの修正を適用した結果、V1の学習曲線はV0基準とほぼ一致し、PPOやGRPOなど他のオンラインRL手法にも応用可能な知見となっています。

IBM、Granite 4.1の訓練手法を公開 8Bモデルが旧世代32Bに匹敵

5段階の事前学習

約15兆トークンで訓練
5段階でデータ配合を段階的に精製
最終段階で512Kコンテキスト対応

SFTとRLの後処理

LLM審査官で410万件品質管理
4段階RL:多領域、RLHF、校正、数学
GRPO+DAPO損失で安定した強化学習

成果とライセンス

8B密モデルが旧32B MoEを上回る性能
Apache 2.0で全モデル公開

IBMのGraniteチームは2026年4月29日、大規模言語モデルGranite 4.1シリーズ(3B、8B、30B)の訓練手法を詳細に公開しました。同モデルは約15兆トークンの5段階事前学習、410万件のSFTデータによる微調整、そして多段階の強化学習パイプラインを経て構築されています。注目すべきは、8Bの密モデルが前世代の32BパラメータMoEモデル(Granite 4.0-H-Small)と同等以上の性能を達成した点です。

事前学習は5つのフェーズで構成されています。第1フェーズでは10兆トークンのウェブデータ中心の汎用学習を行い、第2フェーズでコードと数学データの比率を大幅に引き上げます。第3・第4フェーズでは高品質データへの絞り込み(アニーリング)を実施し、思考連鎖や合成指示データも混合します。最終フェーズではコンテキスト長を4Kから最大512Kへ段階的に拡張しています。

SFT(教師あり微調整)では、LLM審査官フレームワークを用いて約410万件の高品質サンプルを厳選しています。幻覚や誤計算など重大な欠陥は点数に関係なく自動的に除外され、指示遵守・正確性・完全性・簡潔性・自然さ・校正の6次元で評価されます。ルールベースのフィルタリングも併用し、全判定が監査可能な設計です。

強化学習は4段階のパイプラインで実施されます。まず数学・科学・論理推論など9領域の同時訓練で汎用性を維持し、次にRLHFで会話能力を強化します。AlpacaEvalでSFTから平均18.9ポイント向上しました。その後、自己識別の校正と、RLHFで低下した数学性能の回復(GSM8Kで平均3.8ポイント、DeepMind-Mathで平均23.48ポイント改善)を行います。

全モデルはApache 2.0ライセンスで公開されており、NVIDIA GB200 NVL72クラスタ上で訓練されました。FP8量子化版も提供され、vLLMでの推論時にメモリ使用量を約50%削減できます。長い思考連鎖に依存しない設計のため、レイテンシやトークン消費が予測しやすく、企業向けワークロードでの実用性を重視した構成となっています。

AI研究を自動化するASI-EVOLVEが人間設計を超越

フレームワークの仕組み

仮説生成から実験・分析まで自律ループ
認知ベースに人間の知見を蓄積
分析器が実験結果を因果的に要約
知見が次の探索を導く自己進化型

実証された性能向上

データ整備でMMLUスコア18点超向上
1773回探索で105の新アーキテクチャ発見
強化学習GRPO超えの新アルゴリズム設計

企業への影響

独自ドメイン知識の統合が可能
コード公開で即座に利用開始可能

SII-GAIRの研究チームが、AIの訓練データ・モデルアーキテクチャ・学習アルゴリズムの最適化を自動で行うフレームワーク「ASI-EVOLVE」を発表しました。従来、AI研究開発には仮説の立案から実験、分析まで膨大な人的工数が必要でしたが、本フレームワークはこの一連のサイクルを自律的に回し続けることで、人間が設計したベースラインを上回る成果を達成しています。

ASI-EVOLVEの中核は「認知ベース」と「分析器」の2つです。認知ベースには既存の学術知見やヒューリスティクスが格納され、探索の初期段階から有望な方向へ導きます。分析器は訓練ログやベンチマーク結果から因果関係を抽出し、次の仮説生成に活用できる知見へと蒸留します。さらに研究者エージェントエンジニアコンポーネント、データベースが連携し、知見が体系的に蓄積される設計です。

実験では3つの領域で顕著な成果が確認されました。データキュレーションでは、30億パラメータモデルのMMLUベンチマークスコアが18点以上向上しました。ニューラルアーキテクチャ設計では1773回の自律探索を通じ、人間設計のDeltaNetを超える105の新しい線形アテンション構造を生成しました。強化学習では、数学推論ベンチマークGRPOベースラインを上回る新しい最適化手法を発見しています。

企業にとっての意義は大きいといえます。多くの組織はAIモデルの最適化に必要な計算資源とエンジニアリング工数を確保できず、標準モデルをそのまま運用しています。ASI-EVOLVEは独自のドメイン知識を認知ベースに統合し、社内AIシステムの自律的な改善を可能にします。フレームワークはオープンソースとしてGitHubで公開されており、開発者はすぐに活用を始められます。

Hugging Face、ポストトレーニング基盤TRLがv1.0に到達

TRL v1.0の設計思想

75種超の手法を実装
安定版と実験版を明確に分離
セマンティックバージョニング導入
抽象化を最小限に抑える方針

エコシステムでの位置づけ

月間300万回のダウンロード
UnslothやAxolotlの基盤として機能
汎用ライブラリとしての独自の立ち位置

今後の開発計画

非同期GRPOで学習効率向上へ
エージェント向け学習可視化を計画

Hugging Faceは2026年3月、大規模言語モデルのポストトレーニングライブラリ「TRL」のv1.0を正式リリースしました。6年以上の開発を経て、75種類を超えるポストトレーニング手法を実装する汎用ライブラリとして安定版の節目を迎えています。

ポストトレーニング分野は、PPOからDPO、さらにGRPOへと手法の中心が急速に移り変わってきました。TRLはこの変化に対応するため、強固な抽象化ではなく「変化に適応する設計」を選択しています。クラス階層を避け、実装間の重複をあえて許容することで、新手法への対応速度を維持しています。

v1.0の最大の特徴は、安定版と実験版の明確な分離です。安定版はSFT、DPO、報酬モデリング、RLOO、GRPOなどの主要トレーナーで構成され、セマンティックバージョニングに従います。実験版は新手法を素早く取り込む場として機能し、利用実績に応じて安定版へ昇格する仕組みです。

TRLは月間300万回ダウンロードされる規模に成長し、UnslothAxolotlといった主要プロジェクトの基盤としても利用されています。これらの下流プロジェクトへの影響を考慮し、破壊的変更は0.xリリース期間中に段階的に実施されました。

今後の開発では、生成と学習を分離する非同期GRPOの本格導入、KTOや蒸留系トレーナーの安定版昇格、マルチノード学習の強化が予定されています。さらに、学習ループにヒューリスティクスを組み込み、方策の崩壊や過学習を自動検知する「エージェント向け学習可視化」機能の開発も計画されています。

Google、AIエージェント間の協調行動を訓練で自然発生させる手法を発表

研究の核心

多様な対戦相手との訓練で協調創発
ハードコードなしで適応的協調実現
標準的な強化学習手法で再現可能

企業開発への示唆

LangGraph等の固定ルール型を補完
文脈内学習でトークン効率を維持
開発者の役割がルール設計から環境設計へ移行

実証と成果

囚人のジレンマで安定的協調を達成
敵情報なしでも試行錯誤で適応

Googleの「Paradigms of Intelligence」チームは、AIエージェントを多様な対戦相手のプールに対して分散型強化学習で訓練することで、ハードコードされた協調ルールなしに複数エージェント間の協調行動を自然発生させる手法を発表しました。この研究はエンタープライズ向けマルチエージェント展開の新たな指針を示しています。

従来のマルチエージェントシステムでは、各エージェントが自身の報酬を最大化しようとするため、ゲーム理論でいう「相互裏切り」状態に陥りやすいという課題がありました。たとえば2つの自動価格設定アルゴリズムが破壊的な値下げ競争を起こし、企業全体が損失を被るようなケースです。

本手法では、学習中のモデルとルールベースの静的プログラムを混合した多様な対戦相手プールを用意し、エージェントに相手の戦略を推測させます。文脈内学習により相互作用の履歴を解析し、リアルタイムで行動を適応させるため、コンテキストウィンドウの肥大化を招かずに効率的な協調を実現します。

LangGraphやCrewAIなどの既存フレームワークが状態遷移やルーティングロジックを明示的に定義するのに対し、本手法は訓練を通じて協調行動を生み出すアプローチです。標準的な強化学習アルゴリズム(GRPO等)で再現でき、特別なスキャフォールディングは不要とされています。

反復囚人のジレンマを用いた検証では、敵の情報が一切ない状態でもエージェントは試行錯誤を通じて安定した協調を達成しました。研究チームは、この成果により開発者の役割が個別ルールの記述から訓練環境の設計という戦略的役割へと進化すると述べています。

HuggingFace、非同期RL訓練の設計指針を16ライブラリ調査から導出

同期RL訓練の課題

推論待ちGPU稼働率40%以下
32Bモデルの1バッチ生成に数時間
ストラグラー問題が遅延を増幅

非同期化の共通設計

推論と訓練をGPUプールに分離
ロールアウトバッファで両者を接続
8/16ライブラリがRayを採用
NCCLブロードキャストが重み同期の標準

TRL新設計と今後の課題

トークン単位のバージョン管理を採用
MoE対応が次世代の差別化要因

Hugging Faceは、大規模言語モデルの強化学習(RL)訓練における非同期アーキテクチャの設計指針を、16のオープンソースライブラリを7軸で比較調査した結果として公開しました。

同期型RL訓練では、推論フェーズがウォールクロック時間の大半を占め、訓練用GPUが長時間アイドル状態になります。32Bモデルで32Kトークンのロールアウトを生成すると、1GPU当たり約3.7時間を要し、GRPOのグループ生成では最も遅い完了に全体が律速されます。

調査対象の全ライブラリが共通して採用した解決策は、推論と訓練を別々のGPUプールに分離し、ロールアウトバッファで接続して非同期に重みを転送する構成です。これにより推論は継続的にデータを生成し、訓練側は待機なく勾配計算を進められます。

比較7軸のうち特に重要なのは、重み同期プロトコル陳腐化管理です。重み同期ではNCCLブロードキャストが主流で、verlのバケット化により20ミリ秒まで短縮可能です。陳腐化対策はバージョン棄却・深度制限・重要度サンプリング補正の3戦略があり、本番環境では複合的に組み合わせる傾向にあります。

Hugging FaceTRLの新しい非同期トレーナーに向け、トークン単位のバージョンタグ付きバウンデッドキュー、NCCLバケット転送、エージェント型ワークロード向けの部分ロールアウト対応を設計方針として示しました。今後はMoEモデルのエキスパート並列対応や、蒸留との統合が差別化の鍵になると分析しています。

Databricks、強化学習で万能型RAGエージェント「KARL」を開発

KARLの技術的革新

6種の検索行動を同時学習
合成データのみで人手ラベル不要
OAPLアルゴリズムで学習効率3倍
コスト33%減・遅延47%減を達成

企業RAGへの示唆

単一タスク最適化は他タスクで破綻
マルチタスクRLで未知タスクにも汎化
文脈圧縮をエンド・ツー・エンドで学習
SQL・ファイル検索今後の課題

Databricksは、強化学習を活用した企業向けRAGエージェントKARL(Knowledge Agents via Reinforcement Learning)」を発表しました。6種類の企業検索行動を同時に学習させることで、単一タスク特化型の限界を克服するモデルです。

従来の企業向けRAGパイプラインは、特定の検索パターンに最適化されており、複数文書の横断的な統合や制約付きエンティティ検索など、異なるタスクには対応できませんでした。KARLは独自ベンチマーク「KARLBench」でClaude Opus 4.6と同等の性能を、クエリあたりコスト33%減・遅延47%減で達成したと同社は主張しています。

学習には新アルゴリズム「OAPL」を採用しています。従来のGRPOが前提とするオンポリシー同期の制約を撤廃し、400勾配ステップ以上のポリシー遅延でも安定動作します。サンプル効率が約3倍向上し、数千GPU時間で全学習を完了できるため、企業チームでも現実的に取り組める規模です。

注目すべきは、KARLが文脈圧縮をエンド・ツー・エンドで自己学習する点です。一部のタスクでは200回の連続ベクトルDB検索が必要となり、コンテキストウィンドウを何度も超過します。圧縮機能を除去すると精度が57%から39%に低下しており、この自律的な圧縮能力が性能の鍵となっています。

一方で課題も明確です。曖昧な質問への対応や途中で回答を断念するケースが残り、SQL検索やPython計算には未対応です。それでも、汎用フロンティアAPIにすべてを委ねるのではなく、目的特化型の検索エージェント強化学習で育てるアプローチは、企業のRAG戦略に再考を迫る重要な成果といえます。

Claudeが自律的にLLM学習実行、HF新機能公開

指示だけで学習工程を完結

自然言語でファインチューニングを指示
最適なGPU選定とコスト試算を自動化
データセット検証からデプロイまで代行

実用的な学習手法を網羅

SFT・DPO・GRPOなど主要手法に対応
ローカル利用向けのGGUF形式への変換
学習進捗をリアルタイム監視可能

Hugging Faceは2025年12月4日、AIエージェントClaude」などがLLMのファインチューニングを自律的に実行できる新機能「Skills」を発表しました。エンジニアはチャットで指示するだけで、複雑な学習プロセスを完結できます。

本機能はスクリプト作成に留まらず、クラウド上のGPU確保からジョブ送信、進捗監視、モデルのアップロードまでを自動化します。データセットの形式チェックや、モデル規模に応じた最適なハードウェア選定もAIが代行し、失敗リスクを低減します。

対応手法は、一般的な「SFT(教師あり微調整)」に加え、人間の好みを反映する「DPO」、数学やコード生成に有効な「GRPO」など多岐にわたります。実運用レベルの高度なモデル開発が、対話インターフェースを通じて手軽に実行可能になります。

利用にはHugging FaceのPro以上のプランが必要です。開発者インフラ管理の時間を節約でき、AIモデルのカスタマイズやローカル環境向けの軽量化(GGUF変換)を、低コストかつ迅速に試行錯誤できるようになり、生産性が大幅に向上します。

複雑実務に挑むAI学習基盤「Agent-R1」がRAGを凌駕

数学・コードから「現実世界」へ

従来の強化学習正解のある問題に特化
現実の業務は曖昧で動的な対応が必要
新手法は対話履歴と環境を全学習

中間評価で「過程」を磨く

最終結果だけでなく中間プロセスも評価
スパース報酬問題を解消し学習効率化
ツール実行と状況解釈を分離管理

既存手法を凌駕する実力

多段階推論従来のRAGを圧倒
DeepSeek系アルゴリズムで最高性能
企業利用の自動化レベルを向上

中国科学技術大学の研究チームが、複雑な実務タスクに対応可能なLLMエージェント強化学習フレームワーク「Agent-R1」を開発しました。従来の数学コーディングといった明確な領域を超え、曖昧さを含む現実世界の課題解決能力を大幅に向上させます。

これまでの強化学習は、正解が明確なタスクで威力を発揮してきましたが、変化し続けるビジネス環境や予測不能なフィードバックへの対応は苦手でした。エージェントが自律的にツールを使いこなし、複雑な工程を完遂するには、学習モデルの根本的な再定義が必要だったのです。

研究チームは「マルコフ決定過程」を拡張し、過去の対話履歴や環境反応を含めた学習を可能にしました。特筆すべきは、最終結果だけでなく中間の工程を評価する「プロセス報酬」の導入です。これにより、エージェントは正解に至るまでの「過程の良し悪し」を学習し、効率的にスキルを習得します。

Agent-R1は、行動を実行する「Tool」と、その結果を解釈する「ToolEnv」という2つのモジュールで構成されます。単にAPIを叩くだけでなく、その結果がタスク全体の進捗にどう意味を持つかを理解させることで、マルチターンの複雑な対話を制御します。

検証の結果、この手法で訓練されたエージェントは、従来のRAG検索拡張生成)や基本的なツール利用モデルを大きく上回る性能を示しました。特にDeepSeek-R1などで採用されるアルゴリズムGRPOとの相性が良く、企業の生産性を高める次世代エージェント開発の基盤として期待されています。