Ai2、強化学習を延長したOLMo 3.1を公開

2025年12月12日 Qwen 数学推論強化学習 GPU コーディング

OLMo 3.1の概要と強化学習の延長

Ai2がOLMo 3.1をリリース、OLMo 3の後継として公開

OLMo 3.1 Think 32BとInstruct 32Bの2モデルを更新

Think 32Bは追加21日・224GPU規模でRLトレーニングを延長

AIMEで5点超、ZebraLogicで4点超など主要ベンチマークが大幅改善

Instruct 32Bは7Bモデルのレシピを32Bに適用して開発

現在はAi2 PlaygroundとHugging Faceで利用可能、API提供も予定

OLMo 3.1 ThinkはAIME 2025でQwen 3 32Bを上回る性能を記録

OLMo 3.1 InstructはGemma 3を上回る数学ベンチマーク結果を達成

32Bスケールのオープン命令調整モデルとして最高水準と主張

RL-Zero 7Bの数学・コーディングモデルも長期安定学習で更新

データ・コード・学習決定の完全な透明性を維持する方針を継続

OLMoTraceによる学習データ追跡ツールも引き続き提供

詳細を読む

アレン人工知能研究所（Ai2）は、オープンソース言語モデルファミリー「OLMo 3」のアップデート版となる「OLMo 3.1」を公開しました。前バージョンのリリース後も強化学習（RL）トレーニングを継続し、さらなる性能向上を実現しています。

OLMo 3.1 Think 32Bは、OLMo 3 Think 32BのRLトレーニングを追加21日間、224個のGPUを用いて延長することで開発されました。数学・推論・命令追従の各ベンチマークで大幅な改善が確認されています。

具体的な改善幅としては、AIMEで5点超、ZebraLogicで4点超、IFEvalで4点超、IFBenchで20点超の向上が報告されています。コーディングや複雑な多段階タスクの性能も向上しています。

OLMo 3.1 Instruct 32Bは、より小規模な7Bモデル向けの手法を大規模化することで構築されました。チャット、ツール利用、マルチターン対話に最適化された設計になっています。

ベンチマーク比較では、OLMo 3.1 ThinkがAIME 2025においてQwen 3 32Bを上回り、Gemma 27Bに近い性能を示しました。OLMo 3.1 InstructはGemma 3を数学ベンチマークで超えたとされています。

Ai2はデータ・コード・学習プロセスの完全な透明性を重視しており、企業や研究機関がモデルのデータ構成を把握・変更できる点を強調しています。OLMoTraceツールによるLLM出力と学習データの追跡機能も提供が続いています。

モデルはAi2 PlaygroundおよびHugging Faceで即時利用可能であり、API経由のアクセスも近日中に提供予定とされています。また、数学・コーディング向けのRL-Zero 7Bモデルも今回の更新で改善されています。