gpt-oss(基盤モデル)に関するニュース一覧

OpenAI、10代向けAI安全ポリシーをオープンソース公開

公開ポリシーの概要

プロンプト形式の安全ポリシー6種
暴力・性的コンテンツなど青少年リスク対応
gpt-oss-safeguardと連携設計
他モデルでも利用可能な汎用設計

開発背景と協力体制

Common Sense Mediaと共同開発
開発者の安全定義の課題を解消
ROOSTコミュニティで公開・改善促進

既存の取り組みとの関係

Model SpecにU18原則を追加済み
保護者管理や年齢推定も導入済み

OpenAIは2026年3月、10代のユーザーを保護するための安全ポリシーセットをオープンソースで公開しました。同社の安全モデルgpt-oss-safeguardと組み合わせて使用でき、開発者がAIアプリに年齢に応じた保護機能を実装することを支援します。

公開されたポリシープロンプト形式で提供され、暴力的コンテンツ、性的コンテンツ有害な身体イメージ、危険な活動やチャレンジ、ロマンチックまたは暴力的なロールプレイ、年齢制限のある商品・サービスの6分野をカバーしています。

開発にあたってはCommon Sense Mediaeveryone.aiなど外部の専門機関と協力し、10代特有の発達段階の違いに関する既存研究を踏まえてポリシーを策定しました。リアルタイムのコンテンツフィルタリングやオフライン分析に活用できます。

経験豊富な開発チームでさえ、高レベルの安全目標を運用可能なルールに落とし込むことに苦労しているのが実態です。ポリシーが曖昧だと保護の抜け穴や過剰なフィルタリングにつながるため、明確で適切な範囲のポリシーが不可欠とOpenAIは説明しています。

一方で同社は、これらのポリシーはあくまで出発点であり、包括的な安全保証ではないと強調しています。ChatGPTの過度な利用が関連する訴訟を複数抱えるなか、プロダクト設計やユーザー管理、監視システムなど多層防御アプローチの一環として位置づけています。

Mistral、推論・視覚・コード統合の小型モデルSmall 4公開

Small 4の特徴

Apache 2.0で公開
総パラメータ1190億、活性60億
128エキスパートのMoE構成

推論コスト削減

出力が他モデルより大幅に短い
推論努力を動的に調整可能
H100×4台で運用可能

ベンチマーク性能

MMLU ProでMistral Large 3に迫る性能
GPT-OSS 120BをLCRで上回る

Mistralは2026年3月、推論・マルチモーダル・エージェントコーディングの3機能を統合した小型オープンソースモデルSmall 4」を公開しました。Apache 2.0ライセンスで提供され、企業が複数モデルを使い分ける必要性を解消することを目指しています。

Small 4はMixture-of-Experts(MoE)アーキテクチャを採用し、総パラメータ数1190億のうち、トークンあたりの活性パラメータはわずか60億に抑えられています。128のエキスパートから各トークンで4つが選択される設計により、効率的なスケーリングと専門化を実現しています。

新たに導入された「reasoning_effort」パラメータにより、ユーザーは推論の深さを動的に調整できます。軽量な高速応答からMagistralのようなステップバイステップの詳細推論まで、用途に応じた切り替えが可能です。256Kのコンテキストウィンドウも長文分析に対応します。

ベンチマークでは、MMLU ProMistral Medium 3.1やMistral Large 3に迫る性能を示しました。一方、LiveCodeBenchではQwen 3.5 122BやClaude Haikuに及ばない結果も出ています。ただしSmall 4はインストラクトモードで最短の出力長(2.1K文字)を記録し、推論コスト面での優位性を主張しています。

小型言語モデル市場のNeurometric社CEOロブ・メイ氏は、Small 4のアーキテクチャの柔軟性を評価しつつも、小型モデル市場の断片化リスクを指摘しました。企業がAIモデルを選定する際には「信頼性と構造化出力」「レイテンシと知能の比率」「ファインチューニング可能性とプライバシー」の3つの柱を優先すべきだと述べています。

Multiverse Computing、圧縮AIモデルのAPI提供を本格開始

圧縮技術の実力

量子着想の独自圧縮技術
OpenAI系モデルを半分に縮小
HyperNova 60Bが原型超えの速度

エッジAIの展開

端末上でオフライン推論可能
データがデバイス外に出ない設計
ドローンや衛星など非接続環境対応

事業拡大と資金調達

100社超のグローバル顧客
€15億評価額で新ラウンド報道

スペイン発スタートアップMultiverse Computingは、主要AI企業のモデルを圧縮する独自技術「CompactifAI」を活用し、開発者向けのセルフサービスAPIポータルを新たに公開しました。AWS Marketplaceを介さず直接利用できる点が特徴です。

同社の圧縮技術は量子コンピューティングに着想を得たもので、OpenAIMetaDeepSeekMistral AIなどの大規模モデルを大幅に縮小します。最新のHyperNova 60BOpenAIgpt-oss-120bを基に構築され、元モデルより高速かつ低コストで応答できると同社は主張しています。

同時に公開されたCompactifAIアプリは、端末上でローカル実行可能な小型モデル「Gilda」を搭載しています。データがデバイス外に送信されないためプライバシー保護に優れますが、RAM・ストレージが不足する端末ではクラウド経由に自動切替されるという制約もあります。

企業向けの活用が本命であり、ドローンや衛星など通信が不安定な環境でのAI組み込みが有望な用途です。カナダ銀行、ボッシュ、イベルドローラなど100社超のグローバル企業が既に同社の顧客となっています。

Multiverse Computingは2025年に2億1500万ドルのシリーズBを調達済みで、現在は5億ユーロ規模の新ラウンドを15億ユーロ超の評価額で進めていると報じられています。小型モデルの性能向上が追い風となり、エッジAI市場での存在感を急速に高めています。

Nvidia、オープンAIモデルに5年で260億ドル投資へ

NemoClawの全容

OpenClaw対抗の基盤発表
Salesforce等大手と提携交渉中
オープンソースで公開予定

260億ドル投資計画

5年間で260億ドル規模
Nemotron 3 Superを公開
1280億パラメータの最新モデル

米中AI競争への影響

中国製オープンモデルに対抗
自社チップ最適化が狙い

Nvidiaは2026年3月、オープンソースAIエージェント基盤「NemoClaw」の提供準備を進めていることが報じられました。年次開発者会議を前に、Salesforce、Cisco、GoogleAdobe、CrowdStrikeなど大手企業とパートナーシップ交渉を行っています。

NemoClawは、1月に注目を集めたOpenClawの直接的な競合製品です。OpenClawは個人のマシンから常時稼働のAIエージェントを操作できるシステムで、OpenAIがその開発者Peter Steinberger氏を採用した経緯があります。Nvidiaはこの急成長市場への参入を狙います。

さらにNvidiaは、今後5年間で260億ドルをオープンソースAIモデル開発に投じる計画を明らかにしました。SEC提出の財務書類で判明したこの投資により、同社はチップメーカーからフロンティアラボへと進化する可能性があります。

同社はNemotron 3 Superも発表しました。1280億パラメータを持つこのモデルは、OpenAIGPT-OSSを複数のベンチマークで上回ると主張しています。AI Indexでスコア37を獲得し、GPT-OSSの33を超えました。また、OpenClaw制御能力を測るPinchBenchで1位を獲得しています。

この投資の背景には、DeepSeekやAlibaba、Moonshot AIなど中国勢のオープンモデルが世界的に普及している状況があります。Nvidia応用深層学習研究VP Bryan Catanzaro氏は「エコシステムの多様性と強化が我々の利益になる」と語り、米国発のオープンモデルの重要性を強調しました。

MSがFireworks AIとAzure基盤で提携、オープンモデル推論を強化

統合の概要

Microsoft Foundry上で提供開始
DeepSeek V3.2など4モデル対応
毎日13兆トークン処理の実績
秒間18万リクエストの高速推論

企業向け機能

サーバーレスと固定スループットの選択制
独自学習済み重みの持ち込み対応
Azure水準のガバナンスと監視機能
エージェント開発・評価の統合環境

Microsoftは、AI統合基盤「Microsoft Foundry」上でFireworks AIのオープンモデル推論サービスのパブリックプレビューを開始したと発表しました。企業がオープンモデルを本番環境で安全かつ効率的に運用できる体制を整えます。

Fireworks AIは業界トップクラスの推論性能を誇り、毎日13兆トークンを処理し、秒間約18万リクエストを捌く実績があります。大規模モデルでも毎秒1,000トークン以上の生成速度を実現しており、この性能がAzure上で利用可能になります。

対応モデルはDeepSeek V3.2OpenAI gpt-oss-120b、Kimi K2.5、新規追加のMiniMax M2.5の4種類です。サーバーレスの従量課金と、安定稼働向けのプロビジョンドスループットユニットの2つの料金体系から選択できます。

企業向けには独自のファインチューニング済みモデルをアップロードして推論に使える「BYOW」機能を提供します。既存の推論スタックを変更せずにカスタムモデルを登録・運用でき、実験から本番移行までの障壁を大幅に下げます。

Microsoft Foundryはモデル評価からデプロイ、ガバナンス、監視までを一元管理するエンタープライズ制御基盤として設計されています。オープンモデルの採用拡大に伴い、ツールやインフラの分断を防ぎ、継続的な改善サイクルを支える統合プラットフォームとして位置づけられています。

NVIDIAジェットソンがエッジAIの新標準に、重機から家庭まで展開

エッジ推論の実用例

キャタピラー重機に音声AIアシスタント搭載
クラウド不要のローカル推論を実現
Jetson Thorがリアルタイム処理を担保
ロボット・スマートホームにも展開

対応オープンモデル群

GemmaMistralQwen主要モデルに対応
GR00T N1.6でロボット動作を自律制御
vLLMで最大273トークン/秒を達成
2B〜30Bパラメータを柔軟に切り替え

NVIDIAは2026年のCESにおいて、エッジAIプラットフォーム「Jetson Thor」上でキャタピラーの小型油圧ショベル向け音声AIアシスタントのデモを公開した。Qwen3 4BモデルをvLLC経由でローカル動作させ、クラウド接続なしで低遅延な自然言語応答を実現している。

従来のオープンモデルはデータセンターで運用されてきたが、クラウド依存はレイテンシとコストの課題を抱える。Jetsonはシステムオンモジュールにコンピュートとメモリを統合し、メモリ不足による調達難を解消しながら、産業機器向けに安定したエッジ推論環境を提供する。

ロボティクス分野ではFranka RoboticsのFR3 DuoがオンボードでGR00T N1.6モデルを実行し、タスクスクリプト不要で知覚から動作まで完結させた。NYU・UIUCなどの研究機関もJetson Thor上でヒューマノイド制御や抹茶製造ロボットの開発に成功している。

個人開発者レベルでも活用が広がっており、Hugging FaceのAndré Marafiotiはエージェント型AIシステムをJetson AGX Orin上で構築し、タスク自律スケジューリングを実現した。CollabnixのAjeet Singh RainaはOpenClawをJetson Thor上で24時間稼働させ、メール・カレンダー管理を自動化している。

Jetson Thorは現在、Gemma 3・Mistral 3・Qwen 3.5・gpt-oss-20B・NVIDIA Cosmosなど主要オープンモデルを広くサポートしており、開発者はvLLM・Ollamallama.cppなど多様なフレームワークを選択できる。GTC 2026では産業自律化の未来をテーマにした展示も予定されている。

Alibaba「Qwen3.5」小型モデル群公開、9Bで120B超え性能

小型で大型超えの性能

9BOpenAI 120Bを上回る推論性能
ノートPC上でローカル実行可能
Apache 2.0で商用利用も無償

技術革新と実用性

ハイブリッドアーキテクチャで高効率化
ネイティブマルチモーダル対応
0.8B〜9Bの4モデル構成

企業への影響

エッジ推論クラウドAPI不要に
文書解析・コード生成など業務自動化に対応

Alibaba傘下のQwenチームは2026年3月、小型オープンソースモデルQwen3.5 Small Model Series」を公開しました。0.8B、2B、4B、9Bの4モデルで構成され、Apache 2.0ライセンスのもとHugging FaceとModelScopeで即日提供が開始されています。

最大の注目点はQwen3.5-9Bの性能です。GPQAベンチマークで81.7を記録し、13.5倍の規模を持つOpenAIgpt-oss-120B(80.1)を上回りました。MMMU-Proでも70.1を達成し、Gemini 2.5 Flash-Liteの59.7を大幅に超えています。

技術面では従来のTransformerアーキテクチャから脱却し、Gated Delta NetworksとスパースMixture-of-Expertsを組み合わせたハイブリッド構造を採用しています。これにより推論時のスループット向上と低レイテンシを実現し、小型モデルの「メモリの壁」問題を解消しています。

開発者コミュニティからは強い関心が寄せられています。「M1 MacBook Airで無料で動く」との報告や、ブラウザ上での動画解析が可能との検証結果が共有されました。Baseモデルも同時公開され、企業独自のファインチューニングが容易になった点も高く評価されています。

企業活用の観点では、エッジデバイス上でのUI自動操作、文書解析、コードリファクタリング、モバイルでのオフライン動画要約など幅広い用途が想定されます。クラウドAPIへの依存を減らしコスト削減データ主権の確保を両立できる点が、企業導入の大きな推進力となりそうです。

GPT-OSSに対するエージェント型RL学習の実践的振り返り

技術的知見

オープンソースGPT向けRL訓練
失敗から学ぶ実践知

応用への示唆

オープンモデル強化
RL訓練のコスト効率化
研究コミュニティへの貢献

GPTのオープンソース版に対してエージェント強化学習を適用した実践的な振り返りが公開されました。成功例だけでなく失敗からの学びも含む貴重な知見です。

オープンソースモデル強化学習で改善するアプローチは、商業モデルへの依存を減らしつつ特定ドメインでの高性能化を実現する有望な方向性です。

OpenAI、推論で安全性を動的分類する新モデル公開

新モデルの特長

開発者安全方針を直接定義
推論ポリシーを解釈し分類
判断根拠を思考過程で透明化
商用利用可能なオープンモデル

従来手法との違い

ポリシー変更時の再学習が不要
大量のラベル付きデータが不要
新たな脅威へ迅速な対応が可能

性能と実用上の課題

小型ながら高い分類性能を発揮
処理速度と計算コストが課題

OpenAIは2025年10月29日、開発者が定義した安全方針に基づき、AIが推論を用いてコンテンツを動的に分類する新しいオープンウェイトモデル「gpt-oss-safeguard」を発表しました。このモデルは、従来の大量データに基づく分類器とは異なり、ポリシー自体を直接解釈するため、柔軟かつ迅速な安全対策の導入を可能にします。研究プレビューとして公開され、コミュニティからのフィードバックを募ります。

最大の特徴は、AIの「推論能力」を活用する点です。開発者は自然言語で記述した安全方針を、分類対象のコンテンツと共にモデルへ入力します。モデルは方針を解釈し、コンテンツが方針に違反するかどうかを判断。その結論に至った思考の連鎖(Chain-of-Thought)」も示すため、開発者は判断根拠を明確に把握できます。

このアプローチは、従来の機械学習手法に比べて大きな利点があります。従来、安全方針を変更するには、数千件以上の事例データを再ラベル付けし、分類器を再学習させる必要がありました。しかし新モデルでは、方針テキストを修正するだけで対応可能です。これにより、巧妙化する新たな脅威や、文脈が複雑な問題にも迅速に適応できます。

例えば、ゲームのコミュニティサイトで不正行為に関する投稿を検出したり、ECサイトで偽レビューを特定したりと、各サービスの実情に合わせた独自の基準を容易に設定・運用できます。大規模なデータセットを用意できない開発者でも、質の高い安全分類器を構築できる道が開かれます。

性能評価では、社内ベンチマークにおいて、基盤モデルである「gpt-5-thinking」を上回る精度を示しました。一方で、特定の複雑なリスクに対しては、大量のデータで専用に訓練された従来の分類器に劣る場合があることや、推論プロセスに伴う計算コストと処理遅延が課題であることも認めています。

OpenAIは、社内ツール「Safety Reasoner」で同様のアプローチを既に採用しており、GPT-5画像生成AI「Sora 2」などの安全システムの中核を担っています。今回のオープンモデル公開は、こうした先進的な安全技術を広く共有し、コミュニティと共に発展させることを目指すものです。モデルはHugging Faceからダウンロード可能で、Apache 2.0ライセンスの下で自由に利用、改変、配布ができます。

高性能LLMをローカルPCで、NVIDIAが活用ガイド公開

RTXでLLMを高速化

プライバシーと管理性をローカル環境で確保
サブスクリプション費用が不要
RTX GPU推論を高速化
高品質なオープンモデルを活用

主要な最適化ツール

簡単操作のOllamaで手軽に開始
多機能なLM Studioでモデルを試用
AnythingLLMで独自AIを構築
これらツールのパフォーマンス向上を実現

NVIDIAは、同社のRTX搭載PC上で大規模言語モデル(LLM)をローカル環境で実行するためのガイドを公開しました。プライバシー保護やサブスクリプション費用の削減を求める声が高まる中、OllamaやLM Studioといったオープンソースツールを最適化し、高性能なAI体験を手軽に実現する方法を提示しています。これにより、開発者や研究者だけでなく、一般ユーザーによるLLM活用も本格化しそうです。

これまでクラウド経由が主流だったLLMですが、なぜ今、ローカル環境での実行が注目されるのでしょうか。最大の理由は、プライバシーとデータ管理の向上です。機密情報を外部に出すことなく、手元のPCで安全に処理できます。また、月々の利用料も不要で、高品質なオープンモデルが登場したことも、この流れを後押ししています。

手軽に始めるための一つの選択肢が、オープンソースツール「Ollama」です。NVIDIAOllamaと協力し、RTX GPU上でのパフォーマンスを大幅に向上させました。特にOpenAIgpt-oss-20BモデルやGoogleGemma 3モデルで最適化が進んでおり、メモリ使用効率の改善やマルチGPU対応も強化されています。

より専門的な利用には、人気のllama.cppを基盤とする「LM Studio」が適しています。こちらもNVIDIAとの連携で最適化が進み、最新のNVIDIA Nemotron Nano v2モデルをサポート。さらに、推論を最大20%高速化するFlash Attentionが標準で有効になるなど、RTX GPUの性能を最大限に引き出します。

ローカルLLMの真価は、独自のAIアシスタント構築で発揮されます。例えば「AnythingLLM」を使えば、講義資料や教科書を読み込ませ、学生一人ひとりに合わせた学習支援ツールを作成できます。ファイル数や利用期間の制限なく対話できるため、長期間にわたる文脈を理解した、よりパーソナルなAIが実現可能です。

NVIDIAの取り組みは汎用ツールに留まりません。ゲームPCの最適化を支援するAIアシスタント「Project G-Assist」も更新され、音声やテキストでラップトップの設定を直接変更できるようになりました。AI技術をより身近なPC操作に統合する試みと言えるでしょう。このように、RTX PCを基盤としたローカルAIのエコシステムが着実に拡大しています。

プライバシーを確保しつつ、高速かつ低コストでAIを動かす環境が整いつつあります。NVIDIAの推進するローカルLLM活用は、経営者エンジニアにとって、自社のデータ資産を活かした新たな価値創出の好機となるでしょう。

Hugging Face、仏Scalewayを推論プロバイダーに統合しAI利用の選択肢拡大

統合の核心と利点

Scalewayを新たな推論プロバイダーに追加。
gpt-ossQwen3など人気モデルへ容易にアクセス。
モデルページからサーバーレスで即時推論可能。
ウェブUIとクライアントSDKからシームレス利用。

Scalewayの技術的強み

欧州データセンターによるデータ主権と低遅延。
トークンあたり€0.20からの競争的価格
構造化出力、ファンクションコーリングに対応。
高速応答(200ms未満)を実現。

柔軟な課金体系

カスタムキー利用でプロバイダーに直接請求
HF経由の請求は追加マークアップなし
PROユーザーは毎月2ドル分の推論クレジット付与。

Hugging Faceは、フランスのクラウドプロバイダーであるScalewayを新たな「Inference Provider(推論プロバイダー)」としてハブに統合しました。これにより、経営者エンジニアgpt-ossQwen3などの人気オープンウェイトモデルを、Scalewayの提供するフルマネージドなサーバーレス環境で利用可能になります。この統合は、AIモデルのデプロイと利用の柔軟性を高め、特に欧州におけるデータ主権への要求に応えるものです。

Scalewayが提供するのは「Generative APIs」と呼ばれるサーバーレスサービスであり、トークンあたり0.20ユーロ/100万トークンからという競争力のある従量課金制が特徴です。ユーザーはシンプルなAPIコールを通じて、最先端のAIモデルにアクセスできます。この手軽さとコスト効率は、大規模な本番環境での利用を検討する企業にとって大きなメリットとなります。

インフラストラクチャはパリの欧州データセンターに置かれており、欧州の利用者に対してデータ主権の確保と低遅延の推論環境を提供します。応答速度はファーストトークンで200ミリ秒未満を達成しており、インタラクティブなアプリケーションやエージェントワークフローへの適用に最適です。テキスト生成とエンベディングモデルの両方をサポートしています。

Scalewayのプラットフォームは高度な機能にも対応しています。具体的には、応答形式を指定できる構造化出力や、外部ツール連携を可能にするファンクションコーリング、さらにマルチモーダル処理能力を備えています。これにより、より複雑で実用的なAIアプリケーションの開発が可能になります。

利用者は、HFのウェブサイトUIだけでなく、PythonやJavaScriptのクライアントSDKからシームレスに推論を実行できます。課金方式は二通りあり、ScalewayのAPIキーを使う場合は直接プロバイダーに請求されます。HF経由でルーティングする場合は、HFによる追加のマークアップは発生しないため、透明性が高い価格で利用できます。

Hugging FaceのPROプランユーザーには、毎月2ドル分の推論クレジットが特典として提供されます。このクレジットは、Scalewayを含む複数のプロバイダーで横断的に使用可能です。本格的な商用利用や高いリミットが必要な場合は、PROプランへのアップグレードが推奨されています。

AWSがGPT-OSS活用、エージェント構築加速へ

<span class='highlight'>主要構成要素</span>

モデルのデプロイ・管理にAmazon SageMaker AIを使用
エージェントの統合にAmazon Bedrock AgentCoreを活用
グラフベースのワークフロー構築にLangGraphを利用

<span class='highlight'>システム設計の要点</span>

複雑なタスクを専門エージェント分業させる構造
高速推論を実現するvLLMサービングフレームワーク
スケーラブルでサーバーレスなエージェント運用基盤
低コストでの強力なオープンソースLLMの活用

AWSは、OpenAIが公開したオープンウェイトの大規模言語モデル(LLM)である「GPT-OSS」を活用し、実用的なエージェントワークフローを構築する詳細なガイドを発表しました。Amazon SageMaker AIでモデルをデプロイし、Amazon Bedrock AgentCoreでマルチエージェントを統合運用するエンドツーエンドのソリューションです。これにより、複雑なタスクを自動化し、企業生産性を大幅に高める道筋が示されました。

このソリューションの核となるのは、高度な推論エージェントワークフローに優れるGPT-OSSモデルです。MoE(Mixture of Experts)設計のこれらのモデルを、高速な推論フレームワークであるvLLMと組み合わせ、SageMaker AI上にデプロイします。この組み合わせにより、単一のGPU(L40sなど)上でも大規模なモデルを効率的に動かすことが可能となり、運用コストを抑えつつ高性能を実現しています。

現実世界の複雑なアプリケーションには、単なるLLM応答以上のワークフロー管理とツール利用能力が求められます。この課題を解決するため、グラフベースの状態管理フレームワークLangGraphを採用し、複数の専門エージェントの協調を設計しました。これらのエージェントは、Bedrock AgentCore Runtimeという統合レイヤー上でデプロイ・運用されます。

Amazon Bedrock AgentCoreは、エージェントインフラストラクチャ管理、セッション管理、スケーラビリティといった重労働を抽象化します。開発者はロジックの構築に集中でき、エージェントの状態を複数の呼び出し間で維持できるため、大規模かつセキュアなAIエージェントシステムをサーバーレスで展開・運用することが可能になります。

具体例として、株価分析エージェントアシスタントが構築されました。このシステムは、データ収集エージェント、パフォーマンス分析エージェント、レポート生成エージェントの3つで構成されます。ユーザーの問い合わせに対し、専門化されたコンポーネントが連携し、株価データ収集から技術・ファンダメンタル分析、そして最終的なPDFレポート生成までを一気通貫で実行します。

このエージェントワークフローは、定型的な分析業務を自動化し、アナリストの生産性向上に大きく貢献します。処理時間の大幅な短縮に加え、スキルを持つ専門家が、より複雑な意思決定や顧客との関係構築といった高付加価値業務に注力できる環境を提供します。オープンソースLLMの力を最大限に引き出し、ビジネス価値に変える実践例です。