Qwen(プロダクト)に関するニュース一覧

OllamaがApple MLX対応、Macでのローカル推論を大幅高速化

MLX対応の概要

Apple MLXフレームワーク対応開始
Ollama 0.19プレビューで提供
Qwen3.5-35Bモデルのみ対応
Apple Silicon搭載Mac・RAM32GB以上が必要

性能改善と圧縮技術

キャッシュ性能の向上を実現
Nvidia NVFP4圧縮形式に対応
メモリ使用効率の大幅改善

ローカルLLM需要の高まり

OpenClawGitHubで30万スター突破
クラウドAPIの料金・制限への不満が背景

ローカルLLM実行ツールOllamaは、Appleが開発したオープンソースの機械学習フレームワークMLXへの対応を発表しました。これにより、Apple Silicon搭載Macでの大規模言語モデルの推論性能が大幅に向上します。

今回の対応はOllama 0.19のプレビュー版として提供されており、現時点で対応モデルはAlibabaのQwen3.5-35Bパラメータ版のみです。利用にはApple Silicon搭載Macに加え、最低32GBのRAMが必要とされています。

MLX対応に加え、キャッシュ性能の改善やNvidiaNVFP4モデル圧縮形式への対応も同時に発表されました。NVFP4はモデルのメモリ使用量を大幅に削減する技術で、より効率的な推論環境の構築が可能になります。

ローカルモデル実行への関心は急速に高まっています。OpenClawGitHubで30万スター以上を獲得し、中国を中心に世界的な注目を集めています。研究者やホビイスト以外の層にもローカルLLMの活用が広がりつつあります。

背景には、Claude CodeChatGPT Codexなどのクラウドサービスにおけるレート制限や高額なサブスクリプション費用への開発者の不満があります。OllamaはVisual Studio Codeとの統合も拡充しており、ローカル開発環境の充実を進めています。

Cohere、オープンウェイト音声認識モデルを公開

モデルの性能

WER 5.42%で業界最高精度
Whisper Large v3の7.44%を大幅に上回る
14言語対応(日本語含む)
20億パラメータ、Apache-2.0ライセンス

企業導入の優位性

自社GPUでのローカル運用が可能
データ残留リスクなしの音声処理
RAGエージェント構築に即戦力
商用利用を前提とした設計

Cohereは、オープンウェイトの自動音声認識モデル「Transcribe」を公開しました。20億パラメータのこのモデルは、平均単語誤り率(WER)5.42%を達成し、企業の音声パイプラインに直接組み込める精度を実現しています。

TranscribeはHugging FaceのASRリーダーボードで首位を獲得しました。OpenAIのWhisper Large v3(WER 7.44%)、ElevenLabs Scribe v2(5.83%)、Qwen3-ASR(5.76%)をいずれも上回り、商用レベルの音声認識における新たな基準を打ち立てています。

最大の特徴は、Apache-2.0ライセンスによる商用利用と自社インフラでのローカル運用が可能な点です。従来のクローズドAPIではデータの外部送信が避けられず、オープンモデルでは精度が不十分という課題がありましたが、Transcribeはその両方を解決しています。

対応言語は英語、フランス語、ドイツ語、日本中国語、韓国語など14言語です。会議理解を測るAMIデータセットで8.15%、多様なアクセントを評価するVoxpopuliで5.87%と、幅広い音声タスクで高い性能を示しています。

企業のエンジニアリングチームにとって、RAGパイプラインエージェントワークフロー音声入力を組み込む際、データ残留リスクやレイテンシの問題なく本番運用できる選択肢が加わりました。早期導入企業からは、精度とローカル展開の両立が高く評価されています。

Hugging Face、OpenClawのオープンモデル移行手順を公開

2つの移行経路

HF推論API経由が最速
ローカル実行で完全無料化
GLM-5を推奨モデルに指定
HF PRO会員は月2ドル無料枠

ローカル環境構築

llama.cppでローカル推論
Qwen3.5-35Bが32GB RAMで動作
OpenAI互換APIとして接続
プライバシーと完全制御を実現

Hugging Faceは、OpenClawやPiなどのAIエージェントをクローズドモデルからオープンモデルへ移行するための具体的な手順を公開しました。ホスト型とローカル型の2つの方法が提示されています。

ホスト型の方法では、Hugging Face Inference Providersを利用します。APIトークンを取得し、OpenClawの設定コマンドで認証を行うだけで、数千のオープンソースモデルから選択して即座にエージェントを復旧できます。

推奨モデルとしてGLM-5が挙げられており、Terminal Benchで高いスコアを記録しています。設定ファイルのrepo_idを変更するだけでモデルの切り替えが可能で、HF PRO会員には月額2ドルの無料クレジットが付与されます。

ローカル型の方法では、オープンソースの推論ライブラリllama.cppを使用します。macOS・Linux・Windowsいずれにも対応しており、パッケージマネージャから簡単にインストールできます。

ローカル実行ではQwen3.5-35B-A3Bが推奨されており、32GBのRAMで動作します。APIコストゼロ、レート制限なし、完全なプライバシー保護が実現でき、クローズドモデルに依存せずエージェントを運用できる点が強調されています。

完全ローカル動作のAI議事録アプリTalatが登場

Talatの特徴

音声・議事録が端末外に出ない設計
買い切り49ドルでサブスク不要
アカウント作成や分析データ送信も不要
20MBの軽量Macアプリ

技術と拡張性

Apple Neural Engine音声認識実行
FluidAudio基盤の低遅延処理
LLM選択やObsidian連携に対応
MCPサーバーやWebhookも搭載

英国開発者Nick Payne氏が、完全ローカル動作のAI議事録アプリ「Talat」をMac向けに公開しました。評価額15億ドルのGranolaに対抗し、音声データがクラウドに送信されないプライバシー重視の設計が最大の特徴です。

TalatはZoom、Teams、Google Meetなどの会議アプリから音声を取得し、リアルタイムで文字起こしを行います。会議終了後にはローカルLLMが要約・要点・決定事項・アクションアイテムを自動生成します。話者の識別もリアルタイムで行われ、手動での再割り当ても可能です。

技術基盤にはFluidAudioというSwiftフレームワークを採用し、AppleNeural Engine上で高速な音声AI処理を実現しています。Payne氏が開発したオープンソースの音声ライブラリAudioTeeも活用されており、Apple独自のCore Audio Taps APIを通じてシステム音声を取得します。

要約モデルにはQwen3-4B-4bitをデフォルトで搭載し、比較的低スペックなハードウェアでも動作します。ユーザーは任意のクラウドLLMやNvidia製Parakeetモデル、Ollama経由のローカルモデルに切り替えることも可能で、高いカスタマイズ性を備えています。

価格はプレリリース版で買い切り49ドル、正式版では99ドルに値上げ予定です。M1以降のMacで利用でき、購入前に10時間の無料トライアルが可能です。開発者のPayne氏と共同創業者のMike Franklin氏はブートストラップで運営し、今後も買い切りモデルを維持する方針を示しています。

Scale AI、音声AI初の実世界ベンチマーク公開

評価手法の革新

60言語超の実音声で評価
利用中会話から盲検比較実施
投票後に選択モデルへ自動切替
合成音声でなく実環境音声使用

主要モデルの実力

音声認識はGemini 3 Proが首位
音声対話はGPT-4o Audioが優勢
Grok Voiceが補正後に急浮上
Qwen 3 Omniが知名度以上の健闘

浮き彫りの課題

非英語で応答言語が切替わる欠陥
同一モデル内で音声選択により勝率30pt差
会話が長引くと内容品質が急劣化

Scale AIは2026年3月18日、音声AIモデルを実際の人間の会話データで評価する世界初のベンチマークVoice Showdown」を公開しました。60言語以上、数千件の自発的音声会話から収集した選好データに基づき、既存の合成音声ベンチマークでは見落とされてきた能力差を明らかにしています。

評価はScale AIChatLabプラットフォーム上で行われます。ユーザーはフロンティアモデルを無料で利用でき、音声プロンプトの5%未満の頻度で匿名の2モデル比較が提示されます。投票後は選んだモデルに切り替わるため、誠実な投票が動機づけられる設計です。

音声認識(Dictate)部門ではGemini 3 ProGemini 3 Flashが統計的に同率首位となり、GPT-4o Audioが3位に続きました。音声対話(S2S)部門ではスタイル補正後にGPT-4o Audioが首位、Grok Voiceが僅差の2位に浮上しています。オープンウェイトQwen 3 Omniは両部門で4位と健闘しました。

最も深刻な発見は多言語対応脆弱性です。OpenAIのGPT Realtime 1.5はヒンディー語やスペイン語など公式対応言語でも約20%の確率で英語で応答してしまいます。また同一モデル内でも音声の選択により勝率が30ポイントも変動することが判明しました。

さらに会話が長くなるにつれ内容品質の劣化が主要な失敗要因となることが示されました。1ターン目では品質起因の失敗が23%ですが、11ターン以降は43%に急増します。Scale AIは今後、リアルタイムの全二重通話評価モードの追加を予定しており、音声AI評価の新たな業界標準となることが期待されます。

Mistral、推論・視覚・コード統合の小型モデルSmall 4公開

Small 4の特徴

Apache 2.0で公開
総パラメータ1190億、活性60億
128エキスパートのMoE構成

推論コスト削減

出力が他モデルより大幅に短い
推論努力を動的に調整可能
H100×4台で運用可能

ベンチマーク性能

MMLU ProでMistral Large 3に迫る性能
GPT-OSS 120BをLCRで上回る

Mistralは2026年3月、推論・マルチモーダル・エージェントコーディングの3機能を統合した小型オープンソースモデルSmall 4」を公開しました。Apache 2.0ライセンスで提供され、企業が複数モデルを使い分ける必要性を解消することを目指しています。

Small 4はMixture-of-Experts(MoE)アーキテクチャを採用し、総パラメータ数1190億のうち、トークンあたりの活性パラメータはわずか60億に抑えられています。128のエキスパートから各トークンで4つが選択される設計により、効率的なスケーリングと専門化を実現しています。

新たに導入された「reasoning_effort」パラメータにより、ユーザーは推論の深さを動的に調整できます。軽量な高速応答からMagistralのようなステップバイステップの詳細推論まで、用途に応じた切り替えが可能です。256Kのコンテキストウィンドウも長文分析に対応します。

ベンチマークでは、MMLU ProMistral Medium 3.1やMistral Large 3に迫る性能を示しました。一方、LiveCodeBenchではQwen 3.5 122BやClaude Haikuに及ばない結果も出ています。ただしSmall 4はインストラクトモードで最短の出力長(2.1K文字)を記録し、推論コスト面での優位性を主張しています。

小型言語モデル市場のNeurometric社CEOロブ・メイ氏は、Small 4のアーキテクチャの柔軟性を評価しつつも、小型モデル市場の断片化リスクを指摘しました。企業がAIモデルを選定する際には「信頼性と構造化出力」「レイテンシと知能の比率」「ファインチューニング可能性とプライバシー」の3つの柱を優先すべきだと述べています。

Eragon、企業向けAI OSで1200万ドル調達

プロンプト型業務基盤

全業務ソフトをLLMで代替
自然言語で分析・ダッシュボード生成
オープンソースモデルを顧客データで訓練

セキュリティと差別化

顧客データは自社環境内に保持
モデル重みを企業が所有
大企業・スタートアップで導入開始
Nvidia黄氏も同様のビジョン提示

Eragon創業者ジョシュ・シロタ氏は、2025年8月に同社を設立し、企業向けエージェントAI OSの構築を目指して1200万ドルの資金調達を完了しました。ポストマネー評価額は1億ドルに達しています。

同社の基本理念は「ソフトウェアは死んだ」というものです。ボタンやダイアログボックスといった従来のUIを廃し、SalesforceSnowflake・Jiraなどの業務ソフトをプロンプトひとつで操作できる世界を目指しています。

技術面ではQwenやKimiなどのオープンソースモデルを顧客データでポストトレーニングし、企業のメールやリソースと連携します。新規顧客のオンボーディングも自然言語の指示だけで自動的に完了する仕組みです。

セキュリティ上の大きな特徴は、企業データが自社サーバー内に留まり、モデルの重みも企業自身が所有する点です。シロタ氏は、長年の企業データで訓練されたモデルが将来貴重な資産になると見込んでいます。

NvidiaのジェンスンCEOもGTCで「すべてのSaaS企業がAgentic-as-a-Serviceになる」と発言し、同様のビジョンを示しました。一方でフロンティアラボからモデルラッパーまで競争は激化しており、Eragonの差別化が問われます。

Hugging Faceオープンソース生態系、中国勢が米国を逆転

エコシステムの急成長

ユーザー1300万人に倍増
公開モデル200万超を達成
データセット50万件を突破
Fortune 500の30%超が参加

中国の台頭と地政学

中国がダウンロード数で米国を逆転
Qwen派生モデルが20万件超
韓国欧州AI主権を推進

技術トレンドの変化

ロボティクスデータセットが23倍増
小型モデルの実用採用が加速

Hugging Faceは2026年春のオープンソースAI生態系レポートを公開しました。2025年にユーザー数は1300万人に達し、公開モデルは200万件超、データセットは50万件を突破するなど、すべての指標がほぼ倍増しています。

中国が月間ダウンロード数で米国を逆転し、全ダウンロードの41%を占めるに至りました。DeepSeek R1の公開を契機に、Baiduは2024年のゼロから100件超のリリースへ急増し、ByteDanceやTencentも8〜9倍にリリース数を拡大しています。

企業の開発シェアは2022年以前の約70%から2025年には37%に低下しました。一方、個人や小規模コミュニティがダウンロードの39%を占め、量子化やファインチューニングを通じてモデルの流通を主導する存在へと成長しています。

各国政府はAI主権の確保に動いています。韓国は国家ソブリンAIイニシアティブを発足させ、LG AI ResearchやNaverなど国内企業を指名しました。スイスやEU各国も公的資金によるオープンモデル開発を推進し、Reflection AI韓国データセンター提携も発表されています。

ロボティクス分野ではデータセットが2024年の1,145件から2025年に26,991件へと急増し、Hub最大のカテゴリとなりました。科学研究でもタンパク質折りたたみや創薬への応用が進み、オープンソースAIは言語・画像生成を超えて物理世界への拡張を加速させています。

NVIDIA、GTC 2026でローカルAI向け新モデルと開発基盤を発表

新オープンモデル群

Nemotron 3 Super、1200億パラメータ
Mistral Small 4がDGX Sparkに対応
Nemotron 3 Nano 4B、軽量PC向け
Qwen 3.5最適化も同時発表

エージェント基盤整備

NemoClawOpenClaw向けOSS公開
ローカル推論プライバシー確保
Unsloth Studioファインチューニング簡易化

クリエイティブAI強化

LTX 2.3が2.1倍高速化
FLUX.2 Klein 9Bの画像編集2倍速

NVIDIAは2026年3月のGTC 2026において、ローカル環境で動作するAIエージェント向けの新しいオープンモデル群と開発基盤を発表しました。DGX SparkやRTX PCでクラウド級の性能を実現することを目指しています。

Nemotron 3 Superは1200億パラメータのオープンモデルで、アクティブパラメータは120億に抑えられています。エージェントAI向けベンチマークPinchBenchで85.6%を記録し、同クラスのオープンモデルで最高スコアを達成しました。

小型モデルとしてはNemotron 3 Nano 4Bが発表され、GeForce RTX搭載PCでもエージェントアシスタントの構築が可能になります。AlibabaのQwen 3.5シリーズ向けの最適化も同時に提供され、26万2000トークンの大規模コンテキストウィンドウに対応します。

エージェント実行基盤としてNemoClawがオープンソースで公開されました。OpenClaw向けの最適化スタックで、ローカルモデルによる推論でトークンコストを削減し、OpenShellランタイムによるセキュアな実行環境を提供します。

ファインチューニングの分野では、Unsloth StudioがウェブベースのUIで公開され、500以上のAIモデルに対応します。従来は高度な技術知識が必要だったカスタマイズ作業を、ドラッグ&ドロップの直感的な操作で完結できるようになりました。

クリエイティブAI分野では、LightricksのLTX 2.3がNVFP4・FP8対応で2.1倍の高速化を実現し、Black Forest LabsのFLUX.2 Klein 9B画像編集が最大2倍に高速化されました。RTX GPU向けに最適化されたモデルが続々と登場しています。

Nvidia、LLMメモリを20分の1に圧縮する新技術KVTCを発表

KVTCの技術概要

JPEG由来の変換符号化を応用
PCAでKVキャッシュの冗長性を除去
動的計画法で次元別にビット配分を最適化
GPUでエントロピー符号化を並列実行

性能と導入効果

20倍圧縮で精度低下1%未満
最初のトークン生成を最大8倍高速化
モデル重み変更不要で既存環境に導入可能

適用と今後の展望

長文脈・マルチターン用途に最適
vLLM互換のDynamoフレームワークに統合予定

Nvidiaの研究チームは、大規模言語モデルの会話履歴管理に必要なメモリを最大20分の1に圧縮する新技術「KVTC(KV Cache Transform Coding)」を発表しました。モデルの重みを一切変更せずに適用でき、最初のトークン生成までの遅延も最大8倍短縮されます。

LLMがマルチターン会話を処理する際、過去のトークンの数値表現を保持するKVキャッシュが不可欠ですが、長文脈タスクでは数ギガバイトに膨張します。これがGPUメモリを圧迫し、同時ユーザー数やレイテンシの深刻なボトルネックとなっていました。

KVTCはJPEGなどのメディア圧縮で実績のある変換符号化の手法をAIに応用しています。まず主成分分析(PCA)でKVキャッシュの特徴量を重要度順に整列し、動的計画法で各次元に最適なビット数を割り当てた後、NvidianvCOMPライブラリを用いてGPU上で高速にエントロピー符号化を実行します。

Llama 3やQwen 2.5など1.5Bから70Bパラメータの多様なモデルで検証した結果、20倍圧縮時でも精度低下は1ポイント未満にとどまりました。一方、既存手法のKIVIやGEARは5倍圧縮で大幅な精度劣化が発生し、KVTCの優位性が明確に示されています。

NvidiaAdrian Lancucki氏は、コーディングアシスタントエージェント推論ワークフロー、反復的RAGが理想的な適用先と述べています。今後KVTCはDynamoフレームワークのKV Block Managerに統合され、vLLMなど主要な推論エンジンとの互換性が確保される予定です。

Z.ai、エージェント特化の非公開モデルGLM-5 Turboを投入

モデルの特徴と価格

エージェント向け高速推論に最適化
入力$0.96・出力$3.20の低価格設定
約20万トークンの長文脈対応
ツール呼出エラー率0.67%と低水準

戦略的意味合い

オープンソース路線からの転換信号
中国AI各社が商用優先へ傾斜
米国大手と同様のハイブリッド戦略
企業向けコーディングサービスにも搭載

中国AIスタートアップZ.aiは、オープンソースのGLM-5をベースにしたプロプライエタリ版「GLM-5 Turbo」を発表しました。エージェント駆動型ワークフロー向けに最適化された同モデルは、OpenRouterのAPIを通じて即日利用可能です。

価格は入力100万トークンあたり0.96ドル、出力100万トークンあたり3.20ドルに設定されています。前身モデルより合計コストで約0.04ドル安く、Claude Haiku 4.5やGemini 3 Flashなど競合モデルと比較しても競争力のある水準です。

技術面では、複雑な指示の分解・ツール呼び出しスケジュール実行・長時間タスクの安定性が改善されています。OpenRouterのデータによると、ツール呼出エラー率はわずか0.67%で、GLM-5の各プロバイダー(2.33〜6.41%)を大きく下回ります。

注目すべきはライセンス戦略の変化です。Z.aiはGLM-5 Turbo自体の公開は明言せず、得られた知見を次期オープンソースモデルに反映するとしています。これはAlibaba Qwen部門の幹部離脱や組織再編と合わせ、中国AI業界全体の商用化シフトを示唆しています。

この動きは、OpenAIAnthropicGoogleが採用する「オープンで普及、プロプライエタリで収益化」という米国型ハイブリッド戦略と酷似しています。エージェントプラットフォームを検討する開発者にとって、GLM-5 Turboは製品であると同時に、中国AI市場の構造変化を読み解く重要なシグナルです。

FriendliAI、遊休GPUで推論実行し収益化する新基盤を発表

InferenceSenseの仕組み

遊休GPU推論ワークロード実行
Kubernetes上で自動検知・即時返却
オペレーター優先のスケジューリング
初期費用・最低契約なしの収益分配モデル

技術的優位性

vLLM基盤の連続バッチング技術
C++実装で標準比2〜3倍のスループット
DeepSeekQwen主要OSSモデル対応
スポット市場との差別化はトークン単位収益化

FriendliAIは、GPUクラスターの遊休時間を推論ワークロードで収益化する新プラットフォーム「InferenceSense」を発表しました。ネオクラウド事業者の未使用GPU推論を実行し、トークン収益を分配する仕組みです。

同社の創業者Byung-Gon Chun氏は、ソウル大学で機械学習の効率的実行を研究し、連続バッチング技術を提案した論文「Orca」の著者です。この技術はオープンソース推論エンジンvLLMの中核として業界標準となっています。

InferenceSenseはKubernetes上で動作し、オペレーターが指定したGPUプールの遊休状態を自動検知します。未使用時に推論コンテナを起動し、オペレーターのジョブが必要になれば数秒以内GPUを返却する設計です。需要は直接クライアントやOpenRouter等の推論アグリゲーターから集約されます。

従来のスポットGPU市場がクラウド事業者による生の計算資源の貸し出しであるのに対し、InferenceSenseはトークンスループットで収益化する点が異なります。FriendliAIのエンジンはC++で記述され、独自GPUカーネルを使用することで標準的なvLLMの2〜3倍のスループットを実現するとしています。

AIエンジニアにとっての注目点は、ネオクラウドが遊休容量を推論で収益化できれば、API価格の引き下げ圧力が生まれる可能性がある点です。Chun氏は「より効率的な供給者が増えれば全体コストは下がる」と述べ、DeepSeekQwen等のモデルの低価格化に貢献する意向を示しました。

NVIDIAジェットソンがエッジAIの新標準に、重機から家庭まで展開

エッジ推論の実用例

キャタピラー重機に音声AIアシスタント搭載
クラウド不要のローカル推論を実現
Jetson Thorがリアルタイム処理を担保
ロボット・スマートホームにも展開

対応オープンモデル群

GemmaMistralQwen主要モデルに対応
GR00T N1.6でロボット動作を自律制御
vLLMで最大273トークン/秒を達成
2B〜30Bパラメータを柔軟に切り替え

NVIDIAは2026年のCESにおいて、エッジAIプラットフォーム「Jetson Thor」上でキャタピラーの小型油圧ショベル向け音声AIアシスタントのデモを公開した。Qwen3 4BモデルをvLLC経由でローカル動作させ、クラウド接続なしで低遅延な自然言語応答を実現している。

従来のオープンモデルはデータセンターで運用されてきたが、クラウド依存はレイテンシとコストの課題を抱える。Jetsonはシステムオンモジュールにコンピュートとメモリを統合し、メモリ不足による調達難を解消しながら、産業機器向けに安定したエッジ推論環境を提供する。

ロボティクス分野ではFranka RoboticsのFR3 DuoがオンボードでGR00T N1.6モデルを実行し、タスクスクリプト不要で知覚から動作まで完結させた。NYU・UIUCなどの研究機関もJetson Thor上でヒューマノイド制御や抹茶製造ロボットの開発に成功している。

個人開発者レベルでも活用が広がっており、Hugging FaceのAndré Marafiotiはエージェント型AIシステムをJetson AGX Orin上で構築し、タスク自律スケジューリングを実現した。CollabnixのAjeet Singh RainaはOpenClawをJetson Thor上で24時間稼働させ、メール・カレンダー管理を自動化している。

Jetson Thorは現在、Gemma 3・Mistral 3・Qwen 3.5・gpt-oss-20B・NVIDIA Cosmosなど主要オープンモデルを広くサポートしており、開発者はvLLM・Ollamallama.cppなど多様なフレームワークを選択できる。GTC 2026では産業自律化の未来をテーマにした展示も予定されている。

Hugging FaceがUlyssesシーケンス並列でミリオントークン学習を実現

技術の仕組み

アテンションヘッドを複数GPUに分散
All-to-All通信で通信量を1/Nに削減
Ring Attentionより低レイテンシで効率的
FlashAttention 2/3と完全互換

エコシステム統合

AccelerateでParallelismConfig設定のみ
Transformers Trainerが損失集計を自動処理
TRL SFTTrainerでSFT最適化に対応
Liger-Kernelと組み合わせてメモリ節約

ベンチマーク結果

96Kトークンを4枚のH100で学習可能
64K時にスループットが3.7倍向上
8K時はDP=4と同等メモリ消費

Hugging Faceは2026年3月、Snowflake AI Researchが開発したArctic Long Sequence Training (ALST)プロトコルの一部であるUlyssesシーケンス並列(SP)をAccelerate・Transformers Trainer・TRL SFTTrainerに統合したことを発表した。

Ulyssesは、トランスフォーマーのアテンション機構が系列長の2乗でメモリ・計算量が増大する課題を解決する手法で、系列をGPU間で分割したうえでアテンションヘッドも並列化し、All-to-All通信を1アテンション層あたり2回行うことで通信量をO(S×H/N)に抑えている。

Ring Attentionと比較すると、Ulyssesの通信量はGPUあたりRing Attentionの1/N倍で済み、全帯域幅を1ステップで活用できるAll-to-All集合通信により低レイテンシを実現している。ただし、ヘッド数がsp_size以上である必要があるという制約がある。

ベンチマークではQwen3-4BをH100 80GB×4枚で学習し、SP=4の構成で最大96Kトークン(66GB)まで安定して学習できることを確認した。64Kトークン時のスループットは1GPU比で3.7倍の13,396トークン/秒を記録し、通信オーバーヘッドは最小限であることが示された。

利用にはdeepspeed>=0.18.1・accelerate>=1.12が必要で、HopperアーキテクチャにはFlashAttention 3、BlackwellにはFlashAttention 4(リリース待ち)の使用が推奨されている。ZeRO Stage 3やLiger-Kernelとの組み合わせでさらなるメモリ削減も可能だ。

MIT発、LLMメモリを50分の1に圧縮する新手法が登場

KVキャッシュの課題

KVキャッシュが長文処理の最大障壁
従来の圧縮は高圧縮率で精度急落
テキスト要約は重要情報を喪失
勾配ベース手法は数時間のGPU計算が必要

Attention Matchingの革新

50倍圧縮でも精度維持を実現
代数的手法で数秒の高速処理
参照クエリで圧縮品質を担保
オープンウェイトモデルが利用条件

MITの研究チームが、大規模言語モデル(LLM)の推論時メモリであるKVキャッシュを最大50分の1に圧縮する新手法「Attention Matching」を発表しました。精度をほぼ維持したまま数秒で処理が完了する点が最大の特徴です。

LLMはトークンを逐次生成する際、過去の全トークンのキー・バリュー対をKVキャッシュに保持します。長文の法務文書分析や自律型コーディングエージェントなどの企業用途では、1リクエストで数GBに膨張し、同時処理数やバッチサイズを大幅に制限する深刻なボトルネックとなっていました。

従来の対処法には、重要度の低いトークンの削除やトークン統合がありますが、高圧縮率では精度が急激に低下します。テキスト要約による代替も、医療記録のような情報密度の高い文書ではコンテキストなしと同等の精度まで劣化することが実験で確認されました。勾配ベースの「Cartridges」手法は高品質ですが、1コンテキストの圧縮に数時間を要し実用性に欠けていました。

Attention Matchingは、圧縮後のメモリが元のメモリと同じ「注意出力」と「注意質量」を再現するよう設計されています。事前に生成した参照クエリを用いて保持すべきキーを選択し、通常最小二乗法などの代数的手法で値を算出します。勾配降下を完全に回避することで、処理速度が桁違いに高速化されました。チャンク単位の分割処理により長文への対応も実現しています。

Llama 3.1やQwen-3を用いた実験では、読解ベンチマーク「QuALITY」と6万トークンの医療記録データセット「LongHealth」の両方で有効性が確認されました。テキスト要約との組み合わせでは200倍圧縮も達成しています。数学推論テスト「AIME」では、メモリ上限に達するたびに50%圧縮を最大6回繰り返しても、無制限メモリと同等の性能を維持しました。

ただし、この手法の導入にはモデルの重みへのアクセスが必要であり、クローズドAPIのみを利用する企業は自社実装ができません。また、既存の推論エンジンへの統合にはプレフィックスキャッシュや可変長メモリパッキングとの調整が必要です。研究チームはコードを公開済みで、大規模なツール出力や長文文書の取り込み直後の圧縮が有望なユースケースだと述べています。

Microsoft、150億パラメータの視覚推論モデルPhi-4をオープン公開

モデルの特徴と性能

150億パラメータの軽量マルチモーダルモデル
競合比5分の1のデータ量で訓練
数学・科学推論GUI操作に特化
精度と推論速度のパレート最適を実現

推論の選択的制御

思考・非思考の混合モード搭載
画像認識は直接応答で低遅延実現
数学問題は段階的推論で精度向上
ユーザーがモード手動切替も可能

公開とエコシステム展開

HuggingFaceGitHub重み公開
Phiファミリーがロボティクス領域にも拡大

Microsoft Researchは、150億パラメータのオープンウェイト・マルチモーダル推論モデルPhi-4-reasoning-vision-15B」を公開しました。テキストと画像の両方を処理し、数学・科学の推論、チャート読解、GUI操作など幅広いタスクに対応します。

最大の特徴は訓練効率の高さです。約2000億トークンのマルチモーダルデータで訓練されており、QwenGemma3など競合モデルが1兆トークン以上を使用するのに対し、およそ5分の1のデータ量にとどまります。その秘訣はオープンソースデータの徹底的なフィルタリングと品質改善にあります。

技術的に注目すべきは「混合推論」アプローチです。訓練データの約20%に思考過程を含む推論サンプルを、80%に直接応答のサンプルを使用し、モデルがタスクに応じて推論の要否を自動判断する仕組みを実現しました。画像キャプションでは即座に応答し、数学では段階的に思考します。

ベンチマーク評価では、ChartQAで83.3、MathVistaで75.2、ScreenSpot v2で88.2のスコアを記録しました。大型モデルのQwen3-VL-32Bには及ばないものの、同規模モデルを上回り、推論速度と精度のバランスでパレート最前線に位置しています。

Microsoftは本モデルをMIT許容ライセンスで公開し、ファインチューニングコードや評価ログも提供しています。Phiファミリーはエッジデバイス向けのPhi Silicaロボティクス向けのRho-alphaにも拡大しており、「最も賢いモデルは最大のモデルではなく、いつ考えるべきか知っているモデルだ」という戦略を鮮明にしています。

Alibaba Qwen技術リーダー林氏が突然退任、チーム再編へ

主要メンバーの相次ぐ離脱

林駿洋氏Qwen技術リーダーを退任
研究員Hui氏やインターンも同時離脱
Qwen3.5小型モデル発表の翌日の退任
同僚が「本人の意思ではない」と示唆

Alibabaの組織再編と戦略転換

Google DeepMind出身の周昊氏が後任に
CEOが基盤モデルタスクフォース設立を発表
垂直統合型R&D;から水平分業型へ転換
オープンソース戦略の継続を表明

オープンソースAIへの影響

Qwenモデルの累計6億DL超の実績
9万社超の企業導入への信頼性懸念
将来モデルの有料API限定化の可能性
中国発オープンソースAIの転換点

AlibabaのAIモデルQwenの技術リーダーである林駿洋(ジャスティン・リン)氏が2026年3月上旬に退任を発表しました。退任はQwen3.5小型モデルシリーズの発表からわずか1日後のことで、同僚の研究員やインターンも相次いで離脱しています。

林氏はXに「me stepping down. bye my beloved qwen」と短い投稿を残しました。同僚の陳成氏は「辞めるのは本人の選択ではなかった」と示唆し、チーム内外に衝撃が広がっています。Hugging FaceのAPACエコシステム責任者も「計り知れない損失」と評しました。

Alibaba CEOのエディ・ウー氏は社内書簡で林氏の貢献に感謝を示すとともに、自身を含む基盤モデルタスクフォースの設立を発表しました。オープンソースモデル戦略の継続とAI研究開発への投資拡大を約束しています。

背景には組織方針の対立があるとされます。林氏が推進した垂直統合型の自律的チーム運営に対し、経営側は数百人規模のプロジェクトを「一人の頭脳」で管理することへの限界を指摘しました。Google DeepMind Geminiチーム出身の周昊氏が後任に就任し、研究重視から指標重視への転換が進む見通しです。

Qwenモデルは累計6億ダウンロードを超え、9万社以上の企業が導入する中国最大級のオープンウェイトAIです。業界では今後のモデルが有料APIに限定される可能性が指摘されており、オープンソースAIコミュニティにとって大きな転換点となっています。

Alibaba「Qwen3.5」小型モデル群公開、9Bで120B超え性能

小型で大型超えの性能

9BOpenAI 120Bを上回る推論性能
ノートPC上でローカル実行可能
Apache 2.0で商用利用も無償

技術革新と実用性

ハイブリッドアーキテクチャで高効率化
ネイティブマルチモーダル対応
0.8B〜9Bの4モデル構成

企業への影響

エッジ推論クラウドAPI不要に
文書解析・コード生成など業務自動化に対応

Alibaba傘下のQwenチームは2026年3月、小型オープンソースモデルQwen3.5 Small Model Series」を公開しました。0.8B、2B、4B、9Bの4モデルで構成され、Apache 2.0ライセンスのもとHugging FaceとModelScopeで即日提供が開始されています。

最大の注目点はQwen3.5-9Bの性能です。GPQAベンチマークで81.7を記録し、13.5倍の規模を持つOpenAIgpt-oss-120B(80.1)を上回りました。MMMU-Proでも70.1を達成し、Gemini 2.5 Flash-Liteの59.7を大幅に超えています。

技術面では従来のTransformerアーキテクチャから脱却し、Gated Delta NetworksとスパースMixture-of-Expertsを組み合わせたハイブリッド構造を採用しています。これにより推論時のスループット向上と低レイテンシを実現し、小型モデルの「メモリの壁」問題を解消しています。

開発者コミュニティからは強い関心が寄せられています。「M1 MacBook Airで無料で動く」との報告や、ブラウザ上での動画解析が可能との検証結果が共有されました。Baseモデルも同時公開され、企業独自のファインチューニングが容易になった点も高く評価されています。

企業活用の観点では、エッジデバイス上でのUI自動操作、文書解析、コードリファクタリング、モバイルでのオフライン動画要約など幅広い用途が想定されます。クラウドAPIへの依存を減らしコスト削減データ主権の確保を両立できる点が、企業導入の大きな推進力となりそうです。

Qwen3.5がSonnet 4.5に迫る性能達成

Qwen3.5の性能

Claude Sonnet 4.5に匹敵する性能を達成
ローカルPCでのエージェント推論が可能
ツール呼び出し機能を完全サポート

オープンソースの競争力

Alibaba Qwenチームの急速な技術進歩
フロンティアモデルへのオープンソース対抗が加速
ローカル実行によるプライバシーと低コストを実現

AlibabaのQwen開発チームQwen3.5 Mediumモデルシリーズを公開しました。このモデルはローカルPCで動作しながらClaude Sonnet 4.5に近い性能を発揮するという驚異的な効率性を示しています。

エージェント向けのツール呼び出し機能を完全サポートしており、プロプライエタリモデルへの代替として実用的な水準に達しています。クラウド依存なしにローカルでフロンティア級の推論が可能になることは、プライバシーを重視する企業に特に価値があります。

オープンソースモデルのフロンティアモデルへのキャッチアップが急速に進んでおり、オープン対プロプライエタリの競争構図が根本から変わりつつあります。

Qwen 3.5が超大規模モデルを圧倒する効率性

小さくて強いモデルの台頭

兆パラメータ超えモデルに勝る
コストは大幅に安価
オープンQwen 3.5の実力

Alibabaが公開したQwen 3.5は、1兆パラメータを超える巨大モデルと比較しても同等以上の性能を示しており、大規模モデルが必ずしも高性能であるという常識を覆しています。

コスト効率の高さから、エンタープライズでの実運用における費用対効果が期待されます。中国のAI技術力の台頭を改めて示す結果となっています。

Qwen 3.5はオープンウェイトモデルとして公開されており、日本企業を含む世界中の開発者ファインチューニングに活用可能です。

Qwen 3.5 PlusがVercel AI Gatewayで提供開始、100万トークン対応

モデル性能の特徴

100万トークンコンテキストウィンドウ
アダプティブツール使用を内蔵
エージェントマルチモーダルタスク対応
Web開発・フロントエンドに最適化

開発者体験

Vercel AI Gatewayで即時利用可能
One APIで複数モデルへのアクセス
ウェブ開発者の選択肢が拡大
オープンソース系モデルの商用力向上

AlibabaのQwen 3.5 PlusVercelのAI Gatewayで提供開始されました。100万トークンのコンテキストウィンドウと内蔵のアダプティブツール使用機能を持ち、エージェントワークフロー、思考、検索、マルチモーダルコンテキストでのツール使用に優れています。

Vercel AI Gatewayは開発者が単一のAPIエンドポイントから複数のAIモデルにアクセスできる基盤です。Qwen 3.5 Plusの追加により、中国発の高性能モデルVercelエコシステムで直接利用できるようになりました。

アダプティブツール使用はモデルが状況に応じて自動的に適切なツールを選択・使用する機能であり、エージェント型アプリケーションの開発効率を大幅に高めます。

Qwen系モデルは中国のAlibabaが開発しており、オープンソースとして公開されているバージョンもあります。商用利用向けのQwen 3.5 Plusの主要プラットフォームへの展開は、グローバルLLM市場でのQwen存在感を高めます。

Web開発・フロントエンドタスクでの最適化という定位置は、Next.js・Reactエコシステムを中心とするVercelのユーザー層との相性が良く、実用的なユースケースに直結した展開です。

DeepSeekからAI+へ:グローバルオープンソースAIエコシステムの未来を分析

現状分析

DeepSeekが変えたAI地政学
中国オープンソースコミュニティの台頭
AI+時代の到来

将来の方向性

オープンソース多極化の加速
産業応用への統合
グローバル協調の可能性

H Companyのブログシリーズの最終回として、DeepSeekの登場が引き起こしたグローバルオープンソースAIエコシステムの変化と、「AI+」時代への移行について分析しています。

DeepSeekが示したのは、中国のAI研究コミュニティが米国主導の閉鎖的なフロンティアモデルに対抗できる強力なオープンソースモデルを開発できるという事実です。これが業界の前提を覆しました。

AI+時代とは、AIが単独のアプリケーションではなく、産業・教育・医療インフラなどあらゆる社会システムに深く統合される段階を指しています。

QwenLlamaMistralなど多様なオープンソースモデルの競争は、特定のプロバイダーへの依存リスクを分散し、AIの民主的な発展を促すという意義があります。

グローバルなオープンソースAIエコシステムの健全な発展は、個人・企業・国家が自律的にAIを活用できる未来を実現する基盤となります。

AlibabaのQwen3-Coder-Nextがバイブコーダー向けの強力なオープンソースモデルに

モデルの特徴

超スパースアーキテクチャ採用
オープンソースで無料利用可能

競争への影響

Claude CodeCodexへの対抗
中国AIオープンソースの躍進
開発者コスト削減効果

アリババのQwenチームは、バイブコーディングユーザー向けに最適化されたオープンソースの超スパースモデル「Qwen3-Coder-Next」を公開しました。高い性能と低い計算コストを両立する超スパースアーキテクチャが特徴です。

超スパースモデルは、活性化されるパラメータが全体の一部に限られるため、同等性能のデンスモデルより低コスト・低レイテンシーで動作し、ローカル実行も現実的になります。

Claude CodeOpenAI CodexGitHub Copilotなど有料コーディングAIに対し、高品質なオープンソース代替を提供することは、コスト重視の開発者や企業への強い訴求力を持ちます。

Qwen3の一連のリリースは、中国のAI研究コミュニティがグローバルなオープンソースAIリーダーとして台頭していることを改めて示しています。

開発者にとってQwen3-Coder-Nextは実用的な選択肢であり、コーディングAIの競争激化がすべての開発者に恩恵をもたらします。

VercelがClaude Code Max対応やKimi K2.5など複数のAI Gatewayアップデートを発表

新機能一覧

Claude Code MaxがAI Gatewayで利用可能
Kimi K2.5とQwen3-Maxが追加
Trinity Large Previewの公開
リアルタイムモデル性能指標
スキルv1.1.1リリース

開発者エコシステム

インタラクティブ発見機能の強化
エージェントサポートの拡充
オープンソース公開

VercelはAI Gatewayに複数の重要なアップデートを加えました。Claude Code Maxの対応、Kimi K2.5とQwen3-Maxの追加が含まれます。

スキルv1.1.1ではインタラクティブな発見機能とエージェントサポートが強化され、オープンソースとして公開されました。開発者エコシステムの拡大が続いています。

Qwen3-MaxがHumanity's Last Examで首位、AI Gatewayでも利用可能に

ベンチマーク結果

Humanity's Last Examで首位
Gemini 3 ProとGPT-5.2を上回る
思考推論モードの威力

利用可能性

Vercel AI Gatewayで即時利用可能
思考モデルの実用性証明
オープンソースモデルの台頭

Alibaba CloudのQwen3-Max ThinkingモデルがHumanity's Last Examベンチマークでトップスコアを記録し、Gemini 3 ProやGPT-5.2を超えました。

このモデルはVercel AI Gatewayを通じて即座に利用でき、思考推論(Thinking)機能が複雑な問題解決において大きな効果を発揮することが示されました。

MiroMind MiroThinker 1.5が兆パラメータ級性能を効率的に実現

MiroThinker 1.5の技術的革新

兆パラメータ相当の性能を小型モデルで実現
推論時の計算効率を大幅に向上させた設計
エンタープライズ向けの専門タスクで高精度
コスト効率の高いAI推論を低資本で提供
オープンソース路線で開発者への採用を促進
複雑なビジネスロジックへの適応性が高い

スモールエコシステムへの影響

大手モデルへのコスト対抗手段として注目
独立系AI企業の競争力を高める可能性
専門領域に特化した中規模モデルの価値が再評価
APIコスト削減で中小企業AI活用が促進
医療・法務・金融などの垂直市場に適する
モデル効率化トレンドの加速を示す先行事例

MiroMindが発表したMiroThinker 1.5は、兆パラメータ規模の大型モデルに匹敵する性能を、はるかに少ないパラメータ数で実現するとされる新しいAIモデルです。効率的なアーキテクチャ設計と推論最適化によって、エンタープライズ向けの高精度なタスク処理を低コストで提供します。

従来は巨大モデルを使わなければ実現できなかった複雑な推論タスクを、中規模モデルで処理できるようになることで、APIコストの大幅な削減と環境負荷の低減が期待されます。オープンソース路線を採用することで、開発者コミュニティによる採用と改善も促進されます。

DeepSeekQwenなど効率性を重視した中国発モデルの台頭と合わせて、「大きければ良い」というAI開発の常識が変わりつつあります。MiroThinker 1.5は独立系AI企業が資本力で劣りながらも競争力を持てることを示す好例です。

Qwen-Image-2512、Nano Banana Proに対抗するOSS画像生成の本命に

Qwen-Image-2512の実力

Google Nano Banana Proに対抗できる品質
オープンソースで自由に利用・改変が可能
テキストと画像統合理解能力が高評価
Gemini 3 Proベースのプロプライエタリ製品に迫る
Fal版Flux 2と並ぶ年末の重要リリース
研究者・開発者コミュニティから高い評価

オープンソース画像生成の意義

プロプライエタリ一強体制に対抗軸が登場
商用利用の自由度が採用を後押し
Googleへの依存なしに高品質生成が可能に
ファインチューニングで独自モデル作成が容易
コスト面でもクラウドAPI不要で大幅削減
中国AI研究の実力を世界に示す一手

アリババが開発したQwen-Image-2512がリリースされ、GoogleNano Banana Pro(Gemini 3 Pro Imageベース)に対抗できる品質をオープンソースで提供するモデルとして注目を集めています。

Nano Banana Proは11月のリリース後、画像生成AIの基準を大幅に引き上げたと評価されていました。Qwenチームはこれを受けて独自の画像・テキスト統合モデルを開発し、推論能力と画像品質の両立で高い評価を得ています。オープンソースであることが最大の差別化です。

商用利用の自由度と自由なカスタマイズ性は、特にスタートアップや研究機関にとって大きな利点です。Googleに料金を支払うことなく同等品質の画像生成APIを構築できることは、エコシステム全体の民主化を促します。

2025年末時点で画像生成AI市場は三つ巴になりました。Google Nano Banana Pro、Fal最適化Flux 2、そしてQwen-Image-2512——それぞれが異なる価値提案を持つ健全な競争環境が整いつつあります。中国発オープンソースの存在感は2026年さらに高まるでしょう。

Fal、独自Flux 2モデル公開——高速・低コスト画像生成を実現

独自モデルの特徴と優位性

Flux 2をベースにFalが独自最適化を実施
推論速度と生成コストを大幅に改善
シリーズDで1.4億ドルを調達した直後に投入
Sequoia・Kleiner Perkinsが出資する注目株
NVIDIAベンチャーも投資家に名を連ねる
Black Forest Labs開発Fluxの最新バージョン活用

市場競争での位置付け

Google Nano BananaQwenと三つ巴の争いに
推論API市場での差別化戦略
開発者向け低レイテンシAPIとして展開
クリエイター向けの高品質生成に対応
価格競争力でエンタープライズ需要を開拓
年末の画像生成AI競争を象徴する一手

AIインフラスタートアップのFal.aiが独自最適化したFlux 2ベースの画像生成モデルを公開しました。1.4億ドルのシリーズD調達直後のタイミングでの投入で、市場への本気度を示しています。

Falのアプローチは単なるモデル再配布ではなく、推論スタック全体を最適化して速度とコストを改善する点にあります。Sequoia Capital、Kleiner Perkins、そしてNVIDIAのベンチャー部門が出資しており、技術力への評価の高さがうかがえます。

2025年末の画像生成AI市場はGoogle Nano Banana Pro、中国Qwen-Image、そしてFal版Flux 2が揃い踏みとなり、多極化競争の様相を呈しています。特に推論APIコストの低下は、中小クリエイター開発者にとって追い風です。

Black Forest Labsが開発するFluxシリーズは高品質な画像生成で定評があり、Falによる最適化でよりアクセスしやすくなります。2026年は画像生成AIの商用化競争がさらに激化する見通しです。

GPT-5よりQwen——中国AI競争が本格化

Qwenの台頭と実力

杭州Rokidのスマートグラスがリアルタイム多言語翻訳を実現
Qwen中国語NLPで圧倒的な強みを持つ
アリババ発のオープンソース戦略が差別化
GPT-5に匹敵または超える評価が広がる
ローカル言語特化でグローバル勢に優位性
コスト効率でも西側モデルを大幅に下回る

中国AI産業の現状

規制の壁を越えた革新が続いている
ハードウェア制裁を迂回した独自発展
ロボットスマートグラスでの実用化が進む
政府支援による大規模な研究投資
西側では見えにくい中国AI生態系の実力
2026年はグローバル競争が一層激化する見通し

杭州で取材したWIREDの記者は、Rokidのスマートグラス中国語→英語のリアルタイム翻訳を完璧にこなす場面に立ち会いました。背後にあるのはアリババが開発した大規模言語モデル「Qwen」です。

Qwenはオープンソースで公開され、中国語テキスト処理においてGPT-4Claudeと肩を並べるか上回る評価を受けています。アリババはハードウェア制裁にもかかわらず、ソフトウェア競争力で着実に地位を確立しています。

中国のAI産業は政府の大規模支援を背景に、スマートグラスロボティクス、自動運転など実世界への応用で急速に進化しています。GPT-5登場前後から「中国製モデルで十分」という声が増えており、競争軸が変わりつつあります。

米中AI競争は2026年にさらに激化する見通しです。Qwenのようなオープンソースモデルが無料で利用できる環境は、特にアジア太平洋地域でOpenAI依存からの脱却を加速させる可能性があります。

Ai2、強化学習を延長したOLMo 3.1を公開

OLMo 3.1の概要と強化学習の延長

Ai2がOLMo 3.1をリリース、OLMo 3の後継として公開
OLMo 3.1 Think 32BとInstruct 32Bの2モデルを更新
Think 32Bは追加21日・224GPU規模でRLトレーニングを延長
AIMEで5点超、ZebraLogicで4点超など主要ベンチマークが大幅改善
Instruct 32Bは7Bモデルのレシピを32Bに適用して開発
現在はAi2 PlaygroundとHugging Faceで利用可能、API提供も予定

ベンチマーク性能とオープンソースへの取り組み

OLMo 3.1 ThinkはAIME 2025でQwen 3 32Bを上回る性能を記録
OLMo 3.1 InstructはGemma 3を上回る数学ベンチマーク結果を達成
32Bスケールのオープン命令調整モデルとして最高水準と主張
RL-Zero 7Bの数学コーディングモデルも長期安定学習で更新
データ・コード・学習決定の完全な透明性を維持する方針を継続
OLMoTraceによる学習データ追跡ツールも引き続き提供

アレン人工知能研究所(Ai2)は、オープンソース言語モデルファミリー「OLMo 3」のアップデート版となる「OLMo 3.1」を公開しました。前バージョンのリリース後も強化学習(RL)トレーニングを継続し、さらなる性能向上を実現しています。

OLMo 3.1 Think 32Bは、OLMo 3 Think 32BのRLトレーニングを追加21日間、224個のGPUを用いて延長することで開発されました。数学推論・命令追従の各ベンチマークで大幅な改善が確認されています。

具体的な改善幅としては、AIMEで5点超、ZebraLogicで4点超、IFEvalで4点超、IFBenchで20点超の向上が報告されています。コーディングや複雑な多段階タスクの性能も向上しています。

OLMo 3.1 Instruct 32Bは、より小規模な7Bモデル向けの手法を大規模化することで構築されました。チャット、ツール利用、マルチターン対話に最適化された設計になっています。

ベンチマーク比較では、OLMo 3.1 ThinkがAIME 2025においてQwen 3 32Bを上回り、Gemma 27Bに近い性能を示しました。OLMo 3.1 InstructはGemma 3を数学ベンチマークで超えたとされています。

Ai2はデータ・コード・学習プロセスの完全な透明性を重視しており、企業や研究機関がモデルのデータ構成を把握・変更できる点を強調しています。OLMoTraceツールによるLLM出力と学習データの追跡機能も提供が続いています。

モデルはAi2 PlaygroundおよびHugging Faceで即時利用可能であり、API経由のアクセスも近日中に提供予定とされています。また、数学コーディング向けのRL-Zero 7Bモデルも今回の更新で改善されています。

NeurIPS2025:強化学習への回帰とGoogleの復権

技術トレンドの転換点

スケーリングから強化学習(RL)
特定用途へのモデル調整が加速
継続学習や世界モデルが新潮流

激変する企業勢力図

中国や新興ラボが急速に台頭
物理AIロボティクスの実用化

2025年12月、サンディエゴで開催された世界最大級のAI国際会議「NeurIPS」にて、業界の潮流が決定的な転換点を迎えました。これまでのデータ量を追求する競争から、強化学習(RL)や推論能力の深化を目指す「研究の時代」へと、開発の主戦場が大きく移行しています。

最大の焦点は、会場のあらゆる議論を席巻した強化学習(RL)の再流行です。単に事前学習データを増やすスケーリング則の限界が意識され始め、特定のユースケースに向けてモデルを精緻に調整するアプローチが、次なる成長のドライバーとして認知されています。

企業間の勢力図においては、Google DeepMindが圧倒的な存在感を示しました。Gemini 3の発表や最多の論文採択数を背景に、技術的なリーダーシップを取り戻しています。一方でAnthropicも勢いを維持する中、OpenAIは相対的に注目度を分け合う形となりました。

新たな技術トレンドとして、継続学習(Continual Learning)や世界モデルへの関心が急上昇しています。静的なモデルではなく、環境との相互作用を通じて学習し続けるシステムの構築が、2026年に向けた重要な研究テーマとして浮上してきました。

また、AlibabaのQwenDeepSeekといった中国、およびReflection AIなどの新興ラボが台頭しています。彼らは既存の大手ラボとは異なるアプローチで成果を上げており、AI開発の多極化が進んでいることを印象づけました。

実用面では、デジタル空間を超えた物理AI(Physical AI)ロボティクスへの応用が加速しています。エージェントAIを単なるモデルではなく「スタック」として捉え、実社会の複雑な課題解決に直結させる動きが、エンジニアたちの関心を集めています。

Nvidia、8Bの小型AIで巨大モデル凌ぐ効率と精度実現

巨大モデル依存からの脱却

単一モデルではなく複合システムへ移行
80億パラの軽量モデルが指揮役を担当
専門ツールや他LLMを適材適所で活用

低コストで高精度と柔軟性を実現

強化学習でコストと精度を最適化
博士級試験で巨大モデルを上回る成果
ユーザーの好みや制約に柔軟に対応
企業向けAIエージェント実用化を加速

Nvidiaと香港大学の研究チームは、80億パラメータの小型AIモデル「Orchestrator」を発表しました。強化学習を用いて他のツールやAIモデルを指揮・管理し、単一の巨大モデルよりも低コストかつ高精度に複雑な課題を解決します。

従来は一つの巨大な汎用モデルにあらゆる処理を依存していましたが、本手法は軽量な指揮者検索エンジンやコード解析、他のAIモデルへ処理を委譲します。人間が専門家や道具を使い分けるように、適材適所でツールを活用しシステム全体の効率を高めました。

Qwen3-8B」を基盤に強化学習を行った結果、博士号レベルの難問を含むテストでも巨大モデルを凌ぐ成果を出しました。GPT-5のような高価なモデルの利用を約4割に抑え、安価なツールと組み合わせることで、計算コストを劇的に削減しています。

企業導入における最大の利点は、コスト対効果と高い制御性です。「オープンソースモデルを優先する」といったユーザーの指定条件に従ってツールを選択できるため、予算やプライバシー要件に応じた柔軟な運用が可能となります。

この複合的なアプローチは、より高度で拡張性のあるAIシステムへの道を開くものです。現在、モデルの重みは非商用ライセンスですが、トレーニングコードはApache 2.0で公開されており、次世代のエージェント開発における重要な基盤となるでしょう。

2025年AI総括:GPT-5実用化と中国・小型モデルの台頭

OpenAIの進化と実用化加速

GPT-5と5.1が始動、ZenDeskで解決率9割事例も
Sora 2やブラウザAtlas、OSSモデルも全方位展開
コーディング特化モデルで長時間タスクが可能に

中国勢と多様なモデルの台頭

DeepSeekQwen3など中国OSSが世界を席巻
Google Gemma 3など超小型モデルが実用段階へ
Gemini 3やClaude Opus 4.5で競争激化

2025年11月、米VentureBeatは今年のAI業界を振り返る総括記事を公開しました。2025年は、特定の最強モデル一強ではなく、オープンソースや中国勢、エッジ向け小型モデルを含めた「エコシステムの多様化」が決定的となった年です。経営者エンジニアにとって、用途に応じて最適なAIを選択できる環境が整ったことが、今年最大の収穫と言えるでしょう。

OpenAIは待望のGPT-5およびGPT-5.1をリリースし、市場を牽引し続けました。初期の反応は賛否両論ありましたが、改良を経てZenDeskなどの企業導入が進み、顧客対応の自動解決率が80〜90%に達する事例も報告されています。さらに、動画生成AI「Sora 2」やブラウザ統合型「Atlas」、そして意外にもオープンウェイトモデルの公開など、全方位での攻勢を強めています。

特筆すべきは中国発のオープンソースモデルの躍進です。DeepSeek-R1やAlibabaのQwen3シリーズなどが、推論能力やコーディング性能で米国のフロンティアモデルに肉薄しています。MITなどの調査によれば、中国製モデルのダウンロード数は米国をわずかに上回る勢いを見せており、コストパフォーマンスを重視する企業にとって無視できない選択肢となりました。

「巨大化」へのカウンターとして、小型・ローカルモデルの実用性も飛躍的に向上しました。GoogleGemma 3やLiquid AIのLFM2は、パラメータ数を抑えつつ特定タスクに特化し、エッジデバイスやプライバシー重視の環境での利用を可能にしました。すべての処理を巨大クラウドAIに依存しない、分散型のAI活用が現実味を帯びています。

画像生成や競合他社の動きも活発です。MetaMidjourneyの技術ライセンスを取得し、自社SNSへの統合を進めるという驚きの戦略に出ました。一方、GoogleGemini 3に加え、ビジネス図解に強い画像生成モデル「Nano Banana Pro」を投入しています。AnthropicClaude Opus 4.5やBlack Forest LabsのFlux.2など、各領域でハイレベルな競争が続いています。

アリババがAI眼鏡参入、電池交換式で24時間稼働

AI搭載と長時間駆動の両立

独自AIモデル「Qwen」を搭載
バッテリー交換で24時間稼働
音声やタッチでの直感的操作

2つのモデルと価格設定

旗艦機S1はマイクロOLED採用
S1は537ドル、G1は268ドル
骨伝導マイクとカメラを内蔵

自社経済圏との強力な連携

AlipayやTaobaoと統合
即時翻訳や価格認識機能を提供

中国テック大手のアリババは27日、AI搭載スマートグラス「Quark」シリーズを発表し、ウェアラブル市場への参入を果たしました。最大の特徴は交換可能なバッテリーシステムを採用した点で、競合他社製品とは異なり、充電待ち時間なしで24時間の連続使用を可能にしています。

ラインナップは、マイクロOLED搭載の旗艦モデル「S1」(3,799元)と、ライフスタイル重視の「G1」(1,899元)の2種類です。いずれも同社の大規模言語モデル「Qwen」を搭載し、骨伝導マイクやカメラを通じた音声・タッチ操作に対応しています。

アリババの強みである経済圏との統合も進めており、決済アプリ「Alipay」やECサイト「Taobao」と連携します。着用者の視界にある商品の価格認識や、リアルタイム翻訳、ナビゲーション、さらには会議の自動文字起こしなど、ビジネスと日常の双方で実用的な機能を提供します。

MetaのRay-Banモデルなどが先行する市場において、アリババは「長時間稼働」と「実用機能」で差別化を図る狙いです。現在は中国国内での展開ですが、来年には海外市場向けモデルの投入も計画されており、激化するAIウェアラブル競争の一角を占めることになりそうです。

アリババ新技術、AIが自ら学習データ生成し性能3割増

独自データ作成の壁を突破

手作業によるデータ収集コストを削減
LLMが環境を探索し自律的に学習

3つの自己進化メカニズム

自己問答で多様なタスクを自動生成
自己ナビで過去の経験を再利用
各工程を詳細評価する自己帰属

実証された成果とビジネス価値

ツール操作性能が約30%向上
独自アプリへのAI導入障壁を低減

アリババのTongyi Labは、AIエージェントが自ら学習データを生成し能力を高める新フレームワーク「AgentEvolver」を開発しました。この技術は、大規模言語モデル(LLM)の推論能力を活用して自律的な学習ループを構築するもので、従来の強化学習に比べてツール操作のパフォーマンスを約30%向上させることが実証されています。企業が独自のソフトウェア環境にAIを導入する際、最大の障壁となるデータ作成コストを劇的に下げる技術として注目されます。

これまで、AIエージェントに特定のソフトウェアを操作させるには、膨大なコストがかかっていました。従来の強化学習では、人間が手作業でタスク例を作成する必要があり、特に社内専用システムなどの未知の環境では学習データそのものが存在しないことが多いためです。また、試行錯誤による学習は計算リソースを大量に消費します。「AgentEvolver」は、モデル自身に学習プロセスを委ねることで、これらのデータ不足と高コストの課題を一挙に解決しようとしています。

この自己進化プロセスの核となるのが、「自己問答(Self-questioning)」というメカニズムです。これは、AIが新しいアプリケーションを探索し、機能の境界を理解した上で、自らトレーニング用のタスクを生成する機能です。研究者はこれを「モデルをデータ消費者からデータ生産者へと変える」と表現しています。人間が事前にタスクを設計しなくとも、AIが環境に合わせて多様な課題を作り出し、それを解くことでスキルを磨いていくのです。

学習効率を高めるために、「自己ナビゲーション(Self-navigating)」と「自己帰属(Self-attributing)」という機能も組み込まれています。自己ナビゲーションは、過去の成功や失敗の経験を記憶し、存在しない機能を使おうとするなどの無駄な動作を防ぎます。一方、自己帰属は、最終的な結果だけでなく、作業の各ステップが成功にどう寄与したかをLLMが詳細に評価します。これにより、AIは単に正解するだけでなく、プロセスの正しさも学習できるようになります。

実際の性能評価でも、その効果は明らかです。Qwen2.5モデルをベースにした実験では、複雑なツール操作を要するベンチマークにおいて、従来手法と比較してスコアが平均で27.8%〜29.4%向上しました。特に、自律的に生成された多様なタスクが、モデルの推論能力と実行能力を大きく引き上げています。これは、少量のデータからでも高品質な学習が可能であることを示しており、企業にとっては専用AIアシスタント開発のハードルが大きく下がることになります。

MSのPC操作AI「Fara-7B」 端末完結でGPT-4o凌駕

端末完結でGPT-4o超え

70億パラメータの軽量モデルでPC動作
WebVoyagerで勝率73.5%を達成
視覚情報のみでマウス・キー操作

高度なプライバシーと安全設計

データが外部に出ないピクセル主権
重要操作前に停止する安全機構

革新的な学習手法と入手性

合成データによる効率的な学習
MITライセンスで商用利用も可能

マイクロソフトは2025年11月24日、PC操作に特化した新しい小規模言語モデル(SLM)「Fara-7B」を発表しました。わずか70億パラメーターながら、GPT-4oベースのエージェントを凌駕する性能を記録。データが外部に出ないオンデバイス実行を実現し、プライバシー保護と低遅延を両立させています。

最大の特徴は、人間と同じように画面の視覚情報だけを頼りに操作を行う点です。HTMLコード等の裏側情報を必要とせず、スクリーンショットからボタン位置などを認識してマウスやキーボードを操作します。Web操作のベンチマーク「WebVoyager」では、GPT-4o(65.1%)を上回る73.5%のタスク成功率を達成しました。

ビジネス利用で重要なのがセキュリティです。Fara-7Bはローカル環境で動作するため、機密情報がクラウドに送信されるリスクを排除する「ピクセル主権」を確立しています。また、送金やメール送信などの不可逆的な操作の直前には、必ずユーザーの同意を求める「クリティカルポイント」機能が組み込まれています。

開発には「知識の蒸留」という高度な手法が用いられました。マルチエージェントシステム「Magentic-One」が生成した14万件以上の高品質な合成データを学習させることで、小型モデルながら複雑な推論能力を獲得しています。ベースモデルには視覚処理に優れたQwen2.5-VL-7Bが採用されました。

本モデルは現在、Hugging Face等を通じてMITライセンスで公開されており、商用利用を含む試験運用が可能です。Windows 11搭載のCopilot+ PCでも動作確認済みで、企業は自社のセキュリティ要件に合わせたPC操作自動化エージェントの開発を、低コストかつ安全に開始できます。

Ai2が「Olmo 3」公開、完全透明性と推論力で企業支援

完全な透明性と操作性

学習データや過程を完全公開
企業独自のカスタマイズが容易
商用可能なApache 2.0採用

推論能力と効率の向上

思考過程が見えるThinkモデル
計算効率が従来の2.5倍に向上
LlamaQwenに対抗する性能

非営利AI研究機関のAi2は、完全な透明性を備えた最新LLMファミリー「Olmo 3」を公開しました。企業が求めるデータプライバシーと制御性を重視し、学習データからチェックポイントまで全てオープンソースとして提供します。

ラインナップは、高度な推論を行う「Think」、基盤となる「Base」、指示追従に優れた「Instruct」の3種です。特にThinkモデルは、推論プロセス(思考の連鎖)を明示的に出力できる初の完全オープンな32Bモデルとなります。

最大の特徴は、ブラックボックス化が進む商用AIに対する透明性の確保です。GoogleOpenAI推論過程を隠す傾向にある中、Olmo 3は企業がモデルの挙動を完全に把握し、デバッグや監査を行うことを可能にします。

企業ごとのカスタマイズ性も大幅に強化されました。「万能な解決策はない」という思想のもと、主要な学習段階ごとのチェックポイントを提供し、企業が自社データを追加して再学習(ファインチューニング)しやすい設計となっています。

性能面では、メタのLlama 3.1や中国Qwenに対抗しうると主張しています。特に計算効率は従来比で2.5倍に向上しており、より少ないコストとエネルギーで高性能な推論処理を実現している点が強みです。

米国AIの優位性、オープンソース化が鍵 Databricks創業者警鐘

米国AIが抱える危機

中国に研究で後れを取る現状
大手ラボによる技術の独占
学術界からの深刻な頭脳流出
科学者間の対話が枯渇

オープンソース化が鍵

中国オープン戦略が脅威に
生成AIを生んだTransformer公開論文
自由なアイデア交換で革新を促進
民主主義とビジネスの存亡に関わる課題

データ分析基盤大手Databricksの共同創業者アンディ・コンウィンスキー氏が、AI分野で中国に対抗するためには米国はオープンソース戦略に転換すべきだと警鐘を鳴らしました。同氏はCerebral Valley AI Summitにて、現在の技術独占と学術界からの頭脳流出が米国の優位性を損ない、民主主義にとって「存亡に関わる脅威」になっていると強く訴えました。

コンウィンスキー氏が指摘する問題の核心は、大手AIラボの姿勢にあります。OpenAIMetaAnthropicなどは画期的な技術を開発していますが、その多くはプロプライエタリ(独占的)であり、広く共有されません。さらに、高額な報酬で大学のトップ研究者を引き抜くことで、学術界での自由な知見の交換が「枯渇しつつある」と危機感を示しました。

対照的に中国では、政府がAIイノベーションのオープンソース化を奨励していると氏は分析します。DeepSeekやAlibaba傘下のQwenといった企業の研究成果が公開されることで、他の研究者や開発者がその技術を土台に新たなイノベーションを生み出す好循環が生まれる可能性があり、これが米国の脅威となり得るとの見方です。

「今日の生成AIは、公開論文で発表されたTransformerアーキテクチャから生まれた」とコンウィンスキー氏は述べ、オープンな研究の重要性を強調します。次のTransformer級のブレークスルーをどちらの国が先に生み出すかが、今後のAI覇権を決定づける重要な要素となるでしょう。

現状を「トウモロコシの種籾を食べているようなものだ」と表現し、イノベーションの源泉が枯渇すれば、5年後には大手AIラボ自身も競争力を失うと警告。米国がAI分野でトップを維持するためには、オープンなエコシステムの再構築が急務であると結論づけました。

中国発MiniMax-M2、オープンソースLLMの新王者

主要指標でOSSの首位

第三者機関の総合指標で1位
独自LLMに迫るエージェント性能
コーディングベンチでも高スコア

企業導入を促す高効率設計

商用利用可のMITライセンス
専門家混合(MoE)で低コスト
少ないGPU運用可能
思考プロセスが追跡可能

中国のAIスタートアップMiniMaxが27日、最新の大規模言語モデル(LLM)「MiniMax-M2」を公開しました。第三者機関の評価でオープンソースLLMの首位に立ち、特に自律的に外部ツールを操作する「エージェント性能」で独自モデルに匹敵する能力を示します。商用利用可能なライセンスと高い電力効率を両立し、企業のAI活用を加速させるモデルとして注目されます。

第三者評価機関Artificial Analysisの総合指標で、MiniMax-M2オープンソースLLMとして世界1位を獲得しました。特に、自律的な計画・実行能力を測るエージェント関連のベンチマークでは、GPT-5Claude Sonnet 4.5といった最先端の独自モデルと肩を並べるスコアを記録。コーディングやタスク実行能力でも高い性能が確認されています。

M2の最大の特長は、企業での導入しやすさです。専門家の知識を組み合わせる「MoE」アーキテクチャを採用し、総パラメータ2300億に対し、有効パラメータを100億に抑制。これにより、わずか4基のNVIDIA H100 GPUでの運用を可能にし、インフラコストを大幅に削減します。さらに、商用利用を認めるMITライセンスは、企業が独自に改良・展開する際の障壁を取り払います。

高いエージェント性能を支えるのが、独自の「インターリーブ思考」形式です。モデルの思考プロセスがタグで明示されるため、論理の追跡と検証が容易になります。これは、複雑なワークフローを自動化する上で極めて重要な機能です。開発者は構造化された形式で外部ツールやAPIを連携させ、M2を中核とした高度な自律エージェントシステムを構築できます。

M2の登場は、オープンソースAI開発における中国勢の台頭を象徴しています。DeepSeekやアリババのQwenに続き、MiniMaxもまた、単なるモデルサイズではなく、実用的なエージェント能力やコスト効率を重視する潮流を加速させています。監査や自社でのチューニングが可能なオープンモデルの選択肢が広がることは、企業のAI戦略に大きな影響を与えるでしょう。

アント、1兆パラメータAI公開 強化学習の壁を突破

1兆パラメータモデルRing-1T

中国アントグループが開発
1兆パラメータのオープンソース推論モデル
数学・論理・コード生成に特化
ベンチマークGPT-5に次ぐ性能

独自技術で学習効率化

強化学習ボトルネックを解決
学習を安定化させる新手法「IcePop」
GPU効率を高める「C3PO++」を開発
激化する米中AI覇権争いの象徴

中国のアリババ系列企業アントグループが、1兆個のパラメータを持つオープンソースの推論AIモデル「Ring-1T」の技術詳細を公開しました。このモデルは、独自開発した最適化手法により、大規模モデルの学習における強化学習のボトルネックを解決した点が特徴です。OpenAIの「GPT-5」やGoogleの「Gemini」など米国勢に対抗し、激化する米中間のAI覇権争いで存在感を示す狙いがあります。

「Ring-1T」は、数学、論理問題、コード生成、科学的問題解決に特化して設計されています。各種ベンチマークテストでは、多くの項目でOpenAIGPT-5に次ぐ高いスコアを記録しました。特に、同社がテストしたオープンウェイトモデルの中では最高の性能を示し、中国企業の技術力の高さを証明しています。

この成果の背景には、超大規模モデルの学習を効率化する三つの独自技術があります。研究チームは、学習プロセスを安定させる「IcePop」、GPUの遊休時間をなくしリソースを最大限活用する「C3PO++」、非同期処理を可能にするアーキテクチャ「ASystem」を開発。これらが、1兆パラメータ規模のモデル学習を現実のものとしました。

特に注目すべきは、強化学習における課題へのアプローチです。従来、大規模モデルの強化学習は計算コストと不安定性が大きな障壁でした。「IcePop」は、学習を妨げるノイズの多い情報を抑制し、安定した性能向上を実現します。この技術革新は、今後のAIエージェント開発など応用分野の発展にも大きく貢献する可能性があります。

今回の発表は、DeepSeekやアリババ本体の「Qwen」シリーズに続く、中国発の高性能モデルの登場を意味します。米国の巨大テック企業を猛追する中国の勢いはとどまるところを知りません。「Ring-1T」のようなオープンソースモデルの公開は、世界中の開発競争をさらに加速させることになりそうです。

アリババQwen、AIレポートを数秒でWeb・音声化

調査を多様な形式に変換

AIが調査レポートを自動生成
1-2クリックでWebページに即時変換
複数話者のポッドキャストも作成可能
コード、画像音声の生成を統合

競合とのアプローチの違い

ゼロからの新規コンテンツ生成に特化
Google NotebookLM既存資料の整理が中心
アイデアから公開までのプロセスを短縮
クリエイターや教育者にも有用

中国のEコマース大手アリババは10月21日、自社のAIチャット「Qwen Chat」に搭載された調査ツール「Deep Research」を大幅にアップデートしたと発表しました。この更新により、AIが生成した調査レポートを、わずか数クリックでインタラクティブなWebページや複数話者によるポッドキャストに変換できます。調査からコンテンツ公開までのプロセスを劇的に効率化し、ユーザーの生産性を高める狙いです。

新機能の核心は、単一の調査依頼から多様なメディア形式のアウトプットを生成できる点にあります。ユーザーがテーマを入力すると、QwenはWeb上の情報源からデータを収集・分析し、矛盾点を指摘しながら詳細なレポートを作成。その後、ボタン一つでプロ品質のWebページや、2人のホストが対話する形式のポッドキャストを自動で生成します。

この強力な機能は、Qwenチームが開発したオープンソースモデル群に支えられています。Webページの構造化にはQwen3-Coder、ビジュアル作成にはQwen-Image音声合成にはQwen3-TTSがそれぞれ活用されています。アリババはこれらを統合し、ユーザーがインフラを意識することなく利用できるマネージドサービスとして提供します。

この動きは、GoogleのAI調査アシスタントNotebookLM」と比較されています。NotebookLMが既存資料の整理や要約に強みを持つ一方、Qwen Deep Researchゼロから新しいコンテンツを生成し、多形式で出力する点で明確な差別化を図っています。どちらが優れているかは、ユーザーの目的によって評価が分かれるでしょう。

アリババの今回のアップデートは、AIによるリサーチが単なる情報収集に留まらず、コンテンツ制作までをシームレスに繋ぐ未来を示唆しています。専門家クリエイターが、少ないリソースで高品質なWebコンテンツやポッドキャストを発信する上で、強力なツールとなる可能性を秘めています。

ソブリンAI、米中技術覇権の新たな主戦場に

米国のソブリンAI戦略

OpenAIが各国政府と提携
国家によるAI統制を支援
非民主主義国との連携に懸念も

中国のオープンソース攻勢

Alibabaのモデルは3億DL超
来年には米国を凌駕する可能性

真のAI主権をめぐる論点

主権にはオープンソースが必須との声
クローズドとオープンの両立も可能

OpenAIをはじめとするテクノロジー企業が、「ソブリンAI」の構築支援を各国で進めています。ソブリンAIとは、各国が自国の管理下でAIインフラを開発・運用する能力を指し、米中間の技術覇権争いの新たな主戦場となりつつあります。米国が同盟国との連携を深める一方、中国オープンソースモデルで世界的な影響力を急速に拡大しています。

OpenAIはアラブ首長国連邦(UAE)などの政府と提携し、大規模なデータセンター建設を含むソブリンAIシステム構築を支援しています。この動きは米国政府とも連携しており、同盟国が中国の技術に依存するのを防ぐという戦略的な狙いがあります。米国の技術を世界に普及させることで、地政学的な優位性を確保しようとしています。

しかし、UAEのような非民主主義国との提携には懸念の声も上がっています。かつて米国は、経済的な関与が中国の民主化を促すと期待しましたが、結果的に権威主義体制を強めることになりました。AI技術の提供が同様の結果を招かないか、過去の教訓が問い直されています。OpenAIは政府からの要請があっても情報検閲は行わないと明言しています。

対する中国は、オープンソース戦略で猛追しています。AlibabaやTencent、DeepSeekといった企業が公開した高性能な基盤モデルは、世界中で広く採用されています。特にAlibabaの「Qwen」ファミリーは3億回以上ダウンロードされ、日本を含む各国のスタートアップが自国語対応モデルの開発基盤として活用しています。

オープンソースAIモデルをホストするHugging FaceのCEOは、「真の主権はオープンソースなしにはあり得ない」と指摘します。モデルの内部を完全に検証・制御できるためです。中国企業はこの戦略により驚異的な速さで技術力を向上させ、5年前の遅れを取り戻し、今や米国と互角のレベルに達したと分析されています。

AIの国家主権をめぐる競争は、クローズドモデルを推進する米国勢と、オープンソースで勢力を拡大する中国勢という構図を呈しています。OpenAIは両アプローチの共存が可能との見方を示していますが、どちらが次世代のグローバルスタンダードを握るのか。この動向は、各国の事業戦略を左右する重要な要素となるでしょう。

Salesforce、自然言語で開発する新AIツール発表

新ツール「Agentforce Vibes」

自然言語で開発するバイブコーディング
AIエージェント「Vibe Codey」が自動実装
アプリのアイデア出しから構築まで支援
既存Salesforceアカウントと連携

企業導入の利点と市場背景

既存コードを再利用しセキュリティを確保
開発環境のセットアップが不要
過熱するバイブコーディング市場に参入
既存ユーザーには当面無料で提供

企業向けソフトウェア大手のセールスフォースは10月1日、新たなAI搭載開発者ツール「Agentforce Vibes」を発表しました。このツールは、開発者が自然言語で要件を記述するとAIが自動でコードを生成する「バイブコーディング」を企業向けに提供します。既存のSalesforce環境と連携し、セキュリティを確保しながら開発プロセスを大幅に自動化することで、企業のアプリケーション開発の生産性向上を目指します。

新ツールの核となるのは、自律型AIコーディングエージェント「Vibe Codey」です。このエージェントは、アプリケーションのアイデア出しから設計、構築、さらには運用監視に至るまで、開発ライフサイクル全体を支援します。開発者は複雑な技術的実装から解放され、より創造的な業務に集中できるようになるでしょう。

「Agentforce Vibes」の大きな特徴は、企業の既存Salesforceアカウントと直接連携する点です。これにより、組織が既に保有するコード資産を再利用したり、独自のコーディングガイドラインをAIに遵守させたりすることが可能になります。ゼロから開発を始める必要がなく、エンタープライズレベルのセキュリティとガバナンスを維持したまま、AI開発の恩恵を享受できます。

近年、バイブコーディング分野ではスタートアップが巨額の資金調達に成功するなど市場が過熱しています。一方で、AIモデルの運用コストの高さが収益性を圧迫するという課題も指摘されています。セールスフォースは、巨大な製品スイートの一部として提供することでコスト圧力を軽減し、安定したサービス提供で差別化を図る戦略です。

同社は現在、既存ユーザーに対して「Agentforce Vibes」を無料で提供しており、将来的に有料プランの導入を予定しています。利用するAIモデルは、OpenAI社のGPT-5と自社ホストのQwen 3.0を組み合わせることで、コストと性能のバランスを取っています。開発の参入障壁を下げるこの取り組みが、市場にどのような影響を与えるか注目されます。

元OpenAIムラティ氏、AI調整ツールTinker公開

元OpenAI幹部の新挑戦

ミラ・ムラティ氏が新会社を設立
初製品はAIモデル調整ツールTinker
評価額120億ドルの大型スタートアップ

TinkerでAI開発を民主化

専門的な調整作業をAPIで自動化
強化学習でモデルの新たな能力を開拓
調整済みモデルはダウンロードして自由に利用可

OpenAIの最高技術責任者(CTO)であったミラ・ムラティ氏が共同設立した新興企業「Thinking Machines Lab」は2025年10月1日、初の製品となるAIモデル調整ツール「Tinker」を発表しました。このツールは、最先端AIモデルのカスタマイズ(ファインチューニング)を自動化し、より多くの開発者や研究者が高度なAI技術を利用できるようにすることを目的としています。

「Tinker」は、これまで専門知識と多大な計算資源を要したモデルのファインチューニング作業を大幅に簡略化します。GPUクラスタの管理や大規模な学習プロセスの安定化といった複雑な作業を自動化し、ユーザーはAPIを通じて数行のコードを記述するだけで、独自のAIモデルを作成できるようになります。

特に注目されるのが、強化学習(RL)の活用です。共同創業者ChatGPT開発にも関わったジョン・シュルマン氏が主導するこの技術により、人間のフィードバックを通じてモデルの対話能力や問題解決能力を飛躍的に向上させることが可能です。Tinkerは、この「秘伝のタレ」とも言える技術を開発者に提供します。

Thinking Machines Labには、ムラティ氏をはじめOpenAIの元共同創業者や研究担当副社長など、トップレベルの人材が集結しています。同社は製品発表前にすでに20億ドルのシード資金を調達し、評価額は120億ドルに達するなど、業界から極めて高い期待が寄せられています。

現在、TinkerはMeta社の「Llama」やAlibaba社の「Qwen」といったオープンソースモデルに対応しています。大手テック企業がモデルを非公開にする傾向が強まる中、同社はオープンなアプローチを推進することで、AI研究のさらなる発展と民主化を目指す考えです。これにより、イノベーションの加速が期待されます。

NVIDIA、AIモデル群Nemotronを無償公開 開発加速へ

NVIDIAは9月24日、マルチモーダルAIモデルファミリー「Nemotron」をオープンソースとして公開しました。NemotronにはAIモデル、データセット、開発ツール群が含まれ、研究および商用目的で利用可能です。GitHubなどを通じて提供され、開発者は透明性の高いAIを迅速に構築できます。これにより、あらゆる規模の企業でAI開発の加速が期待されます。 Nemotronは、AI開発の全段階を効率化するオープンソース技術群です。大学院レベルの科学的推論や高度な数学コーディングに優れた最先端のAIモデルが含まれます。さらに、モデルの学習に使われたデータセットや、AIを高速かつ低コストで実行するための数値精度アルゴリズムなども提供されます。 なぜNVIDIAはオープンソース化に踏み切ったのでしょうか。それは、広範な問題解決を可能にする「汎用知能」と、各業界特有の課題に対応する「特化知能」の両方を向上させるためです。同社はNemotronを通じて、あらゆる産業でAIの導入を大規模に推進することを目指しています。 既に多くの企業がNemotronの活用を進めています。例えば、セキュリティ企業のCrowdStrikeは、AIエージェントエコシステム強化に利用しています。また、DataRobotはNemotronを基に、より高速でコスト効率の高い推論モデルを開発するなど、具体的な成果が出始めています。 NVIDIAはNemotron開発で得た知見を次世代GPUの設計に活かす一方、コミュニティの技術も積極的に取り入れています。Alibabaの「Qwen」やMetaの「Llama」といったオープンモデルの技術を活用し、Nemotronのデータセットや機能を強化するなど、エコシステム全体での発展を目指しています。 開発者GitHubHugging Face、OpenRouterを通じてNemotronを利用開始できます。NVIDIA RTX PCユーザーはllama.cppフレームワーク経由でのアクセスも可能です。同社は今後もイベントなどを通じて、開発者コミュニティとの連携を深めていく方針です。

アリババ、NVIDIAと提携し物理AI開発基盤を導入

中国の電子商取引大手アリババは24日、米半導体大手NVIDIAとの提携を発表しました。NVIDIAが提供するロボットや自動運転向けの物理AI開発ツールを、自社のAIクラウドプラットフォームに統合します。この提携は、物理世界で動作するAIの開発を加速させることが目的です。 具体的には、NVIDIAの「Physical AI」ソフトウェアスタックを顧客に提供します。これにより開発者は、現実世界の環境を忠実に再現した3Dのデジタルツインを構築できます。この仮想空間で生成された合成データを用いることで、AIモデルを効率的かつ安全に訓練することが可能になります。 この技術は、特にロボティクスや自動運転車、スマート工場、倉庫といった分野での活用が期待されています。現実世界でのテストが困難または危険なシナリオでも、仮想環境でAIを訓練できるため、開発サイクルが大幅に短縮される可能性があります。 今回の提携は、AI事業を強化するアリババの戦略の一環です。同社はAI技術への投資を従来の500億ドルの予算を超えて拡大すると表明。ブラジルやフランスなどでデータセンターを新設し、世界91拠点にまでインフラを拡大する計画も明らかにしました。 アリババは同日、最新の大規模言語モデル(LLM)「Qwen 3-Max」も発表しました。1兆パラメータで訓練されたこのモデルは、同社史上最大かつ最も高性能とされ、特にコーディングやAIエージェントとしての活用に適していると主張しています。 一方のNVIDIAも、AI分野で積極的な投資を続けています。最近ではインテルへの50億ドルの出資や、OpenAIへの最大1000億ドルの投資計画を発表しており、AIエコシステムにおける影響力を一層強めています。

Qwen、AIの安全性をリアルタイム検知する新モデル公開

大規模言語モデル「Qwen」の開発チームは9月23日、AIとの対話の安全性を確保する新しいオープンソースモデルQwen3Guard」を公開しました。このモデルは、ユーザーの入力とAIの応答の両方を評価し、リスクレベルを判定します。主要な安全性ベンチマークで最高水準の性能を達成しており、責任あるAI開発を支援する強力なツールとなりそうです。 最大の特徴は、AIの応答生成中にリアルタイムで安全性を検知する「ストリーミング機能」です。これは「Qwen3Guard-Stream」バリアントで提供され、応答がトークン単位で生成されるそばから瞬時に安全性を評価します。これにより、ユーザー体験を損なうことなく、不適切なコンテンツの生成を動的に抑制できます。 従来の「安全か危険か」という二者択一の分類とは一線を画し、「物議を醸す(Controversial)」という中間的なラベルを導入した点も革新的です。この3段階の深刻度分類により、開発者はアプリケーションの特性や目的に応じて、安全基準の厳格さを柔軟に調整することが可能になります。これにより、過度な制限を避けつつ安全性を確保できます。 グローバルな利用を想定し、119の言語と方言に対応している点も強みです。インドヨーロッパ語族、シナ・チベット語族、アフロ・アジア語族など、世界中の多様な言語で一貫した品質の安全性評価を提供します。これにより、多言語対応のAIサービスを開発する企業にとって、導入のハードルが大きく下がることでしょう。 モデルは、オフラインでのデータセット評価などに適した生成モデル「Qwen3Guard-Gen」と、前述のリアルタイム検知用「Qwen3Guard-Stream」の2種類が提供されます。それぞれに0.6B、4B、8Bの3つのパラメータサイズが用意されており、開発環境やリソースに応じて最適なモデルを選択できます。 開発チームは、AIの安全性を継続的な課題と捉えています。今後はモデル構造の革新や推論時の動的介入など、より柔軟で堅牢な安全手法の研究開発を進める方針です。技術的な能力だけでなく、人間の価値観や社会規範に沿ったAIシステムの構築を目指し、責任あるAIの普及に貢献していくとしています。

Hugging Face、仏Scalewayを推論プロバイダーに統合しAI利用の選択肢拡大

統合の核心と利点

Scalewayを新たな推論プロバイダーに追加。
gpt-ossQwen3など人気モデルへ容易にアクセス。
モデルページからサーバーレスで即時推論可能。
ウェブUIとクライアントSDKからシームレス利用。

Scalewayの技術的強み

欧州データセンターによるデータ主権と低遅延。
トークンあたり€0.20からの競争的価格
構造化出力、ファンクションコーリングに対応。
高速応答(200ms未満)を実現。

柔軟な課金体系

カスタムキー利用でプロバイダーに直接請求
HF経由の請求は追加マークアップなし
PROユーザーは毎月2ドル分の推論クレジット付与。

Hugging Faceは、フランスのクラウドプロバイダーであるScalewayを新たな「Inference Provider(推論プロバイダー)」としてハブに統合しました。これにより、経営者エンジニアgpt-ossQwen3などの人気オープンウェイトモデルを、Scalewayの提供するフルマネージドなサーバーレス環境で利用可能になります。この統合は、AIモデルのデプロイと利用の柔軟性を高め、特に欧州におけるデータ主権への要求に応えるものです。

Scalewayが提供するのは「Generative APIs」と呼ばれるサーバーレスサービスであり、トークンあたり0.20ユーロ/100万トークンからという競争力のある従量課金制が特徴です。ユーザーはシンプルなAPIコールを通じて、最先端のAIモデルにアクセスできます。この手軽さとコスト効率は、大規模な本番環境での利用を検討する企業にとって大きなメリットとなります。

インフラストラクチャはパリの欧州データセンターに置かれており、欧州の利用者に対してデータ主権の確保と低遅延の推論環境を提供します。応答速度はファーストトークンで200ミリ秒未満を達成しており、インタラクティブなアプリケーションやエージェントワークフローへの適用に最適です。テキスト生成とエンベディングモデルの両方をサポートしています。

Scalewayのプラットフォームは高度な機能にも対応しています。具体的には、応答形式を指定できる構造化出力や、外部ツール連携を可能にするファンクションコーリング、さらにマルチモーダル処理能力を備えています。これにより、より複雑で実用的なAIアプリケーションの開発が可能になります。

利用者は、HFのウェブサイトUIだけでなく、PythonやJavaScriptのクライアントSDKからシームレスに推論を実行できます。課金方式は二通りあり、ScalewayのAPIキーを使う場合は直接プロバイダーに請求されます。HF経由でルーティングする場合は、HFによる追加のマークアップは発生しないため、透明性が高い価格で利用できます。

Hugging FaceのPROプランユーザーには、毎月2ドル分の推論クレジットが特典として提供されます。このクレジットは、Scalewayを含む複数のプロバイダーで横断的に使用可能です。本格的な商用利用や高いリミットが必要な場合は、PROプランへのアップグレードが推奨されています。