GPUに関する最新ニュース（380件） | 【AI Times】生成AIやLLMの最新情報・ニュース

NVIDIA、収益分配型でAI計算基盤を新興勢に開放

2026年07月02日 NVIDIA エンジニア推論半導体 GPU クラウドエネルギークラウドサービスインド資金調達エージェント

新たな事業モデル

収益分配と信用支援を導入

AIクラウド経由で基盤を提供

製品収益に加え利用連動収益

資本力の乏しい新興企業を支援

AIファクトリー稼働

Sharon AIがGB300を最大4万基

FirmusがインドネシアでDSX建設

最大17万GPU、360メガワット規模

詳細を見る

半導体大手のNVIDIAは2026年7月2日、AIクラウド事業者と収益を分配する新たな事業モデルを発表しました。資本集約的な計算基盤に手が届きにくかった新興企業やモデル開発者に、大規模な高速計算資源を素早く提供する狙いです。AIが開発段階から本番の推論運用へ移り、トークンを大量生成する「AIファクトリー」への需要が急拡大している状況に対応します。

新モデルでは、AIクラウド事業者がNVIDIA製の基盤を調達し、AIネイティブ企業や事業会社、ISV向けにクラウドサービスとして販売します。NVIDIAは通常の製品収益に加え、対象容量のクラウド収益の一部を受け取る仕組みです。信用支援も組み合わせることで、長期契約でも資金調達が難しかった新興勢の計算アクセスを開きます。

この構造はNVIDIAにとって、成長著しいAIネイティブ領域での基盤採用を加速させると同時に、利用量に連動した継続的な収益源を生み出します。利用者側は、用地選定や電力調達、建設、機材立ち上げを待たずに、フルスタックの高速計算へ早く到達できる利点があります。

取り組みはすでに動き出しており、Sharon AIとFirmusが初期の協業企業として名を連ねます。Sharon AIはNVIDIAのGrace Blackwell GB300を最大4万基導入し、大規模かつ主権的なAI計算基盤の構築を進める方針です。

FirmusはインドネシアのバタムでDSX準拠のAIファクトリー拠点を建設中で、最大360メガワット、17万基のGPU規模まで拡張する計画です。BasetenやFireworks AI、Together AIといったAIネイティブ企業も、モデル学習や大量のエージェント推論に向けたクラウド容量の即時利用を求めており、需要の広がりを示しています。

出典：NVIDIA公式

プライバシー重視のVenice AI、65億円調達でユニコーンに

2026年07月01日 OpenAI Anthropic ChatGPT 精神病 GPU データセンタープライバシー暗号資産資金調達評価額

資金調達の概要

6500万ドルのシリーズA

評価額10億ドル

Dragonflyが主導

Coinbaseなど暗号資本参加

事業モデル

200以上のAIモデル提供

データ非保存の暗号化設計

検閲なしの利用体験

詳細を見る

プライバシー重視のAIプラットフォームを運営するVenice AIは7月1日、初の外部調達となる6500万ドルのシリーズAを実施し、評価額10億ドルのユニコーンになったと発表しました。ラウンドは暗号資産に強いDragonflyが主導し、Coinbase VenturesやNorth Island Venturesなどが参加しました。CEOのエリック・ボーヒーズ氏によると、同社はすでに黒字で、年換算売上高は7000万ドルを超えています。

Venice AIは200以上のAIモデルへのアクセスを提供しながら、ユーザーのプライバシーを守る点が特徴です。オープンソースの無検閲モデルを自社データセンターで運用し、OpenAIやAnthropicなどのクローズドモデルにはクエリを転送します。すべての入力はクライアント側で暗号化され、外部プロキシを経由して処理されるため、同社のシステムにはデータが保存されません。

創業からわずか2年で、サイトの月間ユニークビジター数は85万を超え、アクティブユーザーは300万人以上、API呼び出しは1日平均170万回に達しています。ボーヒーズ氏は成長の最大要因として、ChatGPTとの機能差が縮まったことを挙げました。当初はプライバシーを理由に選ばれていましたが、今では有力な代替手段になったと語っています。

ビットコインの初期提唱者でもある同氏は、サービスを「中立的なプラットフォーム」と位置づけます。AI精神病などの被害が問題視されるなか、利用を制限するより、常に監視される社会のほうが危険だとの持論を示しました。同社はVVVとDIEMという2つの暗号資産トークンも展開していますが、暗号資産で支払うユーザーは全体の約8%にとどまります。

調達資金の使途について、Venice AIはGPUの購入と自社データセンターの構築に充てる方針です。現在はGPUをリースしていますが、自前で保有することで粗利益率の改善を目指します。プライバシーと利用の自由を求める需要を背景に、同社の成長がどこまで続くのか注目されます。

出典：TechCrunch

軌道データセンター構想、実現は困難

2026年07月01日 NVIDIA xAI 創業者半導体 GPU データセンターエネルギー太陽光発電イーロン・マスク IPO SpaceX Tesla IEEE

壮大な計画

SpaceXが最大100万基申請

2、3年で宇宙が最安と主張

IPO直前にAI1設計公表

立ちはだかる壁

100万基へ約1.7万回の打ち上げ

製造能力では最大25年

GPU冷却の放熱難

天文観測への悪影響

詳細を見る

SpaceX 創業者のイーロン・マスク氏が2026年1月、ダボス会議で「2、3年以内にAI計算の最安の場所は宇宙になる」と述べ、低軌道に最大100万基の衛星から成る軌道データセンター構想を米連邦通信委員会（FCC）に申請しました。IPO直前には新型のAI1衛星データセンターの初期設計仕様も公表しています。しかしIEEE Spectrumは、この壮大な構想が実現にはほど遠いと分析しました。

最大の壁は規模の非現実性です。現在軌道上で稼働する衛星は約1万4500基で、その3分の2をStarlinkが占めます。100万基を打ち上げるには、60基積載可能なStarshipでも約1万6666回の打ち上げが必要で、2025年の記録である年165回の10倍でも10年かかる計算です。製造面でも年約4000基のペースを10倍にしても25年を要します。

技術面では宇宙での冷却が難関です。新興企業Starcloudが打ち上げたNvidiaのH100を1基動かすだけでも、放熱器の能力不足でチップをフル稼働できませんでした。700ワットのH100には60度で1.4平方メートルの放熱器が必要で、100メガワット級のデータセンターには巨大な放熱翼が2500枚必要となり、天文学者は星空が覆い隠されると懸念しています。

ではなぜハイパースケーラーは軌道データセンターを喧伝するのでしょうか。同誌の編集者は、マスク氏がxAIでデータセンターを建設し、SpaceXで宇宙へ運び、Teslaで太陽光パネルを作る構図を指摘し、「自分自身に支払っているようなもの」と述べました。地上のグリッド電力の逼迫を背景に、構想が理論から資本配分の段階へ移りつつあると評価するアナリストもいますが、打ち上げ費用や保守、採算性など根本的な課題は未解決のままです。

出典：spectrum.ieee.org

Meituanが1.6兆規模コーディングAIを国産チップで開発し公開

モデルの概要

1.6兆パラメータのMoE構成

100万トークンの長文脈対応

MITライセンスで商用自由

匿名モデルOwl Alphaの正体

性能とコスト

SWE-bench ProでGPT-5.5超え

キャッシュ命中は無料

国産ASIC5万基で訓練

詳細を見る

中国の生活サービス大手Meituanは6月30日、巨大なAIコーディングモデル「LongCat-2.0」をGitHubやHugging Face上で公開しました。1.6兆パラメータのMixture-of-Experts（MoE）構成で、100万トークンの文脈を扱え、商用利用に寛容なMITライセンスで提供されます。同社はこのモデルが、過去2カ月にわたりOpenRouterの開発者ランキング上位を占めてきた匿名モデル「Owl Alpha」の正体だと明かしました。

最大の注目点は、訓練を米Nvidia製GPUに頼らず、5万基を超える中国国産ASICで完結させた点です。near-frontier級のモデルを国産シリコンだけで構築できることを示し、Nvidia優位の構造に変化を迫る出来事だと位置づけられています。米国が自国の主要モデルへのアクセスを制限する動きを強める中で、安価で高性能な中国製オープンモデルが世界の開発者の選択肢として浮上しています。

性能面では、ソフトウェア工学のベンチマークSWE-bench Proで59.5を記録し、OpenAIのGPT-5.5の58.6をわずかに上回りました。Terminal-Benchで70.8、SWE-bench Multilingualで77.3を示すなど、対話よりも自律的な開発タスクに特化した設計です。汎用性ではClaude Opus 4.8など最上位モデルに及ばないものの、コーディング領域では競争力を持つとされています。

技術的には、合計1.6兆パラメータのうち1トークンあたり平均480億パラメータのみを動かす積極的なスパース化を採用しました。100万トークンの文脈を支えるため、DeepSeek Sparse Attentionを発展させた独自の「LongCat Sparse Attention」を導入し、ハードウェアに沿った効率的なメモリアクセスを実現しています。後処理では、Agent・Reasoning・Interactionの3つの専門家群に最適化を分離する「MOPD」と呼ぶ枠組みを使い、推論・ツール実行・安全性を両立させています。

商用面では、通常の従量課金APIに加え、北京時間の決まった時刻に1日4回の数量限定セールで提供する「Token Pack」を用意しました。最大の特徴は文脈キャッシュの再利用が完全無料になる点で、同じ巨大なコードベースを繰り返し読み込む自律エージェントのコスト構造を大きく変えるとしています。Meituanは2010年創業の出前・生活サービス大手で、利益率低下を背景にAIと国産チップへ多額の投資を進めてきました。

出典：VentureBeat

NVIDIAの推論ソフト、トークン費用5分の1に

2026年06月30日 NVIDIA DeepSeek 検索ネットワーク経営者推論強化学習半導体 GPU インフラエージェント Cognition

費用削減の中身

DeepSeek V4で1カ月で5倍改善

トークン単価を約5分の1に圧縮

Blackwell上で性能を継続改善

技術と採用例

3層連携で最大20倍の処理量

TensorRT-LLMやDynamoを提供

Baseten・Cognitionらが採用

PyTorchなどOSSが性能を増幅

詳細を見る

NVIDIAは6月30日、自社の推論ソフトウェアスタックがBlackwellプラットフォーム上でDeepSeek V4のトークンコストを約1カ月で最大5倍引き下げたと発表しました。AI factoryの普及で企業の関心が、チップの最大性能から1ドルあたりに供給できるトークン数へと移るなか、ソフトウェア最適化を競争力の中核に据える狙いです。

背景にあるのは、AIワークロードの質的な変化です。従来のWebや検索は処理経路が似通い、サーバーを増やせば対応できました。一方でagentic AIは推論や計画、ツール呼び出しを伴い、1つの要求が数百のサブエージェントと複数のモデルにまたがる分散コンピューティングへと変わります。

NVIDIAはこの複雑さを無駄ではなく低コストに変えるため、ソフトを3層で連携させています。分散配信やオートスケールを担う運用層、カーネル融合などのランタイム最適化を行うアプリ高速化層、GPUやネットワークの能力を引き出すインフラアクセス層です。これらが一体で動くと個々の最適化が積み重なり、処理量は最大20倍に高まると説明します。

具体的な手法として、分散サービングやNVLinkを介した大規模なエキスパート並列、NVFP4精度、マルチトークン予測を挙げています。各技術は単体でも効果がありますが、組み合わせることで効果が掛け算的に増幅すると同社は強調します。

オープンソースもこの優位を後押しします。多くの主要フレームワークがCUDAを前提に作られており、PyTorchやvLLM、SGLangは新モデル公開と同時にBlackwell向けの最適化を実装できます。DeepSeek V4も公開直後から各フレームワークで性能が改善し、トークンコストが従来の約5分の1まで下がりました。

採用企業も広がっています。BasetenはTensorRT-LLMで毎秒トークン数を最大50%増やし、CognitionはDynamoで強化学習の基盤を簡素化しました。経営者にとっては、推論の経済性がハードだけでなくソフトウェアの成熟度で決まる段階に入ったことを示す動きと言えます。

出典：NVIDIA公式

ポーカーAIの旧DeepMind勢、評価額500億円に

2026年06月30日創業者強化学習リスク半導体 GPU 暗号資産投資資金調達評価額エージェント Google DeepMind

資金調達の概要

評価額5億ドルに到達

Creandum主導のSeries A

同社過去最大級の単独投資

拠点はチェコ・プラハ

技術と実績

強化学習を株取引へ応用

S&P500;やNasdaqで日々巨額売買

創業来マイナス月ゼロを主張

詳細を見る

DeepMind出身の研究者3人が設立したプラハのAIラボ「EquiLibre Technologies」が2026年6月、Series A調達を経て評価額5億ドルに達したことが分かりました。彼らはかつてポーカーで人間を破ったAIを開発し、その強化学習技術を株式取引へ応用しています。出資を主導したのはCreandumで、同社が一度に行った単独投資としては過去最大だと明かしました。

中心にあるのは強化学習です。これは自己学習するモデルに報酬を与えて訓練する手法で、CEOのマーティン・シュミット氏は「取引と市場は採点が極めて単純で、エージェントがいくら稼いだかで評価できる」と語ります。ポーカーと金融市場はいずれもこの手法と相性が良いという点が共通しています。

実績も具体的です。クオンツ大手Tower Research Capitalと組み、同社のアルゴリズムはS&P500;やNasdaqで日々数十億ドル規模を売買してきました。2025年の暗号資産市場での運用開始以降、各月をプラスで終え「創業来マイナスの月はゼロ」という記録を主張しています。

創業者のシュミット氏、CTOのルドルフ・カドレツ氏、CSOのマテイ・モラフチーク氏は金融出身ではありません。3人はカナダ・アルバータ州エドモントンにあったDeepMindの研究拠点で、無制限ポーカーでプロを初めて破ったAI「DeepStack」を開発しました。助言役には強化学習で2024年にチューリング賞を受けたリッチ・サットン氏も名を連ねます。

一方で競争のリスクも残ります。取引大手のJane Streetはすでに強化学習やLLMを使うと表明し、数万基規模の高性能GPUを持つとされます。これに対しEquiLibreは少ないチップで「より少ない資源でより多く」を狙う構えです。今後は中東欧でも有数規模の計算基盤の構築を計画しています。

シュミット氏は自社を「金融会社ではなく、まずラボだ」と位置づけます。目標は「取引分野のAIラボ」として知られることですが、本人は市場を効率化したいからではなく「誰も作ったことのないものを作るのが楽しいから」だと述べます。そのうえで「これは勝者総取りの市場ではない」と語り、競争の先に敗者なき余地があるとの見方を示しました。

出典：TechCrunch

単一MOSFETが脳型ニューロンに、AIの省電力に道

2026年06月29日学生半導体 GPU データセンターエネルギー IEEE

偶然の発見

端子未接続から生じた神経様動作

正孔蓄積による電流の急峻スパイク

1000万サイクルで全素子無故障

省電力AIへの含意

1〜2素子で数百個分の回路を代替

既存シリコン製造ラインと完全互換

歩留まり100%と低ばらつき

まずはエッジAI向けに有望

詳細を見る

IEEE Spectrumは2026年6月29日、研究者がありふれたMOSFET1個を脳のニューロンのように動作させることに成功したと報じました。きっかけは2024年、学生が実験中にトランジスタの基板端子をつなぎ忘れたという単純なミスでした。すると電圧を下げると自然に戻るヒステリシス特性を伴う急峻な電流増加が現れ、これが生物の神経細胞によく似た挙動だったのです。

なぜ普通のトランジスタが神経のように振る舞うのでしょうか。鍵は通常は接地され注目されない第4の基板端子にありました。端子が浮いていると、電子と原子の衝突で生じた正孔が基板に溜まって電圧が上がり、MOSFETの中に隠れた別のトランジスタが作動して電流が一気に跳ね上がります。この蓄積・発火・放出の周期が、神経細胞の積分発火動作とそっくりだと判明しました。

さらに研究チームは、同じMOSFETがシナプスとしても機能することを発見しました。特定の基板抵抗の条件で電荷がゲート絶縁膜に捕捉され、素子のコンダクタンスを安定的かつ任意に調整できたのです。ニューロンとシナプスを組み合わせたこの素子は、神経シナプス型RAM（NSRAM）と名付けられました。

この成果がAIにとって重要なのは省電力性です。データセンターのGPUは1台あたり最大1000ワットを消費し、脳に比べ約100万分の1の効率しかありません。従来の脳型チップはニューロン1個に数十から数百個のトランジスタを要しましたが、新手法ならわずか1〜2素子で同じ働きを実現できます。

実用面の強みも明確です。実験的なメムリスタなどと違い、この技術は既存のシリコン製造ラインとそのまま互換で、別ファウンドリのチップでも歩留まり100%とほぼゼロのばらつきを再現しました。20年来多くの企業が挑んできた課題を、最も安価で標準的なMOSFETで解決した形です。

今後はデバイスの計算モデル改良や回路・システム全体の検証、複数回の試作が必要で、道のりは平坦ではありません。まずはバッテリー駆動のエッジAI向けが有力ですが、規模を拡大できれば将来は最先端GPUと競い得る、AIの環境負荷を下げる選択肢になりそうです。

出典：spectrum.ieee.org

HF JobsでvLLMサーバー1コマンド起動

2026年06月26日 OpenAI Qwen GPU インフラ認証コーディングエージェント Hugging Face

1コマンドで起動

hf jobs runで即起動

vllm-openai公式イメージ使用

--flavorでGPU指定

OpenAI互換で利用

HFトークンで認証必須

OpenAIクライアント流用可

秒単位課金で都度停止

用途と拡張

大規模モデルはGPU分散対応

本番用途はEndpoints推奨

詳細を見る

Hugging Faceは2026年6月26日、HF Jobs上でvLLMサーバーを1コマンドで起動する手順を公式ブログで公開しました。テストや評価、バッチ生成のために、モデルを最速で立ち上げる方法として紹介しています。

手順の中心はhf jobs runコマンドです。これはHFインフラ向けのdocker runにあたり、公式のvllm-openaiイメージを指定し、--flavorでGPUを、--exposeでポート8000を公開します。起動後はジョブIDとアクセス用のURLが表示され、数分でサーバーが稼働します。

公開されたサーバーはOpenAI API互換で、リクエストにはHFトークンをベアラートークンとして付与します。curlのほか、OpenAIクライアントのbase_urlを向けるだけでPythonからも呼び出せます。エンドポイントは公開ではなく、トークンを持つ本人や組織に限定されたゲート方式です。

課金は秒単位で、a10g-largeは1時間あたり1.50ドルです。使い終わったらhf jobs cancelで明示的に停止する方がコストを抑えられます。--timeoutは自動停止の安全網として機能します。

大規模モデルにも同じコマンドが使えます。--flavorで強力なGPUを選び、--tensor-parallel-sizeでモデルをGPU間に分散させることで、122BのQwen3.5などもH200×2で動かせます。SSH接続やGradioによるUI、コーディングエージェントの基盤としての利用も可能です。

記事は使い分けの指針も示しています。最大限の柔軟性と制御がほしい実験や単発の評価にはHF Jobsが適し、アクセス制御やゼロスケールなど本番運用向けの機能が必要ならInference Endpointsを選ぶよう勧めています。

出典：Hugging Face

Netris、a16zから15M調達

2026年06月25日 Google NVIDIA AWS ネットワークエンジニア GPU ハードウェアクラウドデータセンター投資 Andreessen Horowitz

調達と出資元

a16z主導の1500万ドル調達

a16zパートナーが取締役就任

用途はエンジニア採用と機能拡張

技術と実績

ネオクラウドの立ち上げ自動化

ハードウェア完全アクセラレーション

世界35超のGPUクラスタで稼働

計約100万GPUを支える基盤

詳細を見る

ネットワーク自動化の新興企業Netrisは2026年6月25日、ベンチャー投資大手アンドリーセン・ホロウィッツ（a16z）から1500万ドルのシリーズAを調達したと明らかにしました。新興のAIクラウド事業者（ネオクラウド）がデータセンターを早く稼働させられるよう、設定や運用を自動化するソフトを提供しています。調達資金はエンジニアと営業の採用、対応ハードウェアの拡充に充てます。

AIブームでデータセンター事業への参入が相次ぐ一方、GPUやスイッチを確保しても設定や運用を整えるには数カ月を要します。GPUが遊休状態にある時間はそのままコストとなるため、立ち上げの速さが収益を左右します。Netrisはスイッチ上で動くソフトと接続プラットフォームで、この準備期間を短縮すると主張しています。

同社のプラットフォームはハードウェア層でサーバーやリソースを分離し、複数顧客への提供（マルチテナンシー）を可能にします。EquinixやAWS、Googleなど大手は自前のエンジニアで対応してきましたが、小規模なネオクラウドにはその余力がありません。NetrisのSaroyan最高経営責任者（CEO）は、AI向けには通信量が膨大なため完全にハードウェアで高速化した仕組みが必要だと説明します。

注目すべきは、この技術にAIを使っていない点です。同社はAIが非決定的で勝手な動作をするため、数千台規模のスイッチ設定変更には不向きだと考え、再現性の高い独自アルゴリズムを採用しています。8年前から開発を続けてきた成果です。

実績も着実に積み上がっています。2年前にデモを見たNvidiaが顧客に同社を推薦したほか、現在は世界35カ所超のGPUクラスタ（計約100万GPU）で稼働中です。利用企業にはLightning AIやFoxconn、Hewlett Packard Enterpriseなどが名を連ね、a16zのパートナーGuido Appenzeller氏が取締役に加わります。

出典：TechCrunch

Adobe、AI画質補正のTopazを買収

2026年06月25日エコシステムクリエイティブクリエイター GPU オンデバイス画像動画買収 Adobe Canva

買収の概要

Topaz Labsを買収

Firefly等に統合

2026年後半に取引完了

狙いと競争

端末上で動く軽量AI技術

映像高画質化とノイズ除去

CanvaやBlackmagicに対抗

ユーザーの囲い込み強化

詳細を見る

米Adobeは6月25日、AIによる画像・動画補正ツールを手がけるTopaz Labsを買収すると発表しました。同社をクリエイティブ事業に組み込み、AIアプリ「Firefly」や画像・動画編集スイートにTopazのモデルを統合する計画です。取引は2026年後半に完了する見通しです。

Topaz Labsは20年以上の歴史を持ち、近年は独自のAIモデルを展開してきました。動画の高解像度化を担う「Astra」や画像補正の「Wonder」に加え、大規模な動画AIモデルを一般向けGPU上で動かす技術も開発し、昨年には映像技術でエミー賞を受賞しています。

Adobeはすでに一部のTopazツールをCreative Cloudで提供しており、買収後はTopazの製品を自社サイト経由の単体サービスとしても継続提供します。同社のDeepa Subramaniam氏は、実写映像とAIクリップを組み合わせたいプロが、細部のシャープ化やノイズ低減、古い映像の復元といった用途で活用できると説明しました。

今回の買収の核心は、複雑なAIモデルをデバイス上で直接動かすTopazの専門性にあります。Adobeはこの技術によって、より高速で応答性の高い体験を顧客に届け、先進的なAIを手頃なコストでクリエイターに広げられると見ています。

背景には、画像・動画編集分野でCanvaやDaVinci Resolveを擁するBlackmagic Designとの激しい競争があります。AdobeはあらゆるアプリにAIを組み込んでおり、Topazのような新興企業を取り込むことで、ユーザーが他社ソフトへ流れるのを防ぎ、自社エコシステムへの囲い込みを強める狙いです。

出典：TechCrunch

OpenAI、初の自社推論チップをBroadcomと公開

2026年06月24日 Google OpenAI NVIDIA マイクロソフト Meta Amazon ChatGPT Codex ネットワーク GPT-5 推論事前学習半導体 GPU TPU データセンターエネルギー ASI コーディング提携

チップの概要

Jalapeñoと名付けた初の自社チップ

推論専用のASIC設計

現行・将来のLLM向けに最適化

性能と狙い

電力当たり性能が従来最高水準を大幅超

設計から量産までわずか9カ月

Nvidia依存の低減が狙い

今後の展開

2026年末からギガワット規模で配備

複数世代の計算基盤の第一歩

詳細を見る

OpenAIは2026年6月24日、半導体大手Broadcomと共同開発した初の自社AIチップ「Jalapeño（ハラペーニョ）」を公開しました。同チップはAIの推論処理に特化したASIC（特定用途向け集積回路）で、ChatGPTやCodexなどのサービスを動かすサーバー向けに設計されています。早期テストでは、電力当たりの性能が現行の最高水準を大幅に上回る見込みだと説明しました。

Jalapeñoは、汎用チップを転用したものではなく、LLMの推論に最適化してゼロから設計された点が特徴です。OpenAIがモデルやサービング系の知見をもとにチップアーキテクチャを設計し、Broadcomがシリコン実装やネットワーク技術、Celesticaが基板やラックなどのシステム統合を担いました。試作チップはすでに研究室で量産想定の周波数と電力でMLワークロードを実行しており、コーディング向けの「GPT-5.3-Codex-Spark」も動作しているといいます。

今回の最大の狙いは、Nvidia製GPUへの依存を減らすことにあります。Nvidiaのチップは供給が限られており、OpenAIは自社設計によって推論コストの引き下げと安定供給を目指します。BroadcomのHock Tan最高経営責任者（CEO）はReutersのインタビューで、JalapeñoはNvidiaの「Blackwell」やGoogleのTPUに匹敵する性能だと述べました。

開発スピードも注目点です。OpenAIとBroadcomの提携は2025年10月に発表されており、設計から製造のテープアウトまでわずか9カ月で到達しました。OpenAIは、これを高性能半導体で過去最速のASIC開発サイクルだと位置づけ、自社のAIモデルが設計や最適化の一部を支援したと説明しています。

Jalapeñoは複数世代にわたる計算基盤の第一歩にすぎません。Hock Tan CEOは、Microsoftをはじめとするパートナーと組み、2026年からギガワット規模のデータセンター展開を可能にすると述べました。初期配備は2026年末を見込み、以降数世代にわたって拡張していく計画です。

MicrosoftやMeta、Amazonなども自社向けAIチップを相次いで投入しており、推論の効率化はAIの経済性を左右する鍵になりつつあります。事前学習などの重い処理は引き続きNvidia製ハードに頼るとみられますが、推論コストのわずかな削減でもOpenAIの収益改善に大きく寄与する可能性があります。

出典：OpenAI公式 | The Verge | TechCrunch

NVIDIA、MoE学習を最大3.7倍高速化

2026年06月24日 NVIDIA Qwen 専門家推論ファインチューニングパッチ GPU トランスフォーマー Hugging Face

発表の要点

import1行で3.4〜3.7倍高速化

GPUメモリ最大32%削減

Transformers v5を土台に拡張

HF互換APIで既存コード不変

技術と適用範囲

Expert Parallelismで専門家を分散

DeepEPが通信と計算を融合

550Bモデルの全層調整も実現

詳細を見る

NVIDIAは6月24日、HuggingFace Transformersの上に構築するオープンライブラリ「NeMo AutoModel」を公開しました。import文を1行変えるだけで、MoE（混合専門家）モデルのファインチューニングをTransformers v5比で3.4〜3.7倍高速化し、GPUメモリを29〜32%削減します。from_pretrained()など既存APIはそのまま使え、コード改変は不要です。

MoEモデルの学習には固有の難しさがあります。数百の専門家へトークンを振り分け、行列積を一つのカーネルに融合し、重みをGPU間で分割し、通信と計算を重ね合わせる処理が必要だからです。Transformers v5は専門家バックエンドや動的な重み読み込みでこれに対応しましたが、通信と計算を重ねるDeepEPは未実装でした。

NeMo AutoModelはこの欠けた部分を補います。AutoModelForCausalLMを継承し、Expert Parallelism（EP）、DeepEPによる全対全ディスパッチ、TransformerEngineカーネルを追加しました。EPは専門家の重みをGPU間で物理的に分割し、8GPUなら各GPUが専門家の8分の1だけを保持します。これにより、従来は約55GiB必要だった専門家の重みが1GPUあたり約6.8GiBに収まります。

性能評価は2つの規模で実施されました。8GPU単一ノードのQwen3-30B-A3Bでは、v5比でスループットが3.69倍、ピークメモリは29%減。Nemotron 3 Nano 30Bでも3.36倍、メモリ32%減を記録しました。高速化の源はEPによるメモリ削減、DeepEPの通信融合、TransformerEngineの最適化カーネルの3点です。

大規模側では、550BパラメータのNemotron 3 Ultraの全層ファインチューニングを16ノード128GPUで実行しました。Transformers v5はこの規模でメモリ不足になり動作しませんが、EPが専門家を分散することで学習が可能になります。EPが本領を発揮するのは、まさにこの大規模領域です。

NeMo AutoModelの出力は標準的なHF形式のsafetensorsであるため、save_pretrained()で保存した重みはvLLMやSGLangといった推論基盤にそのまま載せられます。NVIDIAは、Transformers v5を使うユーザーにとって本ライブラリが摩擦のない次の一歩になると位置づけています。

出典：Hugging Face

NVIDIAとAWSが本番AI基盤を拡張、推論4.6倍に

2026年06月24日 NVIDIA Amazon AWS 検索ネットワークエンジニア推論 GPU クラウド投資エージェント RAG

新GPUインスタンス

EC2 G7を新たに提供

Blackwell世代GPU搭載

推論性能は最大4.6倍

最大8GPU構成に対応

検索と学習の強化

ベクトル検索を標準GPU化

索引は最大10倍高速・コスト4分の1

GB300で性能認定取得

詳細を見る

NVIDIAは6月24日、米AWSと連携し、本番規模のAI基盤を強化すると発表しました。両社はクラウド上の計算、検索、学習の各層を一体で改良し、企業が運用負担を抑えながらAIを実運用へ移せる環境を整えます。低遅延の推論や高速なベクトル検索、GPUの価格性能比といった課題に同時に対応する狙いです。

中核となるのが新インスタンス「Amazon EC2 G7」です。NVIDIAのRTX PRO 4500 Blackwell Server Edition GPUを搭載し、AI推論や映像処理、データ分析などの本番ワークロードに対応します。従来のG6と比べ、推論性能は最大4.6倍、グラフィックス性能は最大2.1倍に高まりました。

G7は最大8基のGPUと合計256GBのGPUメモリ、700Gbpsのネットワーク、最大7.6TBのローカルSSDを備えます。1基から8基までの構成に加え、ベアメタルも近く提供される予定です。利用者は過剰な設備投資を避け、用途に合わせて規模を最適化できる点が特徴です。

検索の層では、NVIDIAのライブラリ「cuVS」を使い、GPUによるベクトル索引をOpenSearch Serverlessの標準とします。これにより索引作成はCPU構成と比べて最大10倍速く、コストは4分の1に下がり、数十億規模のベクトルデータベースを1時間以内で構築できるとしています。検索拡張生成(RAG)や意味検索、エージェント型AIの基盤づくりが容易になります。

学習の層では、AWSがNVIDIA GB300向けに「Exemplar Cloud」認定を取得しました。NVIDIAが定める性能基準を満たしたことを示すもので、両社の協業による成果です。開発者は一貫した高性能基盤を前提に学習を進められ、クラウド選定や総保有コストの判断がしやすくなります。

今回の発表は、計算・検索・学習というAI基盤の全層を同時に底上げする内容です。共通する狙いは、運用チームの負担を増やさずに本番規模で性能を発揮できる環境を提供することにあります。企業がAIを計画段階から実運用へ移す動きが、さらに加速しそうです。

出典：NVIDIA公式

Figma、AIモーションとコード機能を追加

2026年06月24日 GitHub Notion ワークフローデザインエンジニアデザイナー GPU コーディング買収エージェントプロンプト Canva Pixel Figma

キャンバスの新機能

キャンバス上で直接コード編集

リポジトリのクローンと同期

AI生成のアニメーション

WebGPU活用のシェーダー効果

エージェント強化

反復作業をスキルとして再利用

生成型プラグインの自作

Weaveワークフローの統合予定

詳細を見る

デザインプラットフォームのFigmaは6月24日、年次イベントConfig 2026で、キャンバスに新たなコードレイヤーとAIによるモーション機能、シェーダーを追加するアップデートを発表しました。デザイナーやエンジニア、PMがアイデアを素早く反復できるよう、フルスタック開発に最適化したキャンバスを目指す内容です。

目玉となるのが、キャンバスを離れずにコードを扱えるコードレイヤーです。リポジトリをクローンし、コードからフローをデザインレイヤーに抽出してテストしたり、変更をコードへ同期し直したりできます。最高プロダクト責任者の山下雄樹氏は、本番投入用の完璧なコードよりも、空間的に素早く方向性を探ることに価値があると説明しました。

モーション機能では、アニメーションやトランジション、3D変換をFigma内で直接設計できるようになりました。これまでは別ソフトで作成しコードに変換する必要がありましたが、今後はチャットに指示するだけでAIがアニメーションを生成します。シェーダーもプロンプトで作成でき、ディザやピクセル化、各種ぼかしなどWebGPUを活かした効果を扱えます。

チーム向けのAIエージェントも強化されました。反復作業をスキルとして登録しチーム全体で再利用できるほか、NotionやExcel、GitHubといった外部ツールの接続やファイル添付でAIに文脈を与えられます。レイアウト生成器などの独自プラグインをプロンプトで自作する機能も加わりました。

Figmaは昨年買収したノードベースのツールWeavyの統合も進めています。年内のアップデートでは、複数モデルで出力を比較するWeaveのワークフローをFigma内で直接生成できるようになる見込みです。一連の機能は、デザインとコーディングの間の受け渡しを滑らかにする取り組みの延長線上にあります。

出典：TechCrunch | The Verge

Hugging Faceが遠距離音声認識の公開ベンチマーク公開

2026年06月24日 NVIDIA シミュレーション GPU 音声エージェントベンチマーク Hugging Face Cohere

ベンチマークの狙い

遠距離音声認識の初の公開基準

残響・雑音・距離を再現

クリーン環境との性能差を可視化

Treble主導でHugging Faceが共催

評価手法と所見

9条件で評価、主要4条件で順位

WERとRTFxを併記

低SNRで誤りが数倍に悪化

詳細を見る

Treble TechnologiesとHugging Faceは6月24日、遠距離音声認識（Far-Field ASR）の精度を実環境に近い音響条件で測る初のオープンなベンチマーク「FFASRリーダーボード」を公開しました。残響や背景雑音、マイクとの距離を再現し、コミュニティが自由にモデルを投稿して結果を比較できます。音声エージェントや会議室の文字起こしなど、遠隔マイク利用の増加が背景にあります。

従来のASR評価は、マイクを口元に近づけたクリーンな音声を前提としてきました。しかしLibriSpeechなどの近接環境で高得点を出すモデルでも、実際の部屋の音響が加わると精度が大きく落ちることが知られています。FFASRはこの性能差を標準化した形で継続的に計測することを目的に設計されました。

評価は9条件で行われ、順位を決める主要4条件は、無響室で測ったクリーン音声と、高・中・低の3段階のSNR（信号対雑音比）下での遠距離音声です。音響データはTrebleのハイブリッドシミュレーションエンジンで生成し、回折や散乱といった現実の現象を再現します。浴室から教室、レストランまで20〜470立方メートルの14室を用意し、咳などの突発音とHVACなどの連続音を加えています。

精度を示すWERに加え、リーダーボードはNVIDIA L4 GPU上で測った処理速度の指標RTFxも併記します。精度と速度の両方が実運用では重要だとして、両者のトレードオフをパレートフロントとして可視化し、用途に合うモデルを選べるようにしています。

公開後に浮かび上がった共通の傾向は、近接環境と遠距離環境の性能差が大きく、SNRが下がるほど急拡大する点です。低SNRの遠距離WERは近接時の数倍に達することも多く、従来は社内評価でしか見えにくかった劣化が比較可能になりました。

投稿はSubmitタブにHugging FaceのモデルIDを貼るだけで、サーバー側で非公開の評価データに対して実行されます。WhisperやIBM Granite Speech、Cohere Transcribeなど主要なASRアーキテクチャに対応し、複数話者やマイクアレイ、エコー除去への対応を今後のロードマップに挙げています。

出典：Hugging Face

NVIDIA、世界500傑スパコンの8割支える

2026年06月23日 NVIDIA ネットワークシミュレーション推論半導体 GPU エネルギースーパーコンピューター日本欧州ドイツ

TOP500を席巻

TOP500の81%がNVIDIA技術

新規システムの約9割を獲得

GPU搭載が過去最多238基

ネットワーク接続376基で最多

省電力でも首位

Green500上位8基をGPUが独占

首位はGrace Hopper採用KAIROS

Grace CPU採用は26基に拡大

詳細を見る

半導体大手のNVIDIAは6月23日、ドイツ・ハンブルクで開催のスパコン会議ISCで発表された最新ランキングで、世界の高速スパコン上位500システムのうち400超、つまりTOP500全体の81%を同社技術が支えていると明らかにしました。前回から17システム増え、新規参入では約9割がNVIDIA基盤でした。

勢いの背景には、AIと科学計算を同時にこなす設計への明確な選好があります。NVIDIA系システムはTOP500全体で、他の全プラットフォーム合計に対しAI学習で2倍超、推論で約3倍のスループットを実現するとしています。GPU搭載は過去最多の238システム、ネットワーク接続も最多の376システムに達しました。

同社の存在感はGPUやネットワークにとどまらず、CPUにも広がっています。自社CPU「Grace」の採用は前回比8増の26システムとなり、累計出荷は約250万個に上ります。GPUとGrace CPUをメモリ共有する「Grace Hopper Superchip」は、メモリ集約的な現代AIの需要に向けた設計です。

省電力性能を測るGreen500でもNVIDIAは上位を独占しました。上位8システムすべてがGPUを搭載し、首位はフランス・トゥールーズ大学のGrace Hopper採用機KAIROSで、1ワットあたり73.3ギガフロップスを記録しました。

欧州では記録的な35基のAI向けHPCスパコンが開発中で、欧州初のエクサスケール機JUPITERは人間の脳や気候、次世代6Gのシミュレーションに活用されています。最新世代のBlackwellアーキテクチャ採用機もアジアや欧米で登場し、日本でも初のGB200システムが稼働を始めました。

出典：NVIDIA公式

NVIDIA、通信網を自律運用するAIエージェント基盤を公開

2026年06月23日 NVIDIA サムスンソフトバンクネットワークシミュレーションデジタルツイン推論推論モデル GPU プライバシーポリシーエージェント

自律運用への転換

タスク自動化から自律運用へ

AIエージェントが障害を能動監視

DTW Ignite 2026で実証

安全な実行基盤

合成データで機密保護と学習

NemoClawとOpenShellでガードレール

SoftBankやNTT DATAが採用

シミュレーションで検証

GPUで近リアルタイム検証

RANデジタルツインで自己修復

詳細を見る

NVIDIAは2026年6月23日、コペンハーゲンで開催中のTM Forum「DTW Ignite 2026」で、通信事業者向けの自律ネットワーク運用基盤を公開しました。これまで生成AIによる自動化は決められた手順を高速化するタスク単位の支援にとどまっていましたが、AIエージェントが障害を能動的に監視し、ネットワークやIT、業務システムをまたいで変更を調整する自律運用へと軸足を移します。

基盤となるのは通信ドメインに特化した推論モデルです。事業者の54%がデータ関連の課題を最大の障壁に挙げる中、機密性の高い顧客・ネットワークデータをそのまま使えない問題に対し、合成データで対処します。SoftBankはNVIDIA NeMo Safe SynthesizerやNeMo Anonymizerを用い、実データの構造を反映したプライバシー保護データを生成し、自社の大規模通信モデルの微調整に活用しています。

長時間稼働するエージェントの安全な運用には、ポリシーに基づく制御が欠かせません。NVIDIAは「NemoClaw」ブループリントと安全な実行環境「OpenShell」を提供し、通信システムへのアクセスをサンドボックス化します。これによりエージェントの挙動を予測可能で監査可能な状態に保ちながら、運用での役割拡大を進められます。

採用企業の事例は多岐にわたります。AdaptKeyは5Gの自己修復運用に、Amdocsはローミング客への先回り対応や移行管理に、NTT DATAはNemotronモデルと組み合わせてネットワーク劣化の検知に活用します。ServiceNowは「Project Arc」を通信向けに展開し、アラートから作業指示までインシデント対応の全工程を自律運用します。TCSも多段階の「AIセンサー」構成で障害発見を高速化しています。

信頼性を担保する鍵がシミュレーションです。GPU上で処理を高速化し、エージェントが提案を実環境に適用する前に検証できる近リアルタイム環境を整えます。Forskは無線伝搬モデルをNVIDIA RTX PRO 6000 Blackwellで動かし、CPU比200倍の高速化を実現しました。VIAVIもRANシミュレーションをGPUに移し、桁違いの処理量向上を示しています。

KDDIとKDDI総合研究所は、NVIDIAやKeysight、Samsung Research Americaと連携し、6G時代に向けた高精度RANデジタルツインを構築します。NVIDIA Aerial Omniverse Digital Twinを用いた環境で、複数の自律エージェントがエリア最適化や将来の無線条件といった「もしも」のシナリオを安全に検証できるようになります。

出典：NVIDIA公式

F5、本番AIの脆弱なデータ経路を警告

2026年06月23日ワークフローネットワークエンジニア推論脆弱性ハルシネーション GPU クラウドクラウドサービス RAG

実証では露呈しない欠陥

ストレージ直結の脆弱性

本番トラフィックで障害連鎖

ノード障害でクラスタ全停止

停止がSLA違反に直結

データ配信層の構築

BIG-IPを制御点に配置

可観測性と自動切替

スループット維持を確認

詳細を見る

クラウドサービス企業のF5は、AIワークロードを実証実験から本番運用へ移す際、データ配信の経路がシステムの拡張性を左右すると指摘しました。ストレージと計算資源を直接つなぐ構成は、デモ環境では問題なく動く一方、持続的で同時並行的な本番トラフィックの下では破綻しやすいといいます。

問題の核心は、AIワークフローがS3ストレージを中核資源として扱うようになった点にあります。しかしストレージとクラスタ間のネットワークは、GPUを最適稼働させるための高スループットで途切れないデータ移動を前提に設計されていませんでした。同社のPaul Pindell氏は、単一のストレージノードが故障すると全トラフィックが劣化し、場合によってはクラスタ全体が停止すると述べています。

停止の代償は大きいといいます。推論パイプラインが停滞すればSLAと顧客体験の問題になり、RAGシステムが遅延すればモデルが最新の文脈を失い、不正確な応答やハルシネーションを招きます。同時に、高価なGPUが遊休状態となりコストを押し上げます。

F5はこの課題に対し、データ配信をネットワークが「単に動く」前提に頼らない第一級の基盤層として扱う方針を示しました。具体的には可観測性、プログラマビリティ、障害耐性の三つを組み込み、Dell ObjectScale向け構成ではBIG-IPをストレージと計算層の間に制御点として配置します。

この構成は、QoSや接続数制限によってストレージを過負荷から保護します。同社は第三者機関SecureIQLabの検証により、こうした保護がスループットを犠牲にしないことを確認したとしています。ハイブリッドやマルチクラウド環境では、統一的な可観測性とプログラム可能なトラフィック管理を組み合わせ、一貫した制御と回復力を実現する狙いです。

F5のHunter Smit氏は、永続的な実証段階から抜け出す組織は障害を常態と捉える設計規律を共有していると語ります。遅延や輻輳、部分的な障害が起きる前提で、それを吸収できるデータ経路を築くことが、本番運用と試作の分かれ目になるという見方です。

出典：VentureBeat

NVIDIA Vera CPU、ロスアラモス研究所の科学AIを加速

2026年06月22日 NVIDIA ネットワークシミュレーション半導体 GPU エネルギースーパーコンピューター安全保障エージェント

新スパコン3基

Mission・Vision・Veritas構築

HPEとNVIDIAが共同開発

Vera Rubinプラットフォーム採用

2027年の稼働予定

性能と用途

URSAで7倍の性能向上

エージェント型科学AIを推進

機密の核安全保障計算に対応

詳細を見る

半導体大手NVIDIAは2026年6月22日、米ロスアラモス国立研究所（LANL）が新設するスーパーコンピューター3基に同社の新型CPU「Vera」が採用されると発表しました。Mission、Vision、Veritasと名付けられた各システムは、HPEと共同で構築され、科学研究の高速化とエージェント型AIの実現を狙います。最先端の計算基盤が、仮説立案から実験までを自律的に担うAIを後押しする形です。

3基はいずれも、HPE Cray GX5000アーキテクチャとNVIDIAの「Vera Rubin」プラットフォームを基盤とします。Vera CPU、Rubin GPU、Quantum-X800 InfiniBandネットワークを組み合わせ、Missionには2,300基、Veritasには約1,150基の単体Vera CPUが搭載される計画です。Veritasは新技術を検証する役割を担い、より大規模なシステムへの応用を見据えます。

研究者が重視するのは、自ら仮説を立て、ツールを選び、シミュレーションを実行して結果を分析するAIエージェントです。LANLが公開する研究支援AI「URSA」はその方向性を示すもので、実験計画から結果分析までを支える枠組みとして開発されています。同研究所の検証では、Vera CPUがURSAの処理で従来のx86型スパコン「Crossroads」のCPUに比べ7倍の性能を示しました。

性能面の優位はほかの計算でも確認されています。熱伝導シミュレーションツール「Branson」での初期試験では、Veraが従来比3倍超の処理性能を発揮しました。独自設計のOlympusコアやLPDDR5メモリ、高速な内部接続が、こうした成果を支えています。

Veraは単体でx86系CPUの1ソケットを3倍超上回り、コア当たりメモリは4倍超、ノード当たりでは6倍に達します。Missionは2027年の稼働を見込み、国家核安全保障局の機密計算でCrossroadsを置き換える予定です。Visionは材料・核科学やエネルギー、生物医学など基礎研究の基盤となります。

今回の発表は、LANLとNVIDIAが10年以上重ねてきた協業の延長線上にあります。両者はGraceからVeraへとCPUの共同設計を進めてきました。3基は2024年導入のスパコン「Venado」を土台とし、実際の科学計算に即した設計思想を一段と推し進めるものといえます。

出典：NVIDIA公式

NVIDIA、科学発見を加速する新AIソフト発表

2026年06月22日 NVIDIA GitHub ネットワーク GPU 画像ドイツ

発表の概要

ISCで科学向けAIソフト発表

DAQIRIとALCHEMIを投入

cuPhotonは今夏提供予定

CUDA-Xの一部として展開

性能と成果

天文データ読込を1万4900倍高速化

材料探索を50倍加速

CERNの観測データ解析に活用

詳細を見る

NVIDIAは6月22日、ドイツ・ハンブルクで開催中のスーパーコンピュータ会議ISCで、科学研究向けAIを加速する新ソフトウェア群を発表しました。化学・材料探索から暗黒物質の探索まで、これまでCPUで数時間から数日を要した処理を、GPUによるリアルタイム処理に置き換えます。発表されたのはDAQIRIライブラリ、ALCHEMI向けマイクロサービス、そして近日提供予定の参照コードcuPhotonです。

中核となるのは、性能向上の大きさです。天体観測の標準形式であるFITSデータを扱うcuPhotonは、NVIDIA GB200 NVL72上で動作し、ルービン天文台の大規模掃天観測の画像読み込みを1万4900倍高速化しました。信号処理と解析も最大8400倍速まると報告されており、史上最大のデジタルカメラが捉えた遠方銀河の解析を後押しします。

ネットワークライブラリのDAQIRIは、高速な検出器やセンサーからのデータを取りこぼさずに処理する点が特徴です。CERN・シカゴ大学・ユニバーシティ・カレッジ・ロンドンの研究者が開発したプロジェクトA-GHOSTは、DAQIRIを使い、ATLAS実験で通常は破棄される99%超のデータをリアルタイムにAI解析し、見逃されていた信号を捕捉します。

化学・材料探索向けのALCHEMIは、電池材料や触媒、OLEDディスプレイなどに応用できるマイクロサービス群です。生命科学プラットフォームを開発するLila Sciencesは、ALCHEMIを用いて高スループットの材料スクリーニングを50倍に加速し、合成可能性の高い安定候補を特定しました。VASP向けマイクロサービスでは磁気特性の計算も30%速まったといいます。

ではこれらのソフトはいつ使えるのでしょうか。ALCHEMIツールキットとNIMマイクロサービスはGitHubやNVIDIA NGCカタログから入手でき、VASP向けは今夏後半の提供予定です。DAQIRIはすでにGitHubで公開され、cuPhotonも今夏の提供を見込んでいます。研究現場における計算の高速化競争が、科学的発見のスピードを左右する局面に入っています。

出典：NVIDIA公式

NVIDIA基盤で全米700研究、NSFのAI支援2年

2026年06月22日 NVIDIA シミュレーション専門家 GPU クラウドエネルギー米国医療スタンフォードハーバード基盤モデル

NAIRRの成果

全米700件超の研究を支援

DGXノードを最低1カ月貸与

医療・農業・エネルギーへ波及

主要プロジェクト

流体予測の基盤モデルWalrus公開

ミシガン大の材料探索AIMIST

BU感染症検知BEACONを高速化

詳細を見る

米国立科学財団（NSF）は2026年6月22日、AI研究基盤を提供するNAIRRパイロット計画が、過去2年間で全米700件超の研究を後押ししたと発表しました。NVIDIAはクラウド経由でDGXノードを最低4基・1カ月以上、研究者に専有提供し、技術支援も担いました。タンパク質予測から感染症対策まで、対象は医療・農業・エネルギーへと広がっています。

目玉の一つが、フラットアイアン研究所などの国際連合Polymathic AIによる流体シミュレーションです。同団体はNVIDIAのGPUとNVLinkを用い、大規模データセット「Well」で訓練した基盤モデルWalrusを一般公開しました。データやコード、重みも合わせて開放し、科学分野向けの強力な基盤モデル開発を狙います。

ミシガン大学のVenkat Viswanathan教授らは、分子AIと汎用LLMを融合する枠組みを開発中です。分子基盤モデル群MISTは独自トークナイザーSmirkを使い、400超の構造物性関係で微調整され、電気化学や量子化学など複数分野で最高水準に匹敵する性能を示しました。NAIRRで得た40GPUのDGXクラスタに加え、20万GPU時間を活用しています。

ボストン大学のハリリ研究所は、感染症の発生監視プログラムBEACON向けにLLMを訓練しています。世界の疾病追跡基盤やニュース、SNSの情報を解析し、簡潔な発生報告を自動生成する仕組みです。海外派遣の医師や政府機関、研究者がすでに利用を始めています。

同研究所のIoannis Paschalidis所長は「以前は専門家が報告書を作るのに数時間かかっていたが、今は約2分で済む」と語りました。NAIRRとNVIDIAの連携はハーバードやスタンフォードなど多くの大学にも広がっており、研究者がAIと高速計算へ広くアクセスできる環境が整いつつあります。

出典：NVIDIA公式

欧州初の超大型計算機JUPITER、4分野で成果披露

2026年06月22日 NVIDIA ネットワークシミュレーション半導体 GPU エネルギースーパーコンピューター欧州ドイツ提携エージェント基盤モデル

脳と気候の解明

脳地図モデルCytoNetを5日未満で訓練

死後脳21体・6.5PBデータを学習

気候を1km解像度で全球シミュレーション

海洋・大気・炭素循環を統合再現

通信と量子の前進

EricssonとAIで6G網を共同開発

省電力な神経模倣型アーキテクチャ採用

50量子ビット計算機の完全模擬に成功

従来48量子ビット記録を更新

GPU基盤の威力

NVIDIA Grace Hopperで全演算を駆動

エクサスケールが研究から実用段階へ

詳細を見る

半導体大手NVIDIAは6月22日、ドイツの研究機関ユーリッヒにある欧州初のエクサスケール級スーパーコンピューター「JUPITER」が、独ハンブルクで開催中の国際会議ISCで4つの科学プロジェクトの成果を披露したと発表しました。脳の細胞単位での地図化、全球気候の精密模擬、次世代通信網のAI、量子計算機の模擬という、これまでの計算機では到達できなかった課題に挑んでいます。JUPITERはNVIDIA製の「Grace Hopper Superchip」を中核に構築されています。

脳研究では、ユーリッヒ脳アトラスのチームが脳の微細構造を解析する基盤モデル「CytoNet」を開発しました。人間の脳は860億のニューロンと約100兆の接続を持ち、細胞単位での理解は困難でしたが、4,096基のGrace Hopperを用いて5日未満で訓練を完了しています。研究チームは次の段階として、脳研究者を支援するAIエージェントの構築を進めています。

気候分野では、ETHチューリヒなどの研究者が開発したモデル「ICON」が、地球システム全体を1キロメートル解像度で結合シミュレーションする世界初の成果を上げました。海洋・大気・陸域に加え炭素循環まで統合的に再現する点が画期的で、20,480基のGrace Hopperを使い、実際の気候146日分を24時間の計算で処理する世界記録を樹立しています。

通信分野では、通信機器大手のEricssonとユーリッヒが3月に提携を発表し、5Gの進化と6G網に向けたAI開発でJUPITERを計算基盤として活用します。脳に着想を得たアーキテクチャにより、複雑なネットワーク運用を大幅に低いエネルギーで処理することを目指しています。

量子計算では、ユーリッヒの研究者が50量子ビットの万能量子計算機を完全に模擬し、従来の48量子ビットの記録を更新しました。CPUとGPUのメモリを密結合したGH200の構造により、GPU単体の限界を超える量子状態を保持できた点が突破口となっています。この模擬器「JUQCS-50」は、量子アルゴリズム設計の検証基盤として研究者に開放される予定です。

神経科学から気候、通信、量子まで広範な科学を支えるJUPITERの実績は、エクサスケール計算が研究段階から実用段階へ移行したことを示しています。これらの成果は、科学の最前線におけるGrace Hopper基盤の有効性を裏付ける証左となりました。

出典：NVIDIA公式

AI推論の壁はGPUでなく文脈記憶へ移行

2026年06月22日 NVIDIA 検索ネットワーク推論 GPU インフラエネルギー投資エージェントコンテキスト

新たなボトルネック

GPUより文脈管理が制約

コンテキスト量の爆発的増大

セッション間で状態保持の必要

対応するストレージ層

GPUメモリと外部記憶の中間層

NvidiaがCMXとして規格化

KVキャッシュを高速配信

再計算でGPU浪費を回避

詳細を見る

米ストレージ大手Solidigmは2026年6月、AI推論の最大の制約がGPU供給からコンテキスト（文脈データ）管理へ移ったと指摘しました。同社のAI応用研究責任者ジェフ・ハーソーン氏は、計算コストが下がる一方で、セッション間に保持すべき状態データが想定を超えて急増していると説明します。これが2026年の最重要課題になると同氏は強調しました。

背景には三つの要因が同時進行しています。コンテキストウィンドウの拡大で入力が巨大化し、エージェント型AIが数十から数百回のモデル呼び出しを連鎖させ、企業が監査や再利用のため推論状態の永続化を求めています。これらが重なり、既存のメモリ階層では扱えない規模へとデータが膨張しているのです。

解決策として、GPUメモリとネットワーク上の大容量ストレージの間に専用のコンテキスト層が生まれつつあります。高速・高密度のフラッシュメモリでKVキャッシュや検索データを推論速度で保持・配信する層で、NvidiaはこれをCMXという用語で規格化しました。

この層が重要なのは、推論が学習とは異なる入出力特性を持つためです。学習が大きなブロック単位の書き込み中心なのに対し、推論は細かく遅延に敏感で状態を伴います。KVキャッシュが高速層になければ再計算（re-pre-fill）が発生し、新たな価値を生まないままGPUサイクルを浪費してしまいます。

求められるのは平均速度よりテールレイテンシの予測可能性です。GPU資源を割り当てる制御系は数秒の遅延も許容できないため、安定した観測可能な性能が鍵となります。電力が制約となる大規模拠点では、ペタバイトあたりの消費電力も重要な指標になります。

経営層やインフラ責任者にとって、この新層はもはや任意の選択肢ではありません。DRAMより安価なNAND（フラッシュ）を中間層に配置すれば、投資効率を高めつつ高価で供給制約のあるメモリへの依存を減らせます。形成途上のこの領域でいかに既存資源を効率的に使うかが、今後数年のAIインフラを左右しそうです。

出典：VentureBeat

AWSがロボット制御をエージェントに統合するSDK公開

2026年06月17日 NVIDIA AWS ネットワークシミュレーション推論プロンプトインジェクション GPU 認証ポリシーロボットエージェントプロンプト Hugging Face Arm

SDKの中身

AWS製オープンソースSDK

LeRobot機能をAgentTool化

Apache2.0ライセンス

記録・学習・推論を一括統合

実機への展開

引数1つでシミュから実機へ

同一データ形式を共有

Zenoh活用の群制御

人間承認で安全担保

詳細を見る

AWSは6月17日、ロボット開発の各工程を一つのAIエージェントから自然言語で操作できるオープンソースSDK「Strands Robots」を公開しました。Hugging Faceのロボット学習基盤LeRobotの機能をエージェント用ツールとして束ね、これまで記録・学習・シミュレーション・実機展開・複数台連携の5つに分かれていた作業を一本化します。ライセンスはApache2.0です。

最大の特徴は、シミュレーションと実機のコードがほぼ同一である点です。ロボットを生成する関数は標準でMuJoCoベースの仮想環境を返し、引数をmode="real"に変えるだけで物理ロボットに切り替わります。仮想環境で記録したデータも実機の記録も同じLeRobotDataset形式で保存されるため、片方向けに書いた学習スクリプトをもう片方でもそのまま使えます。

ポリシー推論も共通の入口で扱えます。NVIDIAのGR00Tやローカル推論、MolmoAct2のチェックポイントを同じインターフェースで呼び出せるほか、ACTやSmolVLA、π0なども利用可能です。GPUやDocker、Hugging Faceの認証情報がなくても、模擬ポリシーを使えばノートパソコン上でシミュレーションを最後まで動かせる設計です。

複数台の連携には、ブローカー不要のP2PプロトコルZenohを使ったメッシュ機能を採用しました。新しいロボットは起動した瞬間にメッシュへ参加し、エージェントが一斉に指示を出せます。IPアドレスの管理や探索コードの記述は不要です。

物理的に動作する命令には人間の承認を介在させる仕組みが標準で入っています。一斉送信や緊急停止などはLLMの引数とは別経路で操作者の許可を求めるため、プロンプトインジェクションで承認を偽装する攻撃を防げます。本番運用ではmTLS認証が必須とされ、信頼できないデータを与えない設計が推奨されています。

この統合の狙いは、LeRobotが持つ資産を作り直さず、エージェントから扱える表層だけを足すことにあります。Hub上のあらゆるデータセットがエージェントの拡張・学習・展開の対象になり、仮想と実機の境界は設計上の分断ではなく単なる展開手順の違いになります。AWSはArmと協力した本番向けネットワーク層「Device Connect」も用意しており、コードを変えずに規模を広げられるとしています。

出典：Hugging Face

NVIDIA、AIエージェントがロボットを自律訓練

2026年06月17日 OpenAI Anthropic NVIDIA Claude Claude Code Codex GPT-5 Opus GPU ハードウェアロボットコーディングエージェント

自律訓練の仕組み

AIコーディングエージェントがロボット訓練を自律実行

結束バンド切断とGPU装着を習得

成果上がる変更のみ保持し反復改善

ENPIREの構成

NVIDIA GEARとCMU・UCバークレーが開発

リセット・検証・評価・失敗分析の4機能

複数ロボットの並列評価

公開と展望

3社のコーディングエージェントで検証

全要素のオープンソース化を表明

詳細を見る

NVIDIAのGEAR研究所は2026年6月、AIコーディングエージェントがロボットの訓練を自律的に指揮する新たな枠組み「ENPIRE」を発表しました。カーネギーメロン大学とカリフォルニア大学バークレー校が共同開発したこの仕組みでは、エージェントが訓練手順を自ら考案し、ロボットに結束バンドの切断やマザーボードへのGPU装着といった精密な作業を習得させました。

ENPIREは、AIモデルにツール利用や記憶・制約・フィードバックの機能を与える「エージェントハーネス」と呼ばれるソフトウェアです。具体的には4つのモジュールで構成され、作業の自動リセットと検証、ロボットの行動指針となる方策の改良、複数の実機を並列で動かす評価、そしてログ解析や論文の取り込みによる失敗対応を担います。

訓練は人手を介さず反復します。エージェントは独自のアルゴリズムを考えて実機で試し、成功率を高めた変更だけを残すサイクルを自己主導で繰り返します。NVIDIAでAI担当ディレクターを務めるジム・ファン氏は「研究所の一部が夜通し自己改善し、朝に報告書を読むだけだ」とLinkedInに投稿しました。

検証には3社のエージェントが使われました。OpenAIのGPT-5.5を用いたCodex、AnthropicのOpus 4.7を用いたClaude Code、Moonshot AIのKimi K2.6を用いたKimi Codeです。チームを組んだエージェントが互いに異なる訓練手法を独立して編み出し、実験で比較しました。

ファン氏はすべてをオープンソース化する方針を示し、誰もが自宅で「自走するロボット研究所」を持てるようにすると述べました。技術的な詳細は6月16日に公開された研究論文にまとめられています。AIが自らハードウェアの訓練を回す時代が、研究現場で現実味を帯び始めています。

出典：Ars Technica

Qualcomm新XRチップ、XREAL Auraに初搭載

2026年06月16日 Google Meta Android 半導体 GPU スマートグラスエネルギー音声米国 Qualcomm

新チップの性能

GPU性能60%向上

NPU最大160%向上

片目4.4K・90fps対応

バッテリー最大20%改善

発熱を最大12度低減

搭載製品と展開

XREAL Auraに今秋初搭載

Android XR連携の有線型

AI機能強化が業界の狙い

詳細を見る

半導体大手のQualcommは6月16日、米国で開催中の拡張現実イベントAugmented World Expo（AWE）2026で、次世代XR機器向けの新チップSnapdragon Reality Eliteを発表しました。このチップは今秋発売予定のXREALのAndroid XRグラス「Aura」に最初に搭載されます。スマートグラス向け半導体の性能を底上げし、より高度なAI機能を支える狙いです。

新チップは全方位での性能向上が特徴です。GPUは60%、CPUは30%、AI処理を担うNPUは最大160%の性能向上を実現し、片目あたり4.4K解像度・90fpsの描画と低遅延に対応します。これにより、没入感の高い映像表現と、より大規模なLLMを動かすAI機能の両立が期待されます。

消費電力の効率化も大きな進歩です。バッテリー駆動時間は最大20%改善し、高負荷時でも従来世代より最大12度低い温度を保つとされています。スマートグラスはこれまで、本体の大きさと一日中使える電池持ち、そして発熱との間で難しい妥協を迫られてきました。今回の改善は、その課題に正面から応えるものです。

Qualcommは部品メーカーとして、MetaやGoogleといった顧客の要求に合わせてチップを設計しています。今回のReality Eliteに加え、2月に発表したSnapdragon Wear Eliteもスマートグラスに使えます。前者は表示機能を備えたAI重視のグラス向け、後者は音声のみのグラス向けと、用途で役割が分かれる見通しです。

GoogleもAWE 2026に合わせ、XREAL AURAの予約受付を開始したと発表しました。AURAはAndroid XRを搭載しSnapdragon Reality Elite基盤を採用したXREAL初の有線XRグラスで、同社サイトで予約できます。両チップともAI性能を高めた点は、メーカーがグラスや時計など装着機器にAIを積極的に組み込もうとしている表れだと言えるでしょう。

出典：The Verge | Google公式

NVIDIA Blackwell、MLPerf Training 6.0の全7部門で首位

2026年06月16日 NVIDIA マイクロソフト DeepSeek gpt-oss 事前学習 GPU エネルギーベンチマーク

全部門で最速を達成

全7ベンチマークで最速

新規追加のMoE2課題に対応

DeepSeek-V3とGPT-OSSを評価

GB300がGB200比最大1.6倍

8192GPUへ大規模展開

8192基のGPUで最大規模学習

CoreWeaveが2.02分で目標到達

19社のパートナーが参加

詳細を見る

NVIDIAは6月16日、AI学習性能を測る業界ベンチマークMLPerf Training 6.0において、同社のBlackwellプラットフォームが全カテゴリで首位に立ったと発表しました。全7ベンチマークで最速の学習時間を記録し、唯一すべての項目に結果を提出した点が特徴です。最大8192基のGPUを用いた大規模学習も実証しました。

今回の評価では、急速に普及するMoE（混合エキスパート）アーキテクチャを反映し、DeepSeek-V3 671BとGPT-OSS-20Bという2つの事前学習ワークロードが新たに追加されました。NVIDIAはこの2課題を含む全7項目で最速を達成し、ラックスケール型のGB200 NVL72とGB300 NVL72の両システムで結果を提出しています。

性能向上の鍵は世代交代にあります。新型のGB300 NVL72は、同規模の構成で従来のGB200 NVL72に比べ最大1.6倍速い学習を実現しました。NVFP4による高い計算密度、拡張されたメモリ容量、ピーク性能を維持できる高い電力上限が、この改善を支えています。

規模の面でも記録を更新しました。最大のMoEモデルであるDeepSeek-V3 671Bでは、GB200 NVL72システムを用いて8192基のGPUまで拡張し、MLPerf TrainingにおけるBlackwellベースで最大規模の提出となりました。CoreWeaveはGB300 NVL72とSpectrum-X Ethernetを組み合わせ、このモデルで2.02分という最速の学習時間を達成しています。

本番環境での信頼性も重視されています。NVIDIAは出荷前に30以上の製造テスト工程でGPUを検査し、障害を未然に防ぐほか、障害発生時にはNVRxがチェックポイントから学習を再開し、ジョブ全体の再起動を回避します。今回はMicrosoft AzureやCoreWeaveなど19の組織がパートナーとして参加しました。

出典：NVIDIA公式

HPE、NVIDIA基盤のAIファクトリーをエージェント時代向け拡張

2026年06月16日 NVIDIA ネットワーク推論 GPU セキュリティエージェント

新CPUと運用基盤

エージェント特化CPUVera採用

NYSEが早期顧客として検証

Rubin GPU最大128基/ラック

Agent Toolkit標準提供

セキュリティと統治

全製品で機密コンピューティング対応

不正エージェント検知と復旧

実行前の集中ガバナンス審査

詳細を見る

HPEとNVIDIAは6月16日、米ラスベガスで開催中の年次イベントHPE Discoverで、共同開発するAI基盤「HPE AI Factory with NVIDIA」を企業向けのAIエージェント本番運用に対応させるべく拡張すると発表しました。実証実験から本番導入へと移る企業需要に応え、エージェント特化の新型CPUや運用ツール、機密データ保護機能を全製品群へ広げます。

中核となるのが、エージェント向けに設計された世界初のCPUとうたうNVIDIA Veraです。ツール呼び出しやオーケストレーション、リアルタイムのデータ処理といったエージェント処理に最適化され、低遅延で決定的な性能を提供します。これを搭載したサーバーは2027年に、ターンキー型のHPE Private Cloud AIとして提供される予定です。

Veraは1兆パラメータ超の大規模モデルを想定したVera Rubinプラットフォームの一部で、ニューヨーク証券取引所が早期顧客として検証を進めています。HPEは最大128基のRubin GPUを1ラックに収容できる新サーバーも投入し、フロンティア級モデルの学習・推論需要に備えます。

運用面ではNVIDIA Agent ToolkitをHPE Private Cloud AIで利用可能にしました。エージェントの挙動監視やガバナンス方針の強制を担い、長時間稼働する自律型のマルチエージェントを安全に構築・運用できる「エージェント版OS」として機能します。モデルやツールは実行前に中央のセキュリティ方針へ照合され、不正な動作はクリーンな状態へ巻き戻せます。

セキュリティの要として、NVIDIA Confidential ComputingがHPE AI Factoryの全ソリューションに対応しました。実行中のモデルや機密データを暗号化と検証で保護し、オンプレミスや主権AIの導入でも安全性を担保します。BlueField DPUによるゼロトラスト制御も性能を犠牲にせず脅威検知を実現します。

HPEはネットワークやストレージを含む全製品でNVIDIAとのフルスタック統合を進め、パートナープログラムにも約12社の新たなAIソフト企業を加えました。経営層にとっては、エージェントAIを統治・主権・拡張性を確保しつつ本番投入できる選択肢が広がった形と言えるでしょう。

出典：NVIDIA公式

衛星が軌道上でGemma 3稼働、自律で目標発見

2026年06月15日 Google NVIDIA アシスタント半導体 GPU ハードウェアインフラデータセンターエネルギー画像 Gemma Google DeepMind

世界初の実証

軌道上でVLM初稼働

地上分析なしで自律発見

Gemma 3をエッジ動作

NASA JPLが制御ソフト開発

Loft Orbital衛星YAM-9で実施

搭載GPUはJetson Orin

宇宙センサーの変革

生データの軌道上選別

自然言語で監視指示

常時監視レイヤー構想

50〜100機で全球網羅

宇宙AIインフラへの布石

詳細を見る

地球観測衛星が2026年4月、地上の人間の分析官に頼らず自律的に目標を発見することに世界で初めて成功しました。宇宙インフラ企業Loft Orbitalの衛星YAM-9に搭載されたNASAジェット推進研究所製のソフトが、自然言語の問いに応じて関心領域を特定したものです。軌道上で視覚言語モデル（VLM）が稼働した初の事例となります。

実証を支えたのはGoogle DeepMindのGemma 3です。VLMは大規模言語モデルの文脈理解と画像解析を組み合わせた技術で、Gemma 3はデータセンターから離れた限られたハードウェアで動くエッジ用途向けに設計されています。研究者は「自然環境と人間の開発が接する地域の分類」や「鉄道拠点周辺のインフラ特定」を指示し、モデルはそれを実行しました。

この成果が重要な理由は二つあります。近い将来、衛星が軌道上でデータの一次選別を行うことで、分析官が処理すべき膨大な生データを減らし、宇宙センサーの有用性を大きく高められます。長期的には、宇宙空間で大規模なAIインフラを動かすための実証点となります。

Loftのヘッド・オブ・AIであるPaul Lasserre氏は「宇宙に常時稼働の監視レイヤーへの扉を開く」と述べました。VLMがあれば「この国境を監視し、不審な動きがあれば知らせて」といった論理的な指示を出し、衛星と対話できるといいます。YAM-9には宇宙用演算チップの代表格であるNvidia Jetson Orin AGX GPUが搭載されています。

他社の追随も予想されます。Planet Labsは現在Jetson Orin搭載衛星を単純な物体検知に使っていますが、VLMを含むAI応用の研究を進めています。Lasserre氏は地球上のどこでもリアルタイムに監視するにはYAM-9級の衛星が50〜100機必要だと見ており、Loftは現在12機を運用しています。

今回の小型モデル展開で得た知見は、電力やメモリ管理という地味だが重要な領域で、より大規模な宇宙演算インフラの構築に生かされます。開発の発端は、月や火星を探査する宇宙飛行士向けのデジタルアシスタント構想でした。加圧服でキーボードを叩けない飛行士のため、対話型AIを提供できないかという発想から生まれたものです。

出典：TechCrunch

NVIDIAが初の自律型AI性能指標で首位

2026年06月12日 NVIDIA DeepSeek 検索専門家経営者推論半導体 GPU エネルギーコーディング投資エージェントベンチマーク Cursor

ベンチマーク結果

業界初のAgentPerfで計測

電力当たり20倍の処理能力

GB300 NVL72が最高性能

性能の源泉

72基のGPUをラック統合

通信と計算の重ね合わせ最適化

推論基盤の全層協調設計

実運用への波及

主要推論事業者が既に採用

コーディング支援の現場稼働

詳細を見る

半導体大手のNVIDIAは2026年6月12日、調査会社Artificial Analysisが公開した業界初の自律型AI向け性能指標「AgentPerf」の初回結果で、自社のBlackwell世代基盤「GB300 NVL72」が首位に立ったと発表しました。同基盤は前世代のH200システムと比べ、消費電力1メガワット当たり最大20倍のAIエージェントを稼働させたとされます。

なぜ専用の指標が必要なのでしょうか。従来の推論ベンチマークは、1回のLLM呼び出しに対する応答速度や同時処理数を測るものでした。これに対し自律型AIは、一つの目標を多数の手順に分解し、コード実行やデータベース検索などのツール呼び出しを挟みながら、数十から数百回のLLM呼び出しを連鎖させて動きます。負荷は単純な足し算ではなく乗算的に増えるため、既存指標では捉えきれないという課題がありました。

AgentPerfは、実在する公開コードリポジトリ由来のコーディング作業の軌跡をもとに設計されています。エージェントが課題を受け取り、ファイルを読み、コードを書いて実行し、結果を見て修正を繰り返す一連の流れを再現し、応答性と出力速度の基準を満たしながら何件の作業を同時にこなせるかを測ります。ツール呼び出しは実行せずCPU処理時間で模擬するため、差は計算基盤の性能のみを反映します。

首位の要因は、基盤全体にわたる徹底した協調設計にあります。GB300 NVL72は72基のGPUを単一のラック規模システムに束ね、DeepSeek V4 Proのような大規模な混合エキスパート型モデルを効率よく分散実行します。さらにCUDAカーネルが通信と計算を重ね合わせ、専門家間の調整コストを遅延に上乗せせず吸収する仕組みです。

結果は基盤投資の判断に直結します。加速器1台あたり、電力1メガワットあたりで何件の自律型作業を回せるかという数値は、企業がエージェントを大規模展開する際の投資対効果を左右するためです。BasetenやDeepInfra、Together AIといった主要な推論事業者は既にBlackwell上で最先端モデルを運用しており、AIコーディング基盤Cursorのエージェントなどが実際の現場で稼働しています。

NVIDIAは今後も推論ソフトウェアの最適化により性能と効率が向上すると見込んでいます。次世代の「Vera Rubin」アーキテクチャも本格生産に入り、拡大する自律型AIの需要に応える構えです。経営者にとっては、対話型から自律型へとAIの主戦場が移るなか、基盤選びの評価軸そのものが変わりつつある点に注目すべきでしょう。

出典：NVIDIA公式

Moonshotの新型コード生成AI、思考トークン3割減

2026年06月12日 OpenAI エンジニア推論 GPU 中国 MIT ベンチマーク AIゲートウェイ

発表の要点

思考トークン30%削減

OpenAI互換APIで導入

1兆パラメータMoE基盤

改良MITで重み公開

検証の課題

独立指標は未提出

自社ベンチのみ向上

実装の率直さと能力の乖離

詳細を見る

中国のMoonshot AIは2026年6月12日、オープンソースのコード生成モデルKimi K2.7-Codeを公開しました。前モデルK2.6と同じ1兆パラメータの混合エキスパート構成を引き継ぎ、推論時の「考えすぎ」を抑えて思考トークンを30%削減したと説明しています。OpenAI互換APIで導入でき、本番運用中のチームが構成変更なしに置き換えられる点が特徴です。

最大の変更は低レベルなコードの生成方法です。従来は既存ライブラリを包んで実装していたのに対し、新モデルは実装を直接書き起こすため、Rust・Go・Pythonやフロントエンド、運用基盤など幅広い領域で安定すると同社は主張しています。一方で温度調整に対応せず1.0固定のため、出力のばらつきを調整できない制約もあります。

ベンチマークでは自社指標で最大31.5%の向上を掲げますが、いずれもMoonshot独自の評価にとどまります。モデル間の差が出やすい独立指標DeepSWEには提出されておらず、実務家からは「どのモデルも自社テストでは2桁改善する」と検証の偏りを指摘する声が公に上がっています。

外部の検証結果はより複雑です。研究者がGPUカーネル最適化の公開指標で比較したところ、新モデルは6問中5問で実際に独自実装を書いた一方、うち2つは自らのバグで失敗し、ある項目では前モデルよりスコアが低下しました。「率直になったが能力は上がっていない」との評価が示されています。

経営やエンジニアの視点では、トークン削減によるコスト低下はすぐに試せる利点です。ただし効率改善が自社の業務分布でも成り立つかは別問題であり、ゲートウェイの重みを変える前に自前のワークロードで検証する慎重な姿勢が求められます。

出典：VentureBeat

AIのボトルネックはGPUよりデータ経路と指摘

2026年06月11日ネットワーク ERP 専門家推論 GPU インフラクラウドセキュリティ投資ベンチマーク

ベンチマークの盲点

遅延を加えるとS3スループット急落

本番環境を再現しない試験条件

ジッターより遅延が主因

データ経路の価値

GPUはデータ供給次第で価値変動

AIは遅延スパイクに脆弱

ストレージ前段に制御点配置

詳細を見る

企業のAIインフラ投資はGPU確保や学習スループットに集中してきましたが、見落とされているのがストレージと計算をつなぐデータ経路だと、F5の専門家らが2026年6月11日付の寄稿で指摘しました。本番環境では遅延スパイクやネットワークのジッター、ノード劣化が発生し、実験室では好成績でも実運用で停滞するパイプラインが生まれると警告しています。

問題を増幅させているのが、ベンチマーク手法そのものだといいます。F5のポール・ピンデル氏は「ベンチマークは最も現実的な結果ではなく、最良の性能を出すよう設計されている」と述べ、本番で必ず生じる遅延を試験に組み込んでいない点を問題視します。実際にF5とMinIOが劣化したネットワーク条件下で検証したところ、わずかな遅延でもS3のスループットが大きく低下し、長距離通信に近づくほど劣化が深刻になることが分かりました。

意外だったのは、スループット低下の主因が想定していたジッターではなく遅延だった点です。この結果は、S3オブジェクトストレージを理想的な条件ではなく、実際に直面する劣化した環境を前提に設計すべきだという教訓を企業のアーキテクトに突きつけます。

F5のタヌ・ムトレジャ氏は「GPUは最も目立ち高価なため注目されるが、本番ではデータ経路が供給する分だけの価値しか生まない」と語ります。データ経路が劣化すると、GPUの稼働率低下だけでなく、推論性能の悪化やAI出力の品質低下、不要なデータ複製によるegressコスト増など影響が連鎖します。

AIワークロードは従来の業務システムより構造的に脆弱です。データベースやERPはキャッシュやバッファで一時的な遅延を吸収できますが、大規模並列のGPUクラスタにはその保護がなく、小さな遅延でもクラスタ全体に波及してしまいます。

解決策として同社が示すのが、ストレージの前段にアプリケーション配信・セキュリティ基盤を置き、制御点とする方式です。F5のBIG-IPがデータ経路上でMinIOの分散ストレージノードの健全性を監視し、正常なノードのみへ通信を振り分けることで、効率を保つとしています。複数リージョンやクラウドにまたがる場合は、データの所在や管轄権がデジタル主権上の設計制約になるとも強調しました。

出典：VentureBeat

新研究、LLMの文脈を16倍圧縮しKVキャッシュ超え

2026年06月11日 GitHub 検索推論事前学習 GPU エージェントベンチマーク教師 Hugging Face RAG

技術の中身

入力を事前圧縮する新方式

デコーダ手前で16倍圧縮

従来比8.8倍高速

符号化器0.6Bと復号器4Bの構成

精度と実用性

4倍圧縮で精度91.76%維持

100万トークンも単一GPUで処理

RAG連携には調整が必要

詳細を見る

米ニューヨーク大学やコロンビア大学などの研究チームは2026年6月11日、大規模言語モデル（LLM）の入力文脈を圧縮する新手法「潜在文脈言語モデル（LCLM）」を発表しました。デコーダに到達する前に入力トークン列を圧縮することで、長大化する文脈が生む計算コストと処理速度の課題を解決します。モデルはHuggingFace上でオープンソース公開されました。

従来主流のKVキャッシュ圧縮は、全キャッシュを生成してから不要部分を削除します。これに対しLCLMはデコーダのprefill前に入力そのものを圧縮するため、高い圧縮率がそのまま計算量とメモリの削減に直結します。論文によると、長文脈ベンチマーク「RULER」で16倍圧縮時、KVキャッシュ基準より出力が8.8倍高速になりました。

精度の劣化が小さい点も特徴です。4倍圧縮では文脈を4分の1に減らしながら精度91.76%を保ち、無圧縮の94.41%から3ポイント未満の低下にとどまりました。16倍圧縮で入力の93.75%を除いた場合でも精度は75.06%で、同条件のKVキャッシュ手法をすべて上回りました。

アーキテクチャは0.6Bの符号化器と4Bの復号器を組み合わせ、3500億トークン超で訓練されました。継続事前学習、推論や長文脈タスクの教師ありデータ、細部を保持させる補助的な再構成タスクの3種を混ぜることで、圧縮と汎用性能の両立という従来の課題を克服しています。探索の結果、符号化器より復号器を拡大する方が効果的と判明しました。

実用面では既存のLLMと差し替えて使える設計です。共同責任者でコロンビア大学のミカ・ゴールドブラム氏は、文書を文脈に投入する前に圧縮器を通すだけだと説明します。人間が内容をざっと読んでから重要箇所を精読する動きに近く、エージェントが必要なテキストだけ選択的に復元する仕組みも示されました。

一方で課題も残ります。RAGパイプラインを持つ企業は、導入前に検索品質の指標に対して圧縮の挙動を検証する必要があります。さらに推論トレースのオンライン圧縮は未解決で、生成中に随時圧縮する素朴な手法が機能するかは今後の検証次第とされています。コードとモデルはGitHubとHuggingFaceで公開されています。

出典：VentureBeat

Hugging Face、PyTorchの推論最適化を解説

2026年06月11日エンジニア推論 GPU Hugging Face

nn.Linearの実態

転置はメタデータ書換のみ

バイアス加算はGEMM融合

addmmが単一カーネル化

compileは融合余地なし

MLPの融合効果

MLP1回で5カーネル

compileがGeLUとmulを融合

中間テンソルのHBM往復削減

手書きカーネル

Ligerは形状非依存で再コンパイル不要

詳細を見る

Hugging Faceは6月11日、PyTorchの処理を可視化するプロファイリング連載の第2回を公開しました。今回は深層学習の基本部品であるnn.Linearを題材に、GPUカーネルの実際の挙動を追い、torch.compileやLiger製の手書きカーネルとの違いを実測値で示しています。対象読者はモデルの推論速度を詰めたいエンジニアです。

まず単一のnn.Linearでは、行列積と転置、バイアス加算が一見すると別々の処理に見えますが、実態は異なります。転置を担うaten::tはGPU上でカーネルを起動せず、テンソルの形状とストライドというメタデータを書き換えるだけです。バイアス加算もcuBLASのGEMMカーネル末尾に折り込む「エピローグ」として統合され、最終的にaten::addmmという単一カーネルで完結します。

そのため単一のLinearではtorch.compileが融合する余地はほぼ残っていません。compileが消すのはGPUの計算ではなく、ビュー処理を発行するCPU側の数マイクロ秒のオーバーヘッドです。Inductorがコンパイル時にストライドを計算し、addmmを直接呼び出すよう書き換えるため、GPUの計算内容は変わりません。

効果が表れるのは三つのLinearを積んだMLPです。GeGLU構成のMLPは1回の順伝播で3つのGEMMとGeLU、乗算の計5カーネルを起動します。torch.compileはこのうちGeLUと乗算、リシェイプを1つのTriton融合カーネルにまとめ、約50MBの中間テンソルがHBMを往復する無駄を排除します。これがコンパイルによる最大の改善点です。

記事は最後に、人手で調整したLiger製カーネルを比較対象に挙げます。Ligerの実行時間は92.8マイクロ秒で、特定形状向けに最適化されたInductorの89.4マイクロ秒よりわずかに遅く見えます。しかしInductorは入力形状が変わるたびに再トレースとコンパイルが必要で、Ligerは形状が変わっても再コンパイル不要です。数マイクロ秒と引き換えに形状変化への頑健さを得ているわけです。

筆者が一貫して勧めるのは「先に予想し、それから見る」という習慣です。トレースを開く前にカーネル数や種類を予測し、想定と食い違った点こそ最も学びが多いと説きます。次回はMLPからアテンション、最終的には完全なモデルへと解説を進める予定です。

出典：Hugging Face

Google、生成4倍速の拡散型モデルを公開

2026年06月11日 Google NVIDIA 画像生成エンジニア推論ファインチューニング GPU クラウド画像 Gemma

拡散方式の仕組み

256トークンを並列生成

全位置が相互に注意

誤りを自己修正

Apache 2.0で公開

性能と適用範囲

H100で最大1008トークン毎秒

標準版より品質は低下

ローカル推論で優位

詳細を見る

Googleは6月11日、テキストを拡散方式で生成するオープンソースの実験モデルDiffusionGemmaを公開しました。画像生成で使われる拡散の原理を文章生成に本番規模で適用したもので、GPU上で標準モデルの最大4倍の速度を実現すると説明しています。Gemma 4を基盤にApache 2.0ライセンスで提供され、推論基盤vLLMがネイティブ対応した初の拡散言語モデルとなります。

従来の言語モデルはタイプライターのように左から右へ1トークンずつ生成し、確定した出力を後から修正できません。これに対しDiffusionGemmaは256個のランダムな仮トークンの塊から始め、ブロック全体を何度も並列で精緻化します。各パスで確信度の高い位置を確定し、不確実な位置は次のパスで再評価するため、自己修正と双方向の文脈参照が可能になります。

この構造はコード補完やテンプレート生成など、左から右への生成では失敗しやすい制約付きタスクに構造的に適しています。Googleは数独ソルバーで実証し、ファインチューニング後に成功率80%へ到達。確定ステップ数も48から12へと大幅に減り、早期停止による効率化を示しました。

速度面では、単一のNvidia H100でバッチサイズ1のFP8版が毎秒1008トークン、H200では1288トークンに達し、標準的な自己回帰方式の約6倍にあたります。一方でモデルは26BのMixture of Experts構成で、推論時に動かすのは3.8Bパラメータのみ。量子化すればRTX 4090など消費者向けGPUの18GB VRAMに収まります。

ただし速度の優位は条件付きです。GPUに余力があるローカル推論や低並列の用途で効果を発揮する一方、数百件を同時処理する高スループットのクラウド配信では効果が薄まります。Google自身も出力品質は標準Gemma 4より低いと認め、最高品質が必要な用途には標準版を推奨しています。

経営層やエンジニアにとって、専用GPUでの遅延削減はこれまで小型モデルへの妥協を意味していました。DiffusionGemmaは同じパラメータ規模のまま第三の選択肢を提供し、当日からvLLMで使えます。品質とのトレードオフは現実的ですが、ローカル推論や制約付き生成を扱うチームには試す価値があります。

出典：VentureBeat

Sapientが約1500ドルで基盤モデルをゼロから訓練

2026年06月10日 ChatGPT Qwen 検索 Llama 推論 GPU インフラベンチマーク基盤モデルトランスフォーマー Gemma Intel

低コスト訓練の仕組み

階層型再帰モデルで効率化

指示応答ペアのみで訓練

10億パラメータ・400億トークン

GPU16台で1.9日で完了

ベンチマーク性能

MMLU 60.7%で大型モデルに匹敵

訓練トークン数100〜900分の1

推論と知識記憶の分離が鍵

企業向けの展望

独自ドメイン特化の推論エンジン

外部検索との組み合わせ前提

詳細を見る

Sapient Intelligenceの研究チームは、独自のHRM-Text（階層型再帰モデル）アーキテクチャを用いて、わずか約1500ドルで10億パラメータの基盤言語モデルをゼロから訓練したと発表しました。従来、基盤モデルの事前訓練には数百万ドル規模の費用とインターネット規模のデータが必要とされてきましたが、同社はこの常識を覆す結果を示しています。

HRM-Textの核心は、計算を「ゆっくり変化する戦略層」と「素早く変化する実行層」に分離する二層構造にあります。従来のTransformerが生テキストに対して次トークン予測を繰り返すのに対し、HRM-Textは指示と応答のペアのみを訓練データとして使い、タスク完了を目的関数としています。さらに、再帰的な構造で生じる勾配の不安定性を抑えるため、独自の正規化技法「MagicNorm」とウォームアップ手法を導入しました。

ベンチマーク評価では、MMLU 60.7%、GSM8K 84.5%、MATH 56.2%を達成しています。これは20億〜70億パラメータ規模のオープンモデルと同等以上の水準です。訓練に使ったトークン数はQwen・Gemma・Llamaなどの100分の1から900分の1、推定計算量は96分の1から432分の1にとどまります。GPU16台のクラスタで1.9日という短期間で訓練が完了しました。

同社CEOのGuan Wang氏は、企業が直面する課題を「訓練コスト・インフラの重さ・実験サイクルの遅さ」の三重苦と表現しています。HRM-Textは知識の暗記と推論能力を切り離す設計のため、企業は自社データを外部のフロンティアモデルに送ることなく、コンパクトな推論エンジンとして活用できます。外部の検索システムと組み合わせることで、事実情報の取得は別途行う構成が想定されています。

現段階では「ChatGPTの代替にはまだならない」とWang氏自身が認めており、プロダクション利用にはテンプレート設計やアテンションマスクの調整など技術的な作業が必要です。それでも、基盤モデルの訓練コストが1500ドル台に下がるインパクトは大きく、「AIはインフラの問題ではなく戦略の問題になる」と同氏は主張しています。Transformersライブラリでのサポートも始まっており、vLLMやSGLangへの対応も開発中です。

出典：VentureBeat

GPUクロック周波数の最適化でLLM訓練の消費電力を14%削減

2026年06月10日 NVIDIA ネットワーク GPU エネルギー

省エネ技術の仕組み

カーネル単位でGPU周波数を動的調整

コア・メモリの負荷に応じた電圧制御

訓練速度の低下はわずか0.6%

実験結果と今後の展望

GPT-3-xlの単層訓練で検証

新型GPUほど周波数切替が高速

自動最適化ツールの開発を推進

性能を犠牲にしない省エネを実現

詳細を見る

オランダのトゥエンテ大学の研究チームが、LLMの訓練時に消費する電力を最大14%削減できる手法を発表しました。GPUのクロック周波数を計算処理の内容に応じて動的に調整する「動的電圧・周波数スケーリング（DVFS）」と呼ばれる技術を、従来よりも細かい粒度で適用することで、訓練速度をほぼ落とさずに省電力化を達成しています。研究を率いたJeffrey Spaan氏は、シチリアで開催されたComputing Frontiers学会で成果を発表しました。

DVFSは1990年代から知られる技術ですが、LLM訓練への適用はこれまで困難でした。従来の手法はフォワードパスとバックプロパゲーションという大きな単位で周波数を切り替えていたのに対し、今回の研究ではGPUの計算を構成する「カーネル」と呼ばれる最小単位ごとに周波数を最適化します。1つのニューラルネットワーク層は約40のカーネルに分割され、それぞれでコアクロックとメモリクロックの最適な組み合わせを設定することで、大幅な省エネを実現しました。

GPU自体にもDVFSの自動調整機能は備わっていますが、次にどのカーネルが実行されるかを予測できないため、最適な省電力には到達できません。研究チームの手法は事前にワークロードを分析して周波数を決定するため、GPU内蔵の制御を上回る効率を引き出せるのです。

実験はNVIDIA RTX 3080 Ti上でGPT-3-xlの1層を訓練する設定で実施されました。14%の省エネは理論上の最良値であり、周波数切替に要する時間を考慮すると実際の効果はGPUの世代に依存します。NVIDIAのBlackwell世代など新しいGPUでは切替速度が大幅に向上しており、理論値に近い省エネが期待できます。研究チームは今後、任意のワークロードに対して最適な周波数設定を自動で適用するツールの開発を進める方針です。

出典：spectrum.ieee.org

Google、テキスト拡散モデルDiffusionGemmaを公開

2026年06月10日 Google NVIDIA ワークフロー画像生成推論 GPU 画像エージェントトランスフォーマー Hugging Face Gemma Google DeepMind

モデルの技術的特徴

256トークンを同時生成

Gemma 4ベースの26B MoE構成

推論時は3.8Bパラメータのみ起動

Apache 2.0でオープン公開

性能と対応環境

H100で毎秒1000トークン超

RTX 5090で毎秒約700トークン

自己回帰モデル比最大4倍高速

NVIDIAが各GPU向けに最適化

詳細を見る

Google DeepMindは2026年6月10日、テキスト拡散モデル「DiffusionGemma」をApache 2.0ライセンスで公開しました。従来の自己回帰型LLMが1トークンずつ逐次的にテキストを生成するのに対し、DiffusionGemmaは画像生成AIと同様の拡散手法を用いて最大256トークンを同時に生成します。これにより、GPU上でのテキスト生成速度が最大4倍に向上します。

モデルはGemma 4ファミリーをベースとした26B規模のMixture of Experts構成で、推論時に起動するパラメータは3.8Bにとどまります。そのため量子化により高性能コンシューマーGPUのVRAM 18GBに収まります。双方向アテンションにより、インライン編集やコード補完、数理グラフなど非線形な生成タスクで従来モデルより優位性を発揮します。

NVIDIAは同日、DiffusionGemmaを自社GPU群で最適化したことを発表しました。単一のH100で毎秒1000トークン超、RTX 5090で毎秒約700トークンの推論速度を実現しています。DGX Spark、RTX PRO 6000、DGX Stationでも動作し、ローカル環境でのエージェント処理や対話型ワークフローに適しています。

Googleはこのモデルを実験的な位置づけとし、品質面では標準的なGemma 4が依然として推奨されると明記しています。一方で、速度重視のローカル推論やリアルタイムの対話型アプリケーション開発において、拡散ベースのテキスト生成が新たな選択肢になると強調しています。Hugging Face TransformersやvLLM、Unslothなど主要ツールで即日利用可能です。

出典：DeepMind公式 | Ars Technica | NVIDIA公式

Hugging Face JobsでGitHub CI実行が可能に

2026年06月09日 GitHub Flow ワークフロー機械学習 GPU ハードウェアインフラコーディングデバッグエージェント Hugging Face

仕組みと導入手順

GitHub Actionsのruns-onラベル1行変更で移行

dispatcher SpaceがWebhookを受けJobを起動

GitHub Appでリポジトリと連携しトークン自動管理

GPU含む多様なハードウェア選択が可能

性能と実用性

CPU CI実行時間が約30%短縮

GPU CIをt4-smallで45秒・1セント未満で実行

Dockerイメージの自由な選択でさらに高速化

CLIからのログ取得でデバッグが容易

詳細を見る

Hugging Faceは2026年6月9日、GitHub ActionsのCIジョブをHugging Face Jobs上で実行するための移行ガイドを公開しました。GitHub Actionsのワークフローファイルでruns-onラベルを1行変更するだけで、Hugging Faceのサーバーレスインフラ上でCIを実行できるようになります。CPUだけでなくGPU ハードウェアも選択可能で、機械学習プロジェクトのテストに特に有用です。

この仕組みの中核はjobs-actions-dispatcherと呼ばれるDocker Spaceです。GitHubのworkflow_job.queued Webhookを受信すると、対応するハードウェアフレーバーのHF Jobを起動し、エフェメラルなGitHub Actionsランナーとして登録します。GitHub側からは通常のセルフホステッドランナーとして認識されるため、既存のワークフロー定義をほぼそのまま利用できます。

導入にはまずdispatcher Spaceを自分のHugging Face名前空間に複製し、次にGitHub Appを作成してリポジトリにインストールします。GitHub Appはワークフロージョブの監視とランナー登録トークンの発行に必要な権限を持ちます。セットアップはブラウザでもCLIでも実行可能で、エージェントによる自動化にも対応しています。

実際の性能面では、GradioチームのTrackioプロジェクトで検証が行われました。CPUジョブではGitHub標準の1分40秒に対し、Playwrightイメージを使用することで1分10秒と約30%の短縮を達成しています。GPU CIではt4-smallラベルを使い45秒で完了し、コストは1セント未満でした。GitHub側にはGPUホステッドランナーの同等オプションがないため、ML系プロジェクトにとって大きな利点となります。

さらに、HF JobsはDockerイメージの自由な指定やボリュームマウントにも対応しており、データセットやモデルのロードを伴うCIにも柔軟に対応できます。ログはCLIから簡単に取得でき、ローカルツールやコーディングエージェントでの解析にも適しています。オープンソースの機械学習プロジェクトがGPU CIを手軽に導入できる実用的な選択肢として注目されます。

出典：Hugging Face

電動スクーター創業者が宇宙データセンター企業を設立

2026年06月09日 NVIDIA 創業者推論オープンウェイト半導体 GPU データセンターエネルギー投資提携 Andreessen Horowitz SpaceX Falcon

Orbitalの事業構想

a16zのSpeedrunから卒業

500万ドルのシード調達

Starship実用化を前提とした計画

1万機の衛星で1GW提供が目標

技術と競争環境

Blackwellチップで初のデモ飛行

2028年にSpace-1 GPU搭載機を打上げ

StarcloudやBlue Originも参入

Starship価格が事業成立の鍵

詳細を見る

電動キックボード企業Spinの創業者Euwyn Poon氏が、宇宙空間でAI推論処理を行うデータセンター企業「Orbital」を設立し、a16zのアクセラレータプログラムSpeedrunを経て500万ドルのシード資金を調達しました。Poon氏は2017年にSpinを創業し翌年Fordに売却した経験を持ち、その後自らNvidia A100を購入してオープンウェイトモデルの提供を始めたことからAIコンピュート事業の価値を確信したといいます。

Orbitalの技術ロードマップは段階的です。まず提携先の衛星にNvidia Blackwellチップを搭載し、同社独自の放射線シールドと熱管理技術を検証するデモ飛行を実施します。2028年にはNvidiaのSpace-1 Vera RubinクラスGPUを搭載した初の自社データ処理衛星の打上げを計画しており、段階的な推論処理の受託で収益化を目指します。

最終目標は各100kWの電力を供給する1万機の衛星による分散型ギガワット級コンピューティング基盤の構築です。ただし現行のFalcon 9の打上げ費用では経済性が成り立たず、SpaceXのStarshipが商業運用を開始し打上げコストが大幅に下がることが事業成立の前提条件となっています。

宇宙データセンター市場には競合も多く、すでにGPUを軌道上に展開しているStarcloud、独自ロケット開発に着手したCowboy Space Company、大型ロケットNew Glennを持つBlue Originなどが参入しています。a16zパートナーのAndrew Chen氏は、Poon氏がSpinで100都市に25万台のスクーターを展開した実績を評価し、10年以上・50億ドル超の投資が必要になりうる長期プロジェクトへの出資に「2026年に始めるからこそ資本市場のエネルギーを活用できる」と語りました。

出典：TechCrunch

Cohereがコーディング特化の30Bオープンモデルを公開

2026年06月09日 Claude 創業者推論強化学習 GPU コーディングエージェントコンテキストオープンソースモデル教師 Hugging Face Cohere

モデルの設計と性能

30BパラメータのMoE構造

トークンあたり3Bが稼働

単一H100で動作可能

Apache 2.0ライセンスで公開

訓練手法と実用性

3種のエージェント足場で訓練

7万超の検証可能タスクで強化学習

出力トークン量は競合の約3倍

高頻度運用時のコスト増に注意

詳細を見る

Cohereは2026年6月9日、エージェント型ソフトウェア開発に特化したオープンソースモデル「North Mini Code」を発表しました。30億パラメータが実際に稼働する300億パラメータのMixture-of-Experts（MoE）モデルで、256Kトークンのコンテキストウィンドウを備え、Apache 2.0ライセンスのもとHugging Faceで公開されています。単一のH100 GPUやMac Studio上でも動作する軽量さが特徴です。

技術的には128個のエキスパートのうちトークンごとに8個が活性化する疎なMoE構造を採用しています。訓練では2段階の教師あり微調整の後、約5,000リポジトリから収集した7万件超の検証可能タスクを使った強化学習（RLVR）を実施しました。SWE-BenchやTerminal-Bench v2との重複を排除し、評価の公正性も確保しています。

注目すべきは、単一のエージェント足場に最適化するのではなく、SWE-Agent、mini-SWE-Agent、OpenCodeの3種類のハーネスで訓練した点です。これにより、OpenCode評価で10ポイントの性能向上を達成しつつ、SWE-Agent上の性能も維持しています。異なるツール環境間でのスキル転移が正の効果を生むことが示されました。

一方、独立評価機関Artificial Analysisのテストでは、出力速度で127モデル中8位にランクインしたものの、同等モデルと比較して約3倍の出力トークンを生成する傾向が確認されました。大量のエージェントパイプラインを運用する場合、この冗長性が推論コストとレイテンシに直結する課題となります。

共同創業者のNick Frosst氏は「小さく、コスト効率が高く、オープンソースでローカル展開可能。これがLLMの進むべき方向だ」と述べ、Claude Fable 5の100万出力トークンあたり50ドルという価格設定との対比を強調しました。企業にとっては、マネージドサービスの利便性とオンプレミス運用によるコスト管理・データ主権の間で、実際のワークロードに基づいた選択が求められます。

出典：VentureBeat | Hugging Face

Apple、WWDC26でSiri AIと独自基盤モデルAFM 3を発表

Siri AI刷新の全容

Google Geminiベースの新Siri AI

専用アプリとして独立、全デバイス対応

画面認識で文脈に応じた操作を実行

Private Cloud Computeでプライバシー確保

AFM 3とAI写真編集

AFM 3は20Bパラメータをフラッシュに格納

オンデバイスで1B〜4Bを動的に活性化

写真のフォトリアル生成を解禁

SynthID透かしで改変を識別

開発者向けAI基盤

App Intentsでアプリ操作をSiriに公開

Shortcutsの自然言語生成でバイブコーディング実現

詳細を見る

Appleは2026年6月9日、年次開発者会議WWDC 2026で、AIアシスタント「Siri AI」の全面刷新と、第3世代の独自基盤モデル「AFM 3」ファミリーを発表しました。新SiriはGoogle Geminiをベースとし、専用アプリとして独立。テキスト・音声・画像によるマルチモーダル対話に対応し、iPhoneからMac、Apple Watchまで全デバイスで利用できます。Tim Cook CEOにとって最後のWWDCとなる今回、同社はAI分野での遅れを取り戻す姿勢を鮮明にしました。

Siri AIの最大の特徴は、画面上のコンテンツを認識して文脈に応じた操作を実行するエージェント機能です。InstagramやSafariで表示中の情報をもとに検索や予定登録を行ったり、メッセージの文脈からリマインダーを自動提案したりできます。Apple上級副社長のCraig Federighi氏は「AIにおけるプライバシーは交渉の余地がない」と強調し、処理はオンデバイスまたはPrivate Cloud Computeで完結すると説明しました。

技術面で注目されるのがAFM 3 Core Advancedです。20億パラメータの重みをDRAMではなくNANDフラッシュに格納し、プロンプトごとにルーティングして1B〜4Bのパラメータを動的にDRAMへロードします。従来のMoEモデルがトークンごとにエキスパートを切り替えるのに対し、プロンプト単位で一度だけ選択する設計により、メモリ帯域の制約を回避しています。サーバー側のAFM 3 Cloud ProはGoogle Cloud上のNvidia GPUで稼働し、複雑な推論やエージェント処理を担います。

写真編集では、Appleはこれまでの慎重姿勢を転換し、Image Playgroundでフォトリアルスタイルの画像生成を解禁しました。新ツール「Extend」は画像の枠外をAIで補完し、「Spatial Reframing」は写真の視点を3D的に変更できます。改変画像にはGoogleのSynthID透かしを付与し、AI生成コンテンツの識別を可能にしています。かつてFederighi氏が「写真は現実を正確に捉えるべき」と述べていたことを考えると、大きな方針転換です。

開発者向けには、App IntentsとApp Schemasを通じてアプリの機能をSiriやSpotlightに公開する仕組みが拡充されました。Shortcutsアプリでは自然言語による操作の自動化が可能になり、Safariでも自然言語でブラウザ拡張機能を作成できます。一方、Siri AIはEUと中国では当初利用不可で、対応ハードウェアも限定されるため、グローバル展開には課題が残ります。Appleの戦略はスタンドアロンのチャットボットではなく、OS全体にAIを統合するアプローチであり、プライバシーを武器にMicrosoftやGoogleとの差別化を図っています。

AIエージェントがHugging Face Spacesを連鎖し3Dギャラリーを自動構築

2026年06月09日画像生成エンジニアリスク GPU 認証画像動画音声コーディングデプロイ日本エージェントプロンプト Hugging Face

ビルディングブロック経済の実践

agents.mdでSpace APIを標準公開

画像生成と3D再構成を自動連鎖

統合コードなしでモデル間を接続

マルチメディア開発の変革

パリ・日本・エジプトのギャラリーを量産

新ギャラリーの限界費用は説明文1行分

人間の介入は審美的判断のみ

詳細を見る

Hugging FaceのエンジニアMishig Davaadorj氏が2026年6月9日、AIコーディングエージェントが2つのHugging Face Spacesを連鎖させてパリの名所を3Dガウシアンスプラットで表示するギャラリーサイトを自動構築した事例をブログで公開しました。画像生成にはIdeogram4、単一画像からの3D再構成にはTripoSplatが使われ、エージェントは画像生成からファイル圧縮、ビューア構築、デプロイまでを一貫して実行しました。

この事例の技術的な核となるのが、Gradio Spaceが自動公開するagents.mdという仕様ファイルです。agents.mdにはAPIスキーマのURL、エンドポイントの呼び出し方法、ファイルアップロード手順、認証方式がプレーンテキストで記載されており、エージェントはクライアントライブラリやSDKなしでSpaceを操作できます。これにより、異なる組織が開発した最先端モデル同士を統合コードゼロで連鎖させることが可能になります。

Davaadorj氏はMitchell Hashimoto氏が提唱する「ビルディングブロック経済」の概念を引用し、AIがゼロからの構築よりも実績あるコンポーネントの組み合わせに優れている点を強調しています。従来コードライブラリの文脈で語られてきたこの考え方が、画像生成・動画・音声・3Dなどマルチメディア領域にも波及しつつあるという見解を示しました。

実用性を示す証拠として、パリのギャラリー構築後に同じパイプラインで日本とエジプトのギャラリーも「1文の指示」で量産できたことが報告されています。エッフェル塔やカルナック神殿、姫路城など各国6つの名所が3Dスプラットで再構成され、Three.jsベースのビューアにスクロール切替やドラッグ回転のUIが実装されました。人間が介入したのは「もう少しズームアウトして」「オベリスクを別の建造物に差し替えて」といった審美的な判断のみでした。

この事例は、モデルの統合に伴うSDK管理やGPU確保、入力形式の変換といった障壁がagents.mdによって大幅に低下したことを示しています。「プロンプトから回転する3Dモニュメントを生成する」という作業が、かつてはプロジェクト単位の取り組みだったものが、パイプラインの1ステップに縮小されたとDavaadorj氏は述べています。

出典：Hugging Face

NVIDIAとLGがAI工場を共同建設、ロボットから自動運転まで

2026年06月08日 NVIDIA ワークフローシミュレーション推論 GPU インフラクラウドデータセンターエネルギークラウドサービスロボット韓国ロボティクス提携エージェント

提携の全体像

物理AI向けAI工場を構築

ロボット・自動運転・DC技術が対象

LG全グループ横断の大型協業

ロボットと製造

家庭用ロボットにGR00Tモデル活用

Isaac Simで仮想環境訓練を実施

Cosmosで合成データ量産体制

インフラと自動運転

DSX準拠の液冷AI工場を整備

DRIVE Hyperionで自動運転開発加速

詳細を見る

NVIDIAとLGグループは2026年6月8日、ロボティクス・自動運転・データセンター技術・GPU クラウドサービスにまたがるAI工場を共同で建設すると発表しました。NVIDIAのフルスタックAI基盤とLGの家電・モビリティ・スマートスペース領域の知見を組み合わせ、物理AIシステムの開発から展開までを統合するワークフローを構築します。

ロボティクス分野では、LGエレクトロニクスが家庭用ロボット「CLoiD」の開発にNVIDIA Isaac SimやIsaac Labを導入し、物理的に正確な仮想環境でのシミュレーション・訓練・検証を進めます。さらにNVIDIA Isaac GR00Tモデルの採用も検討しており、ロボットに人間のような推論能力と複雑なタスクの実行力を持たせることを目指しています。訓練データ不足の課題に対しては、LGがNVIDIA Cosmosを活用した物理AIデータファクトリーを構築し、合成データの大量生成で対処する計画です。

AI工場インフラの面では、LGエレクトロニクスとLGエナジーソリューション、LG Uplusが連携し、NVIDIA DSXプラットフォームに準拠したスケーラブルな液冷AIファクトリーの構築を進めます。冷却分配ユニットやコールドプレート、プレハブ式モジュラー設計など、次世代GPU向けの電力・熱管理技術で協力します。LGエナジーソリューションは800ボルト直流給電ソリューションの共同開発にも取り組む予定です。

モビリティ領域では、LGエレクトロニクスが先進運転支援システム（ADAS）や車載AIをNVIDIA DRIVE Hyperionアーキテクチャに対応させる取り組みを強化します。AIコックピットやエッジAI処理を含む将来のモビリティ用途にNVIDIA DRIVE AGXを活用する計画で、グローバル自動車メーカー向けのポートフォリオ拡充を狙います。

主権AIの領域では、LG AI Researchが韓国を代表するAIモデル「EXAONE」の開発にNVIDIA Blackwell GPUやNeMoフレームワークを活用しています。LGグループはChatEXAONEなどのプラットフォームを通じ、エージェント型AIの全社展開とソフトウェア主導のオペレーション変革を加速させる方針です。

出典：NVIDIA公式

NVIDIA、韓国PCバンでRTX Sparkを披露

2026年06月07日 NVIDIA Windows 半導体 GPU 韓国エージェント DLSS

RTX Sparkの特徴

CPU・GPU統合のスーパーチップ

1440p・100fps超のAAAゲーム対応

DLSS 4.5搭載で画質向上

薄型ノートPC・小型デスクトップ向け

韓国ゲーム業界との連携

T1拠点でFakerと共に発表

KRAFTONがPUBGをRTX Sparkで実演

NCがCINDER CITYを披露

Riot GamesもLoL対応を発表

詳細を見る

NVIDIAのジェンスン・ファンCEOは、韓国ソウルのPCバン（ネットカフェ）を訪問し、新型スーパーチップRTX Sparkを披露しました。RTX Sparkは、GTC Taipei・COMPUTEXで発表されたばかりの製品で、パーソナルAIエージェント時代に向けたWindows PCの再発明を掲げています。薄型ノートPCで終日バッテリー駆動を実現しながら、1440p解像度・100fps超のAAAゲームプレイを可能にします。

ファン氏はまず、eスポーツチームT1が運営するT1 Base Campを訪れ、League of Legends世界王者のFaker選手とともにRTX Sparkを公開しました。Riot Gamesと連携し、League of LegendsとVALORANTのRTX Spark対応も発表されています。来場者にはRTX SparkノートPCやGeForce RTX 5090などが当たる抽選会も行われました。

続いてファン氏は江南のPCバンを巡回し、KRAFTONの張炳圭会長とともにPUBG: BATTLEGROUNDSやSubnautica 2をRTX Spark上でデモしました。NVIDIA ACE技術を活用したAI共闘キャラクター「PUBG Ally」の未公開体験も提供されています。さらに別のPCバンでは、NCの金澤辰共同CEOとともにCINDER CITYとAION 2が披露されました。

CINDER CITYは年内発売予定で、DLSS 4.5のDynamic Multi Frame GenerationとSuper Resolutionに発売時から対応します。RTX Sparkのパートナーは100社以上に達しており、NetEase、Remedy Entertainment、XBOXなども名を連ねています。NVIDIAは韓国のeスポーツ・PCバン文化との20年以上の関係を基盤に、次世代ゲーミング体験の普及を加速させる構えです。

出典：NVIDIA公式

NvidiaのAI半導体RTX Spark、Windows PCに登場

2026年06月06日 NVIDIA マイクロソフト Copilot Windows 画像生成エンジニア専門家クリエイター半導体 GPU エネルギー認証画像エージェント Intel Qualcomm Arm

発表概要

Computex 2026で正式発表

Blackwell GB10超半導体を搭載

Microsoftが2機種を投入

Asus・Dell等大手OEMも参入

性能と強み

GPUはRTX 5070級と推定

Copilot+認証のNPU内蔵

鍵は成熟したソフト基盤

残る課題

Arm版Windowsの定着が焦点

汎用PCとしての完成度

詳細を見る

Nvidiaは2026年6月6日、台北で開催された見本市Computex 2026で、Windows PC向けの新半導体「RTX Spark」を正式発表しました。同社のBlackwell GB10「スーパーチップ」をPC用に展開するもので、Microsoftは搭載機としてSurface Laptop UltraとSurface RTX Spark Dev Boxの2機種を公開。Asus、Dell、Lenovo、HP、MSIといった大手メーカーも対応PCを相次いで発表しました。

RTX Sparkの中核は、2025年末に登場したミニワークステーション「DGX Spark」と同系の設計です。コードネームN1Xと呼ばれるこの半導体は、20基のArm CPUコア、6,144基のGPUコア、最大128ギガバイトのLPDDR5Xメモリーを統合したシステムオンチップとなっています。ノートPC版は消費電力を抑える分、性能はメーカーごとの実装に左右される見込みです。

AI処理が注目を集めていますが、用途はそれだけではありません。RTX SparkはMicrosoftのCopilot+認証に必要なNPUも内蔵し、Windows Recallなどの背景機能に活用されます。一方で大規模言語モデルや画像生成といった本格的なAI処理はGPUが担い、クリエイターやゲーマーからも期待が寄せられています。

Nvidiaの最大の強みは、ハードの性能よりむしろソフトウェアにあると専門家は指摘します。同社のGPUはゲームやプロ用途で事実上の業界標準であり、市場シェアは90%超とされます。第三者評価会社Signal65のRyan Shrout氏は「Nvidiaには、QualcommやMicrosoftが初期に実現できなかったことを動かすだけの業界での重みがある」と語ります。

Microsoftは、AIエージェントを隔離環境で自律実行させる開発者向けSDK「Microsoft Execution Containers」の早期プレビューも公開しました。ただ課題は、QualcommとMicrosoftが直面したものと同じです。IntelやAMDのx86チップに対し、Arm版Windowsを有力な選択肢として定着させられるか。Shrout氏は「まず優れた汎用PCであることが大前提だと誰もが理解している」と述べ、真価が問われるのはこれからだと指摘しました。

出典：spectrum.ieee.org

NVIDIA、コンテンツ安全モデルNemotron 3.5を公開

2026年06月04日 NVIDIA 推論リスク GPU コンテンツポリシーコンプライアンス画像中国日本医療ベンチマーク Hugging Face Gemma

主な新機能

カスタムポリシー対応で業種別運用が可能に

推論トレースによる判定根拠の監査

テキストと画像を統合した安全性判定

12言語を明示学習、約140言語にゼロショット対応

性能と実用性

マルチモーダル安全ベンチで平均約85%の精度

多言語Aegisで平均96.5%の分類精度

4Bパラメータで8GB以上のGPUに展開可能

競合比で3倍低いレイテンシを実現

詳細を見る

NVIDIAは2026年6月4日、企業向けAIコンテンツ安全モデル「Nemotron 3.5 Content Safety」をHugging Face上で公開しました。Gemma 3 4Bをベースとする40億パラメータのモデルで、テキストと画像を同時に評価し、両者の組み合わせから生じるポリシー違反も一括で検出します。NVIDIAオープンモデルライセンスのもと、研究・商用いずれの用途にも利用できます。

最大の進化点は、カスタムポリシー機能の追加です。従来は固定の安全分類体系に依存していましたが、3.5では推論時に自然言語で記述した独自ポリシーを入力できるようになりました。これにより、医療・金融・教育など業種固有のリスク基準に合わせた安全判定が可能になります。不要なカテゴリの抑制や、組織独自のリスクカテゴリの追加にも対応しています。

もう一つの注目機能が、推論トレース（THINKモード）です。モデルが安全・不安全の判定に至るまでのステップを段階的に出力することで、判定根拠を監査可能にします。規制産業で求められるコンプライアンスログや、人間によるレビュー、ポリシーの反復改善に活用できます。推論トレースは大規模モデルで生成後、3文以内に要約する2段階プロセスで簡潔化されており、レイテンシへの影響を抑えています。

多言語対応も強化されています。英語・日本語・中国語など12言語を明示的に学習し、ベースモデルのGemma 3から継承した能力により約140言語へのゼロショット汎化も可能です。多言語Aegisベンチマークでは12言語平均96.5%の分類精度を達成しました。マルチモーダル安全ベンチマーク全体では平均約85%の精度を記録しています。

実運用面では、4Bパラメータの軽量設計により8GB以上のVRAMを搭載したGPUで動作します。競合するマルチモーダル安全モデルと比較してエンドツーエンドのレイテンシは3分の1で、推論モード有効時でもトークン生成量は最大50%少なく済みます。訓練データセットも同時公開され、実写真が99%を占める点がマルチモーダル安全研究の既知の課題に対処しています。

出典：Hugging Face

NVIDIA、物理AIエージェントスキルをCVPRで公開

2026年06月03日 NVIDIA GitHub ワークフローシミュレーションエンジニア推論強化学習 GPU ハードウェアインフラポリシーロボットロボティクスエージェント基盤モデル Hugging Face

自動運転研究の革新

Neural Reconstructionで3Dシーン再構築

Alpamayo 2 Super、320億パラメータのVLAモデル

AlpaGymで強化学習を大規模並列化

ロボットとビジョンAI

GraspGen-X、任意グリッパー対応の把持基盤モデル

Isaac Sim 6.0でシミュレーション自動化

Metropolisスキルで異常検知用合成データ生成

研究基盤の拡充

NitroGen、ゲームで訓練した汎用エージェント

物理AIデータセットが1500万DL突破

詳細を見る

2026年6月3日、NVIDIAはデンバーで開催中のCVPR 2026において、自動運転車・ロボット・ビジョンAIの開発を加速する物理AIエージェントスキル群を発表しました。先日公開されたオープン基盤モデルCosmos 3と連携し、シーン再構築から合成データ生成、ポリシー訓練、評価までの断片的だったワークフローを一気通貫で自動化します。すべてのツールはGitHubでオープン公開されています。

自動運転分野では、走行データから編集可能な3Dシーンを生成するNeural Reconstructionスキルや、数千GPUで強化学習を並列実行するオープンソースフレームワークAlpaGymを提供します。さらに320億パラメータの推論型VLAモデルAlpamayo 2 Superは、認識から計画・行動までの全スタックを統合し、レベル4自動運転の開発基盤となります。研究論文LCDriveは、テキスト推論を潜在表現に圧縮することでトークン数を約半分に削減し、車載ハードウェアでの高速推論を実現しました。

ロボティクス分野では、Isaac Sim 6.0とIsaac Labにエージェント対応スキルを統合し、シーン作成からシミュレーション実行、データ取得まで自動化しました。注目すべきは研究論文GraspGen-Xです。20億回のシミュレーション把持データで訓練された初の把持基盤モデルで、未知のグリッパーと未知の物体に対してゼロショットで把持姿勢を生成できます。ロボット開発者がグリッパーごとに訓練し直す必要がなくなるのでしょうか。

ビジョンAIでは、Metropolisスキルが合成異常データの生成や疑似ラベリングを自動化し、外観検査モデルの精度向上を支援します。また、ゲーム環境で訓練した汎用エージェント基盤モデルNitroGenは1,000以上のゲームと4万時間の操作データから学習し、少数データ環境で従来手法比52%の性能向上を達成しました。NVIDIAの物理AIデータセットはHugging Faceで累計1,500万ダウンロードを超え、研究インフラとしての存在感を強めています。

出典：NVIDIA公式 | NVIDIA公式

NvidiaがRTX Sparkで本格AI PCに参入、統合メモリ最大128GB

2026年06月03日 NVIDIA マイクロソフト Apple Windows エコシステムクリエイター推論半導体 GPU ハードウェアデータセンタープライバシーエージェント Intel Qualcomm Arm

RTX Sparkの技術的優位

統合メモリ最大128GB搭載

Arm系N1 CPUとRTX GPU統合

CUDA基盤のAI処理をローカルで実現

RTX 5070相当のグラフィックス性能

市場への影響

MacBook Pro唯一の本格対抗馬

HP・Dell・Lenovo等が採用予定

Surface Laptop Ultraが旗艦モデルに

高性能構成は4,000ドル超の見込み

詳細を見る

Nvidiaは2026年6月、台湾Computexで新チップRTX Sparkを発表しました。Arm系の独自CPU「N1」にRTXグラフィックスと最大128GBの統合メモリを組み合わせたSoCで、HP・Asus・Dell・Lenovoなど主要PCメーカーが搭載ノートPCを投入します。Nvidiaがデスクトップ向けGPUに留まらず、ノートPC全体のアーキテクチャを自ら設計する初の試みです。

これまでMicrosoftが推進してきた「AI PC」構想は、NPU搭載やメモリ16GB以上といった要件にとどまり、大規模言語モデルのローカル推論には力不足でした。RTX Sparkはデータセンターで実績のあるCUDAエコシステムをそのままノートPCに持ち込むことで、ローカルAI推論の性能を大幅に引き上げる狙いがあります。従来、この用途で唯一の選択肢だったMacBook Proに対し、Windows陣営から初めて本格的な対抗馬が登場したことになります。

Microsoftも自社製品Surface Laptop UltraをRTX Spark搭載の旗艦として投入します。15インチMini-LEDディスプレイを備え、MacBook Proと同等のフォームファクターを目指す製品です。高性能構成は4,000ドル超と予想されますが、同等スペックのMacBook Proと同水準の価格帯です。低価格構成ではゲーマーやクリエイター向けにも訴求する計画です。

ローカルAI推論のニーズは急速に高まっています。プライバシーの観点からエージェント型AIをローカルで動かす需要が増加し、Apple Mac Miniの出荷遅延が報告されるほどです。RTX SparkはノートPCだけでなく小型デスクトップにも展開予定で、Intel・AMD・Qualcommへの影響も注目されます。Windows PCに統合メモリとCUDAという新しいハードウェア層が加わることで、AI PCの定義そのものが書き換わる可能性があります。

出典：WIRED

NVIDIA、エッジAIにエージェント機能を搭載するJetPack 7.2発表

2026年06月02日 NVIDIA ワークフローエンジニア推論 GPU データセンターロボットヒューマノイドドローン医療ロボティクスエージェントベンチマーク

JetPack 7.2の主要強化

NemoClawをJetsonに展開可能に

CUDA 13がJetson Orinに対応

AGX Orin 32GBが241TOPSへ20%向上

Yoctoベース軽量Linux基盤の追加

Jetson ThorにMIG対応を実装

産業分野での実用事例

Solomonがヒューマノイドロボットに採用

SandStarがメモリ40%削減を実現

Ziplineが自律配送ドローンに搭載

エージェント開発の加速

開発タスク自動化スキルを提供

Metropolis連携で視覚推論を追加

詳細を見る

NVIDIAは2026年6月2日、台湾COMPUTEXにおいて、エッジAIプラットフォームJetson向けソフトウェアの新版JetPack 7.2とエージェントAIフレームワークNemoClawのJetson対応を発表しました。これにより、サーバーやワークステーションに限られていたエージェントAIが、ロボティクス・産業オートメーション・検査といったエッジの物理世界へ展開可能になります。NVIDIA ロボティクス・エッジコンピューティング担当副社長のDeepu Talla氏は「エージェントAIは到来しており、Jetsonの高い処理性能で即座に本番環境に展開できる」と述べています。

JetPack 7.2は3層構造で提供されます。基盤層ではYoctoベースのカスタマイズ可能なLinux、Jetson OrinへのCUDA 13対応、Jetson ThorでのMIG（マルチインスタンスGPU）とリアルタイムカーネルを搭載しました。Jetson AGX Orin 32GBモジュールは性能が20%向上し、241TOPSのAI演算能力を実現しています。中間層にはLinuxカスタマイズやメモリ最適化、モデルベンチマークなどの開発者向けエージェントスキルが配置されています。

最上層のNemoClaw対応が今回の核心です。1コマンドでJetsonへ展開でき、NVIDIA Metropolis VSSブループリントスキルとの連携により、映像を解釈して行動する視覚推論エージェントの構築も可能になります。データセンターで実績のあるNemoClaw技術が、小売店舗やロボット、交通システムといった現場で稼働する段階に入りました。

すでに複数の企業が実環境で活用を始めています。SolomonはNemoClawでヒューマノイドロボットのAIエージェントを統合し、推論・知覚・運動制御を単一ワークフローで実現しました。Advantechは自社工場にNemoClawベースのエージェント型ファクトリーブレインを構築しています。SandStarはJetson Orin NXとNemoClawでAI自動販売機を30カ国以上に展開し、メモリ最適化で16GBから8GBデバイスへの移行に成功しています。

ロボティクス・ドローン分野でも採用が広がっています。Hexagon RoboticsはJetson Thorでヒューマノイドロボットの安全性を向上させ、Ziplineは自律配送ドローンにJetson Orin NXを搭載して医療品や食品の即時配送を実現しています。1XやUniversal RobotsもYoctoベースのJetPack 7.2を本番環境に導入する予定です。NVIDIAのエッジAI戦略は、物理世界でのエージェントAI実用化を本格的に加速させる局面に入りました。

出典：NVIDIA公式

NVIDIAとMicrosoft、AIエージェント基盤を端末からクラウドまで統合

2026年06月02日 NVIDIA マイクロソフト GitHub Copilot GitHub Copilot Windows 推論推論モデル半導体 GPU ハードウェアインフラクラウドデータセンターエネルギーエージェント基盤モデル

Windows端末の刷新

RTX Spark搭載PCが今秋発売

DGX Stationは1兆パラメータ対応

統合メモリ最大748GBの卓上AI

OpenShellでエージェント安全実行

Azure・データ基盤の強化

Nemotron 3 UltraがFoundryに提供

Fabric Data WarehouseをGPU高速化

Vera Rubinプラットフォームを検証済み

推論スループット電力比10倍向上

詳細を見る

NVIDIAとMicrosoftは、Microsoft Build 2026においてAIエージェント向け統合基盤の大幅拡充を発表しました。Windows端末からAzureクラウド、オンプレミス環境まで、エージェントAIの開発・実行に必要なハードウェアとソフトウェアをフルスタックで提供します。NVIDIAのジェンスン・ファンCEOが台北からサティア・ナデラCEOの基調講演にライブストリームで参加し、両社の協業拡大を明らかにしました。

端末側では、RTX Spark搭載のWindows PCが今秋登場します。1ペタフロップスのAI性能と最大128GBの統合メモリを備え、個人向けAIエージェントの実行に特化した初のPCとなります。Microsoft Surface、ASUS、Dell、HP、Lenovo、MSIから発売予定です。さらにDGX Station for Windowsは、GB300 Grace Blackwell Ultraチップを搭載し最大748GBのコヒーレントメモリと20ペタフロップスのFP4性能で、1兆パラメータ規模のモデルを常時稼働させる企業向けデスクサイドAIスーパーコンピュータです。

クラウド側では、NVIDIAのオープンモデル群がMicrosoft Foundryに統合されます。新たなオープンフロンティア推論モデルNemotron 3 Ultraや、物理AI向け基盤モデルCosmos 3が提供開始となります。Microsoft Fabric Data WarehouseへのNVIDIA GPU統合では、CPU比で最大6倍のSQL実行速度を実現しました。GitHub CopilotにはOpenShellが統合され、エージェントをサンドボックス環境で安全に実行できます。

インフラ面では、Microsoftのウィスコンシン州フェアウォーターAI工場が前倒しで稼働を開始し、数十万台のGrace Blackwellシステムを単一のAI工場として運用しています。次世代のVera RubinプラットフォームもAzureデータセンターへの配備が検証済みで、メガワットあたりの推論スループットを最大10倍に引き上げ、エージェントAIのトークン単価を桁違いに削減します。両社の協業は端末から大規模データセンターまでを一貫してカバーし、エージェントAI時代の基盤を形成する動きです。

出典：NVIDIA公式

Microsoft、ローカルAI開発機Surface RTX Spark Dev Box発表

2026年06月02日 NVIDIA マイクロソフト Apple GitHub Copilot GitHub Copilot Windows エコシステム Llama エンジニア GPU ハードウェアクラウド米国エージェントコンテキスト Arm

ハードウェアの特徴

128GB統合メモリ搭載

NVIDIA Blackwell世代RTX Spark採用

1200億パラメータモデル実行可能

3Dプリント筐体が放熱板兼用

開発者向け戦略

クラウド従量課金への対抗策

VS Code・Copilot等を事前構成

Mac MiniとのCUDA優位性主張

3層ハードウェア戦略の中核製品

詳細を見る

Microsoftは2026年6月2日、開発者カンファレンスBuild 2026でSurface RTX Spark Dev Boxを発表しました。NVIDIAのArm系Blackwell世代RTX Sparkプロセッサと128GBの統合メモリを搭載した小型デスクトップ機で、1ペタフロップスのAI演算性能を備えます。開発者はクラウドにAPIコールを送ることなく、1200億パラメータ超の大規模AIモデルをローカルで実行できます。米国で年内発売予定ですが、価格は未公表です。

この製品はMicrosoftにとって重要な戦略転換を意味します。Azure クラウドで数百億ドルの収益を上げる同社が、あえてクラウド依存を減らすハードウェアを投入するからです。Windows＋Devices担当EVPのPavan Davuluri氏は、10万トークンのコンテキストだけでキーバリューキャッシュが40〜50GBを消費すると説明し、128GBの統合メモリプールの必然性を強調しました。Microsoftはこの動きを「フロンティアモデルへの呼び出しは本当にフロンティアな問題にだけ使い、残りは自前のハードウェアで処理する」と位置づけています。

筐体設計にも特徴があります。アルミ製トップパネルは金属3Dプリントで製造され、CNC加工では不可能な複雑な内部形状により、約100ワットの連続負荷を静音で冷却します。ソフトウェア面では、Windows 11 Proがイメージレベルで開発者向けに最適化されており、ダークテーマ、Developer Mode有効化、PowerShell 7デフォルト、WSL 2のGPUパススルーとCUDA対応が出荷時に構成済みです。

競合となるApple Mac Miniとの比較について、Davuluri氏は「意図的に異なる性能クラス」と述べました。M4 Pro搭載Mac Miniの統合メモリは最大48GB、M4 Maxでも128GBですが、Dev Boxは128GBに加えてBlackwell級GPUのCUDAエコシステムを活用できます。PyTorch、TensorRT、llama.cppなど主要AIフレームワークの大半がNVIDIA向けに最適化されている点で、Apple Siliconに対する移植性の優位を主張しています。

本製品はMicrosoftの3層ローカルAI戦略の中核です。モバイル向けのSurface Laptop Ultra、デスクトップ向けの本機、そして1兆パラメータ対応のDGX Station for Windowsという階層構成で、「従量課金なしの知能」を掲げます。GitHub Copilot CLIの新機能/fleetでは、クラウドエージェントがタスクの複雑度を判定し、適切なサブタスクをローカルモデルに振り分ける仕組みも導入されます。クラウドAIの経済性に疑問が広がるなか、ローカルとクラウドの両端を押さえる戦略が奏功するか注目されます。

出典：The Verge | VentureBeat

NVIDIA、AIエージェントPC向け新CPUをComputexで発表

新チップRTX Spark

1ペタフロップのAI性能

128GB統合メモリ搭載

20コアCPUのArm設計

今秋に主要メーカーから発売

200B市場の野望

黄CEOがCPU新成長源と表明

MicrosoftやDellなど提携

ローカルエージェントを安全実行

詳細を見る

半導体大手NVIDIAは6月1日、台湾Computexで新型PC向けCPU「RTX Spark」を発表しました。1ペタフロップのAI処理性能と128GBの統合メモリを備え、OpenClawなどのAIエージェントをPC上で安全に動かす「スーパーチップ」と位置付けます。搭載するWindows PCは今秋、ASUS、Dell、HP、Lenovo、Microsoft Surface、MSIから発売される予定です。

創業者のジェンスン・フアンCEOは、アプリを起動してクリックや入力を繰り返す従来の操作を終わらせたい考えです。「頼めばPCが仕事をする」と述べ、フロンティアモデルや創作ワークフロー、ゲームをすべてノートPC上で実現すると強調しました。同氏は先月の決算で、GPUに加えCPU販売で2000億ドル規模の新市場を見出したと投資家に語っています。

技術面では、Microsoftと共同開発したセキュアなサンドボックスを備え、エージェントを安全に隔離して実行します。NVIDIA OpenShellランタイムがエージェントの権限を制御し、プライバシー方針に応じてクエリをローカルモデルへ振り分けたり、クラウド送信時に個人情報を匿名化したりします。Adobeはこのチップ向けにPhotoshopとPremiereを再設計し、AI処理を最大2倍高速化するとしています。

もっとも、NVIDIAがArmベースのWindows機に挑むのは初めてではありません。2013年にはMicrosoftがArm搭載のSurface RTで9億ドルを減損した過去があります。今回のチップはより高性能で、MicrosoftはSurface Laptop Ultraを「最も強力なSurface」と銘打ちますが、各社は価格などの詳細をまだ明らかにしていません。

The Vergeはこれを「Windows版M1の瞬間」になり得ると評価しつつ、価格を懸念します。RTX SparkはDGX Spark（約4800ドル）のWindows版とみられ、128GBメモリ搭載機は高額化が避けられません。AppleがM1で安価なMac MiniやMacBook Airから普及を進めたのに対し、NVIDIAは2000ドル超の高価格帯から始める構えで、消費者の支出余力が細るなか普及の壁になりそうです。

それでも、Riot Gamesがアンチチート機能をArmに対応させるなど、Windows on Armの弱点だったゲーム互換性の改善も進みます。Intel、AMD、Qualcommに続く第4の選択肢として、NVIDIAが安全で使いやすいAIエージェントを大衆に届けられるかが今後の焦点となります。

出典：TechCrunch | The Verge | NVIDIA公式

NVIDIA、物理AI向け統合基盤モデルCosmos 3を公開

2026年06月01日 NVIDIA エンジニア推論 GPU 画像ロボットヒューマノイドベンチマーク基盤モデルトランスフォーマー Hugging Face

単一モデルで統合

推論と生成の統合モデル

テキスト・映像・音・動作対応

MoTアーキテクチャ採用

従来の4モデルを1つに集約

用途と公開形態

ロボット・自動運転・スマート空間

合成データ生成を支援

16Bと64Bの2サイズ提供

Hugging Faceでオープン公開

詳細を見る

NVIDIAは6月1日、物理AI向けの世界基盤モデル「Cosmos 3」を発表しました。COMPUTEXのGTC台北で公開された本モデルは、テキスト・映像・画像・音・動作という複数のモダリティを単一モデルで処理し、ロボットや自動運転車、スマート空間が現実世界を理解・予測・行動するための基盤を提供します。

最大の特徴は、これまで世界生成・制御生成・シーン理解・方策生成という用途ごとに別々のモデルを使い分けていたものを、1つのモデルに統合した点です。Mixture-of-Transformers（MoT）アーキテクチャを採用し、推論を担う自己回帰部分と生成を担う拡散部分が共同注意で連携します。これにより、視覚言語モデル、映像生成、ロボット方策などを構造を変えずに切り替えられます。

物理AIにとって重要なのは、画像や映像だけでなく動作信号を扱える点です。Cosmos 3はロボットの関節角度やグリッパー位置、軌道点といった数値的な動作データを直接生成でき、ピック&プレース作業などの学習に役立ちます。開発者は特定のロボットや作業環境に合わせて追加学習することも可能です。

活用事例も広がっています。NVIDIAのGEARチームは映像動作モデルの開発に、Agile Robotsは産業用ヒューマノイドの方策開発向けデータ生成に本モデルを利用しています。Linker Visionはスマートシティ向けに数千のカメラ映像を解析し、根本原因分析などに活用しています。

公開形態として、16BのNanoと64BのSuperの2サイズが用意され、いずれもHugging Faceでオープンに提供されます。NanoはRTX PRO 6000など作業用GPUで動作し、Superは大規模な合成データ生成や研究向けです。Linux FoundationのOpenMDW 1.1ライセンスのもと、重みやデータセット、コードを単一ライセンスで扱えます。

性能面でも、Cosmos 3はArtificial Analysisのオープン重みリーダーボードで首位に立ち、Physics-IQやR-Benchなど複数の世界生成ベンチマークでトップを記録しています。衝突や稀なエッジケースなど、現実では安全に再現しにくい場面を合成データで補える点が、物理AI開発の加速につながりそうです。

出典：NVIDIA公式 | Hugging Face

NVIDIA、AIクラウド網を6大陸へ拡大

2026年06月01日 NVIDIA 生産性 AI導入シミュレーション推論半導体 GPU ハードウェアインフラクラウドエネルギーロボットオーストラリア医療エージェント TSMC

クラウド網が世界拡大

AI Cloud網が6大陸到達

アフリカ・南米へ新規進出

トークン最低コストを訴求

主権AI・地域容量に対応

台湾が供給網を主導

MGX部品100万超を統合

TSMCがcuLithoで20-50%改善

Foxconnが10000基GPU稼働

製造現場へ物理AI導入

詳細を見る

半導体大手NVIDIAは6月1日、世界各地のパートナーと連携してAI向け計算基盤「AIファクトリー」の構築を加速していると発表しました。専用クラウド群「NVIDIA AI Clouds」はアフリカのCassava、南米のClaroを加えて6大陸に到達し、企業や新興国、政府の旺盛なAI需要に応える地域容量と主権AI基盤を提供します。同時に、生産拠点である台湾の製造大手がこの世界的な拡大を支えていることも明らかにしました。

AIクラウドの拡大は東南アジア、オーストラリア、南北アメリカで進んでいます。CoreWeave、Firmus、IREN、Nscaleなどが最先端モデル開発や大量推論向けに能力を増強し、Naver CloudやIndosat、Yotta、YTLといった事業者が各国のAI構想や金融、通信、製造、医療を支えています。NVIDIAは競争力の源泉として、ハードウェア性能とソフト最適化、稼働率を総合したトークン単価の業界最低水準を掲げています。

AIファクトリーの設計から運用までは新プラットフォーム「DSX」が担い、検証済みの設計やシミュレーションで容量の早期立ち上げを支援します。電力制約下で計算量を最大化する「DSX MaxLPS」は同じ電力で最大40%多いGPUの搭載を可能にするといいます。CoreWeaveやNebiusは次世代GPU「Vera Rubin」をいち早く採用し、ロボットなど物理AI向けの開発環境も整備しています。

もう一方の記事が示すのは、この基盤を生み出す台湾の存在感です。台湾には500社を超えるNVIDIAのパートナーが集まり、Vera Rubin向け「MGX」ラック部品は25の工場拠点から100万点以上が供給されます。TSMCやFoxconn、Pegatron、Quanta、Wistron、Inventecなどがサプライチェーンの中核を担っています。

注目すべきは、これらの企業が単に基盤を作るだけでなく、自社の製造現場にもAIを取り入れている点です。TSMCは計算リソグラフィ「cuLitho」で費用や処理時間を20〜50%改善し、Foxconnは運用管理エージェントで原因分析を80%高速化、労働生産性を15%向上させたとしています。PegatronやInventecは合成欠陥データの生成でAI検査の展開時間を最大67%短縮しました。

AIがモデル開発から大量の推論・推論処理へ移るなか、基盤の評価軸は発表された容量から、稼働率や資産寿命を反映したトークン出力の経済性へと移りつつあります。世界規模の容量拡張と、それを支える台湾の製造力。両者がかみ合うことで、AIインフラそのものがAIによって作られる循環が現実味を帯びてきました。

出典：NVIDIA公式 | NVIDIA公式

Intel、低価格AI推論チップでNvidiaとAMDに対抗

2026年06月01日 NVIDIA 推論半導体 GPU インフラデータセンター Intel

Crescent Islandの狙い

年内出荷の新GPU

推論タスクに特化

空冷設計でコスト抑制

安価なLPDDR5メモリ採用

再建戦略

新CEOタン氏主導

訓練市場は深追いせず

Gaudi失敗からの再起

詳細を見る

米半導体大手Intelは2026年6月1日、年内に新たなAI向けGPU「Crescent Island」を出荷すると明らかにしました。NvidiaやAMDの製品より安価なメモリと冷却技術を採用し、急成長するAI半導体市場での巻き返しを狙います。データセンター部門を率いるKevork Kechichian氏がFTに語りました。

新チップは、利用者の要求に応える推論（インファレンス）処理の高速化に特化しています。モデルの訓練分野はNvidiaのプロセッサが圧倒的に強く、Intelはあえてそこを主戦場としない方針です。同社は訓練用GPU「Gaudi」で販売不振に陥り、後継機も昨年中止した経緯があります。

競合との差別化の鍵はコスト構造です。Crescent Islandは空冷方式を採用し、NvidiaのBlackwellなどが使う高価なHBMではなく、大幅に安いLPDDR5メモリを搭載します。これにより、高帯域メモリと液冷インフラという競合が抱える2つの制約を回避する狙いです。

Kechichian氏は「基本に立ち返り、AIの筋肉を再構築する」と述べ、過去の経験から訓練市場を特に狙わないと強調しました。新チップは18カ月の開発期間を経て、年内に限定数量から顧客への出荷を始めます。

今回の取り組みは、昨年就任したLip-Bu Tan新CEOの下でのAIインフラ市場への初参入となります。前任のPat Gelsinger氏は再建戦略への懸念から退任しており、Intelにとって業績回復を確かなものにする試金石となりそうです。

出典：Ars Technica

XCENA、メモリ近接型AI推論チップで1.35億ドル調達

2026年05月29日サムスン創業者推論半導体 GPU インフラエネルギー米国韓国スタートアップ資金調達評価額

資金調達と事業概要

シリーズBで1.35億ドル調達

評価額5.7億ドル、累計1.85億ドル

Samsung・SK Hynix出身者が創業

2027年の売上開始を計画

技術的優位性

DRAM近傍に演算機能を配置

CXL接続でCPU往復を削減

RISC-Vベースの数千コア搭載

サーバー10台分を1台に集約

詳細を見る

韓国と米国に拠点を置く半導体スタートアップXCENAが、シリーズBラウンドで1億3,500万ドル（約200億円）を調達しました。評価額は5億7,000万ドルで、累計調達額は1億8,500万ドルに達します。韓国のAtinumとIMM Investmentが共同リードし、Corstone AsiaやSBI Investment、未来アセットキャピタルなどが参加しています。

XCENAが解決しようとしているのは、AI推論におけるメモリのボトルネックです。現在のAI処理では、データがメモリからCPU、GPUへと何度も往復する必要があり、その都度コストと電力を消費します。同社の「MX1」チップはDRAMの近傍に演算機能を配置し、CXL（Compute Express Link）でCPUと接続することで、データがメモリモジュールを離れる前に処理を完了させます。

創業者3名はいずれもSamsungやSK Hynixの出身者です。CEOのJin Kim氏は「CPUもGPUも数十年で進化したが、メモリは変わらなかった」と語り、メモリ中心アーキテクチャへの転換を訴えています。同社によれば、従来10台のサーバーが必要だった処理を1台で実行できる可能性があるといいます。

技術面では、オープンソースの命令セットRISC-Vをベースに数千のコアを搭載し、独自のメモリ階層やインターコネクトバス、DRAMコントローラーまで自社設計しています。競合のAstera LabsやMarvellと比較して、この垂直統合が差別化要因だとKim氏は説明します。

MX1はまだプロトタイプ段階で、Samsungのファウンドリで2026年末に量産チップの製造を開始し、2027年からの収益化を見込んでいます。ターゲット顧客はAIインフラに年間数百億ドルを投じるハイパースケーラーで、メモリ効率のわずかな改善が数億ドル規模のコスト削減につながる領域です。

出典：TechCrunch

LLM再学習不要の知識更新フレームワークMeMo登場

2026年05月29日 NVIDIA Gemini 検索推論ファインチューニング GPU 品質保証コンテキストベンチマーク教師 RAG

MeMoの仕組み

専用小型メモリモデルに新知識を格納

推論エンジンのLLMは凍結のまま利用

オープン・クローズド問わず接続可能

QAペア「リフレクション」で知識を蒸留

RAGとの比較と限界

長文推論でRAGを大幅に上回る精度

ノイズ混入時も精度低下2%未満

初期学習コストが課題

出典追跡が困難で監査要件に制約

詳細を見る

複数大学の研究チームが、LLMの知識を再学習なしで更新するフレームワーク「MeMo（Memory as a Model）」を発表しました。MeMoは新しい知識を専用の小型メモリモデルに格納し、推論を担う本体のLLMとは完全に分離して運用します。RAGのコンテキスト長制限やファインチューニングの破壊的忘却といった既存手法の課題を回避できる点が特徴です。

MeMoのアーキテクチャは、知識を蓄えるMEMORYモデルと推論を行うEXECUTIVEモデルの2層構成です。ユーザーの質問に対し、EXECUTIVEモデルがサブクエリに分解してMEMORYモデルに問い合わせ、得られた事実を統合して最終回答を生成します。MEMORYモデルの学習には、生テキストから数千のQAペア「リフレクション」を生成し、それを教師データとして使います。

ベンチマーク評価では、長文推論タスクNarrativeQAで53.58%の精度を達成し、最先端のグラフベースRAG手法HippoRAG2の23.21%を大きく上回りました。さらにEXECUTIVEモデルをGemini 3 Flashに差し替えるだけで精度が最大26.73%向上し、メモリモデルの再学習は不要でした。ノイズの多いデータでも精度低下は2%未満にとどまり、企業の雑多なナレッジベースへの耐性を示しています。

継続的な知識更新には「モデルマージ」手法を採用し、新規データで学習した差分パラメータを既存のMEMORYモデルに統合します。フル再学習に比べ11〜19%の精度低下というトレードオフはあるものの、計算コストを大幅に削減できます。

一方で課題も残ります。リフレクション生成にNVIDIA H200で約240GPU時間、14Bパラメータのメモリモデル学習に約180GPU時間の初期コストが必要です。また回答がパラメトリック記憶から合成されるため、情報の出典を特定できず、厳格な監査要件のある業務には不向きです。研究チームは、単純な検索にはRAG、複数文書を横断する統合推論にはMeMoという使い分けや、両者を組み合わせたハイブリッド構成を推奨しています。

出典：VentureBeat

Hugging FaceがPyTorchプロファイラ入門を公開

2026年05月29日 NVIDIA パッチ GPU Hugging Face

トレースの読み方

行列演算でプロファイラの基本を解説

CPU時間とGPU時間の比較でボトルネック特定

オーバーヘッド律速と計算律速の判別法

ウォームアップによる初回コストの除外

torch.compileの実態

演算子融合はディスパッチャレベルで実現

カーネル自体はcuBLASのまま変化なし

CPU側オーバーヘッドはeagerの約2倍に増加

小規模演算ではコンパイル税が上回る

詳細を見る

Hugging Faceは2026年5月29日、PyTorchのプロファイリング入門ブログシリーズの第1回を公開しました。torch.profilerの使い方を、行列積とバイアス加算という最小構成の演算から段階的に解説する内容です。著者はAritra Roy Gosthipatyら5名で、NVIDIA A100 GPU上での実行トレースを題材に、プロファイラが出力するテーブルとトレースの読み解き方を丁寧に示しています。

記事ではまず64x64の小さな行列演算をプロファイリングし、CPU時間が2.3ms、GPU時間がわずか23μsとなるオーバーヘッド律速の典型例を示します。行列サイズを4096x4096に拡大すると、CPU・GPU双方がミリ秒オーダーとなり、計算律速へ移行することを確認しています。この比較を通じて、GPUが遊んでいるかどうかをプロファイラの数値から即座に判断する方法を読者に教えています。

トレースの可視化にはPerfetto UIを使用し、CPUレーンとGPUレーンの対応関係を視覚的に解説しています。初回ステップが長い理由として、cuBLASのヒューリスティクスやワークスペース確保といったコールドスタートコストを特定。ウォームアップの追加で計測対象から除外する手法も紹介されています。また、同一カーネルでも実行時間がばらつく現象について、GPUクロックや温度管理が原因であると指摘しています。

後半ではtorch.compileを適用した場合のトレースを分析しています。torch.add + torch.matmulがaten::addmmに統合されますが、これはディスパッチャレベルの融合であり、GPU上では依然として同じcuBLASカーネルが実行されます。バイアスのDevice-to-Deviceコピーが発生し、真のカーネル融合には至っていない実態が明かされています。

さらに、torch.compileのランタイムアーキテクチャとして、TorchDynamoのキャッシュルックアップ、AOTDispatcherのラッパー、CompiledFxGraphの実行という3層構造を解説しています。小規模な演算ではこれらのスタックがオーバーヘッドとなり、ステップあたりのCPU時間がeagerモードの約2倍に増加することも示されました。シリーズ第2回以降ではnn.LinearやLLMへと対象を拡大する予定です。

出典：Hugging Face

NVIDIAがICRAでロボット研究28本発表、sim-to-real移行を加速

2026年05月28日 NVIDIA シミュレーション推論 GPU ポリシーロボットロボティクス MIT ARR

シミュレーションから実世界へ

ICRAで28本の論文採択

複数アーム並列制御で3倍高速化

異なるロボット体型への汎化に成功

把持成功率75%、従来手法の約2倍

精密組立と視覚言語モデル

組立タスク成功率を38%改善

多段階組立で91%のシミュレーション成功率

視覚言語モデルで実世界精度41倍向上

推論と行動の乖離を実行時に補正

詳細を見る

NVIDIAは2026年5月28日、国際ロボティクス・自動化学会（ICRA）で採択された28本の研究論文のうち8本の成果を公開しました。いずれもシミュレーションから実世界へのロボット技術移行（sim-to-real）を主題とし、知覚・推論・計画・行動の各段階で汎用的な自律動作を実現する手法を提示しています。研究はNVIDIA Isaac Labなど同社のシミュレーション基盤上で訓練され、実ロボットへのゼロショット転移を達成しています。

動作計画の分野では、複数ロボットアームをGPU上で並列スケジューリングするScheduleStreamが従来比3倍の高速化を実現しました。異なるロボット体型への汎化を目指すCOMPASSは、実世界ナビゲーション試行で約80%の成功率を達成。把持制御のGrasp-MPCは、200万件のシミュレーション軌道で学習し、実ロボットで75%の把持成功率を記録しています。従来手法の41%から大幅に向上しました。

精密組立では、シミュレーション訓練と実機補正を分離するSPARR手法が成功率を38%改善し、サイクルタイムを約30%短縮しました。多段階組立に取り組むRefineryは、シミュレーションで91%の成功率を達成しています。各ステップの完了状態が次のステップに影響する複雑な工程を自動で最適化する点が特徴です。

視覚言語モデルの活用も進んでいます。PEEKパイプラインは、タスク指示に基づいてロボットの視線を必要な物体に集中させる手法で、シミュレーション訓練のみのポリシーに適用すると実世界精度が41倍向上しました。カーネギーメロン大学などとの共同研究SEALは、ロボットの推論内容と実際の動作が乖離する問題を、再訓練なしに実行時補正する手法を提案し、最大15%の精度改善を報告しています。

NVIDIAは研究基盤の拡充も進めており、物理AI向けオープンデータセットは1,500万ダウンロードを超えました。カーネギーメロン大学、MIT、ETHチューリッヒなどの大学チームも同社の技術を活用しており、約50本の採択論文がNVIDIAのシミュレーション・計算基盤を参照しています。ロボティクスの産業応用に向け、sim-to-realがいよいよ実用段階に入りつつあることを示す成果といえるでしょう。

出典：NVIDIA公式

DeepSeek V4が75%値下げを恒久化、企業AI市場の価格構造を揺さぶる

価格と性能の両立

V4 Proの75%恒久値下げを発表

入力単価でClaude Sonnetの7分の1

出力単価でGPT-5.5-Medの17分の1

キャッシュ読込は西側クラウド比87倍安価

技術的な独自設計

KVキャッシュ使用量を90%削減する圧縮注意機構

100万トークン処理にHBMわずか5.48GB

FP4量子化で2倍の推論速度を実現

企業導入への影響

オープンウェイト+MITライセンスで自社運用可能

OpenRouterでトークン使用量首位を獲得

詳細を見る

中国のAIスタートアップ DeepSeekは2026年5月、フラッグシップモデルV4 Proの75%値下げを恒久措置とすると発表しました。標準入力コストは100万トークンあたり0.435ドル、標準出力は0.87ドルに設定され、AnthropicのClaude SonnetやOpenAIのGPT-5.5-Medを大幅に下回ります。とりわけキャッシュ読込単価は100万トークンあたり0.003625ドルと、西側クラウドの87分の1という水準です。エージェント処理ではトークンの80〜90%がキャッシュ読込であるため、この価格差の実務的インパクトは極めて大きいといえます。

この低コストを支えるのが、DeepSeek独自のハードウェア・ソフトウェア協調設計です。圧縮スパースアテンション（CSA）と高圧縮アテンション（HCA）を組み合わせたハイブリッド注意機構により、100万トークンの文脈窓でKVキャッシュ使用量を90%削減しました。さらにMulti-head Latent Attention（MLA）で重いデータペイロードをGPUの高帯域メモリからシステムメモリへオフロードし、1.6兆パラメータモデルの100万トークン処理に必要なHBMをわずか5.48GBに抑えています。従来型のモデルでは同条件で89GBを消費するため、差は歴然です。

企業のトークンコスト問題も追い風です。UberはClaude CodeとCursorの2026年度予算をわずか4カ月で使い切り、PinterestはオープンソースのQwenを自社データで追加学習して90%のコスト削減を達成しました。VentureBeatの調査によれば、企業のAIモデル選定基準で「トークン単価・ライセンスモデル」の重視度は2026年1月の25.4%から3月には36.7%へ上昇しています。自社管理の推論スタックを導入する企業も11.3%から17.9%へ増加しました。

開発者向けルーティングサービスOpenRouterでは、DeepSeek V4 Flashが週間トークン使用量で首位を獲得し、上位3モデルの合計は約6兆トークンに達しました。一方、OpenAIのGPT-5.5は15位の4,700億トークンにとどまっています。V4 ProとV4 FlashはいずれもオープンウェイトかつMITライセンスで公開されており、企業は自社環境での自由なデプロイが可能です。

もっとも、地政学的リスクは無視できません。米国の金融・医療・防衛分野の大企業にとって、中国製モデルのサプライチェーンリスクや制裁リスクは依然として障壁です。一方、記事はAnthropicのようなプレミアムソフトウェア統合型のラボと、汎用APIトークン収入に依存するOpenAIとでは影響度が異なると指摘しています。高精度が求められるミッションクリティカルな業務にはプレミアムモデル、大量トークンを消費するバックグラウンドエージェント処理にはオープンウェイトという二層構造が、企業AIの新たな標準になりつつあります。

出典：VentureBeat

AIトークン先物市場が世界で始動、上海やCMEが整備へ

2026年05月28日 Google OpenAI NVIDIA オラクル AWS GPT-5 投資家推論 GPU インフラクラウドデータセンタークラウドサービス中国投資

先物市場の動き

上海先物取引所がAIトークンデリバティブを設計中

CMEグループがGPUレンタル先物を準備

NYSE親会社ICEもGPU計算先物を計画

H100のレンタル価格は時間1.40〜4.27ドル

市場形成の背景

AIインフラ投資が数千億ドル規模に拡大

トークン課金がAPI利用の標準に

ネオクラウド企業群が推論特化で参入

企業の計算コストヘッジ需要が顕在化

詳細を見る

2026年5月28日、中国の上海先物取引所がAIトークンのデリバティブ市場を設計していることがロイターの報道で明らかになりました。同時期に米CMEグループとNYSEの親会社であるインターコンチネンタル取引所（ICE）も、それぞれGPUレンタルの先物契約の立ち上げを発表しています。金や石油と同様に、AIの計算資源が金融商品として取引される時代が近づいています。

GPUレンタル市場はすでに一定の成熟を見せています。AI Mining Co.のデータによると、28のマーケットプレイスとクラウドプロバイダーにおけるNVIDIA H100の中央値価格は時間あたり1.40〜4.27ドル、H200は2.34〜5ドルで推移しています。しかしトークンそのものの先物市場は未整備であり、ここに新たな金融インフラの商機が生まれています。

背景にあるのは、AIインフラへの空前の投資です。クラウドサービスプロバイダーやプライベートエクイティ、インフラ企業が数千億ドル規模の資金をデータセンター建設に投じています。推論特化型のネオクラウド企業も台頭し、OracleやAWS、Google Cloudといった大手と競合する構図が鮮明になっています。

上海先物取引所のトークンデリバティブが実現すれば、企業や投資家、データセンター運営者がAIの計算コスト変動をヘッジする手段を得ることになります。OpenAIのGPT-5.5が100万入力トークンあたり5ドル、出力トークン30ドルで課金されるように、トークン単価はAIサービスの原価に直結しています。この市場の成立は、AI産業の金融化における重要な転換点となる可能性があります。

出典：TechCrunch

推論特化の新興General Computeが1500万ドル調達

推論特化チップへの賭け

SambaNovaのSN50チップを3億ドル分発注

GPUの約2.5倍、毎秒600〜700トークン生成

空冷・低消費電力で既存施設に設置可能

暗号資産マイナーの施設転用も視野

推論クラウド市場の構造変化

NVIDIAのGroq 買収やCerebras上場が示す潮流

複数モデル・エージェント時代の速度競争

コーディング作業を数時間から数分に短縮

SambaNova側もGeneral Computeに賭ける相互依存

詳細を見る

AI推論に特化した新興ネオクラウド企業General Computeが、FUSE VC主導のシードラウンドで1500万ドル（ポストマネーバリュエーション6000万ドル）を調達しました。同社はAIモデルの学習ではなく推論、つまりモデルが実際にユーザーの問いに応答する処理に特化したクラウドサービスを提供します。CEOのFinn Puklowski氏とCTOのJason Goodison氏が共同創業しました。

注目すべきは同社のチップ戦略です。GPU需要が急増する一方で、推論フェーズにはGPUが最適ではないという認識が業界で広がっています。NVIDIAによるGroqの200億ドル買収やCerebrasの570億ドル規模IPOがその潮流を象徴しています。General Computeは、Intel出資のSambaNovaが開発する推論特化チップSN50を採用し、3億ドル相当を発注済みです。

SambaNova新チップの性能は毎秒600〜700トークンの生成速度を見込んでおり、GPUの約250トークンを大きく上回ります。さらに空冷方式で消費電力も低いため、水冷設備や大規模な電力インフラの新規投資なしに既存データセンターへ導入できます。暗号資産マイニング施設の転用によるコロケーション展開も計画しています。

投資家のJoe Hasselmann氏は、SambaNova とGeneral Computeの関係をNVIDIAとCoreWeaveの関係になぞらえます。推論クラウドは、単一プロバイダーが支配しない複数モデル・複数エージェントの世界を前提とした事業モデルです。OpenRouterが今週1億1300万ドルのシリーズBを調達したことも、この市場の成長を裏付けています。

Puklowski氏はコーディングエージェントの処理時間を数時間から5〜10分へ短縮し、音声カスタマーサービスの推論コストを下げることを目指しています。エージェント同士が高速に通信する時代において、推論速度とコスト効率が競争力の鍵になるとの見方を示しました。

出典：TechCrunch

SnowflakeがAWSと60億ドルのAIチップ契約

2026年05月27日 Google NVIDIA マイクロソフト Meta Amazon AWS 推論半導体 GPU クラウドエージェント Snowflake

大型契約の背景

5年間で60億ドルの契約

AI需要でAWS支出が倍増

Cortex AIがデータ活用を加速

ARM系Gravitonチップが対象

クラウド各社のチップ競争

MetaもAWSと大型契約を締結

Google・MSも独自AI半導体を展開

NvidiaはVera CPUで反撃姿勢

クラウド勢がNvidiaの牙城に挑戦

詳細を見る

クラウドデータ基盤大手のSnowflakeが、Amazon Web Services（AWS）と5年間で60億ドルの新契約を締結したと両社が5月27日に発表しました。Snowflakeは2012年の創業以来、AWS Marketplace経由で累計70億ドルの売上を記録しており、今回の契約はその総額に匹敵する規模です。

契約拡大の背景にはAI需要の急増があります。SnowflakeのAI構築ツール「Cortex AI」は、企業データに対する自然言語クエリや要約レポート生成などの機能を提供しており、顧客のAWS支出は2025年に前年比2倍の20億ドルに達しました。今回の契約では特にAWSの自社開発ARMベースCPU「Graviton」へのアクセス拡大が重視されています。

AIがモデル訓練から日常利用やエージェント自動化へと移行するにつれ、CPU需要が急増しています。GPUが訓練や推論を担う一方、エージェント関連タスクの大半はCPUが処理するためです。AWSは先月、MetaにもGravitonチップを数百万単位で提供する契約を締結しており、自社チップの価格競争力を武器に大型案件を次々と獲得しています。

一方、NvidiaのジェンスンCEOは新たなAI専用CPU「Vera」を発表し、2000億ドル規模の新市場を見込むと宣言しました。GoogleやMicrosoftも独自AIチップの開発を進めており、AI半導体市場ではクラウド大手とNvidiaの競争が本格化しています。いずれの陣営が優勢となるにせよ、AI需要拡大の恩恵はクラウド各社に広く行き渡る構図です。

出典：TechCrunch

NVIDIAが提唱する「AIファクトリー」の全容

2026年05月27日 NVIDIA エコシステムネットワークシミュレーションデジタルツインエンジニア創業者推論推論モデル GPU インフラデータセンターエネルギーエージェントコンテキスト

トークン生産の経済学

エネルギーをトークンに変換する新インフラ

GB300 NVL72で前世代比50倍の効率

コスト・電力・稼働率が収益を左右

フルスタック設計と展開

Vera Rubinで性能電力比さらに35倍

DSX設計でGW級施設を標準化

Omniverse双子で設計・運用を最適化

エコシステムと実績

Cisco・Dell・HPEら5社と協業

NVIDIA社内で数百のAIエージェント稼働

詳細を見る

NVIDIAは、AIの推論処理を大規模かつ常時稼働で行う新たなインフラカテゴリー「AIファクトリー」の構想を公式ブログで発表しました。産業革命期の発電所がエネルギーを電力に変えたように、AIファクトリーはエネルギーをトークンに変換し、推論モデルやエージェントに知能を供給する施設と位置づけています。その経済性は、秒間トークン数・ワットあたりトークン数・トークン単価・稼働率で測定されます。

性能面では、NVIDIA GB300 NVL72システムがメガワットあたりのトークン生成量で前世代Hopperの50倍を達成し、トークン単価を35分の1に削減したとしています。推論ワークロードをリアルタイムで効率的にさばくため、Dynamoフレームワークがロングコンテキスト推論と大規模スループットを統合管理します。次世代のVera Rubinプラットフォームは、LPXアーキテクチャにより性能電力比をさらに最大35倍に引き上げる設計です。

こうしたAIファクトリーはフルスタックで最適化されます。GPU・CPU・高速ネットワーク・液冷システム・推論ソフトウェア・ストレージが一体設計され、自律型マルチエージェントが常時稼働するワークロードを処理します。エージェントは推論・計画・コード生成・ツール利用を自律的に行い、さらにサブエージェントを生成して専門スキルを獲得するため、推論負荷は従来よりはるかに大きくなっています。

NVIDIA DSXリファレンス設計は、ギガワット級のAIファクトリーを標準化するもので、設計・シミュレーション・運用をOmniverse DSX Blueprintのデジタルツインで統合します。Cisco、Dell、HPE、Lenovo、Supermicroといったパートナー企業と協力し、企業データセンターへの導入を推進しています。NVIDIA自身も社内AIファクトリーを運用し、数百の自律AIエージェントがエンジニアリングや業務を支援している実例を示しています。

NVIDIAの創業者兼CEOであるジェンスン・ファン氏は、6月1日のCOMPUTEX併催GTC Taipeiで基調講演を行う予定です。AIファクトリーは金融・ライフサイエンス・製造・公共部門などあらゆる産業が「構築するか借りるか」を問われる時代の基盤インフラだと、NVIDIAは訴えています。

出典：NVIDIA公式

HF、差分同期で1兆パラメータ更新を高速化

2026年05月27日 Qwen Word ネットワーク数学 Llama 推論強化学習 GPU クラウド Hugging Face TRL

差分同期の仕組み

bf16精度で99%の重みが不変

変化要素のみ疎形式で送信

ペイロードが1.2GBから最大35MBに

推論の停止時間を約1秒に短縮

分散学習の実現

Hub Bucketで重みを中継

訓練と推論がクラスタ不要で分離

vLLM拡張で30行の実装

Spacesで完全分散学習を実証

詳細を見る

Hugging Faceは、非同期強化学習における重み同期のボトルネックを解消する「Delta Weight Sync」をTRLライブラリに実装しました。従来、非同期RLでは訓練ステップごとにモデル全体を推論エンジンに転送する必要があり、7Bモデルで14GB、1兆パラメータ規模では約1TBものデータ転送が発生していました。この技術はオープンソースとしてTRLのPR #5417で公開されています。

Delta Weight Syncの核心は、bf16精度における重み更新の数学的特性にあります。bf16の仮数部は7ビットしかなく、RLの学習率で生じる微小な更新の大部分はbf16の丸めに吸収されるため、連続する2ステップ間でおよそ99%の重みがビット単位で同一のままです。この性質を利用し、変化した要素だけをsafetensors形式のスパースファイルとして符号化することで、Qwen3-0.6Bモデルでは1ステップあたりの転送量を1.2GBから20〜35MBへと大幅に削減しました。

アーキテクチャはHub Bucketを介した3ボックス構成を採用しています。訓練ノードがスパースな差分をBucketにアップロードし、vLLMの推論サーバーがそれをダウンロードして適用します。訓練側と推論側が直接通信する必要はなく、共有クラスタもRDMAもVPNも不要です。vLLM側の実装はWeightTransferEngineの拡張としてわずか30行程度で、フォークなしで既存のvLLMに組み込めます。

実証実験では、訓練用GPU、vLLMを動かすHugging Face Space、Wordle環境を動かす別のSpaceという3つの独立したマシンで完全な分散学習を実行しました。いずれもネットワークを共有せず、Hub Bucketのみで接続されています。報酬は順調に上昇し、差分ペイロードは20〜35MBの範囲を維持しました。

Llama-3.1-405Bに適用した場合の試算では、従来のNCCLによる全同期で約8秒かかる推論停止が、差分転送では数秒に短縮され、転送量は約130分の1になると見込まれています。1兆パラメータ規模ではFireworksの実測値で約50倍の削減が示されており、クラウド間をまたぐ分散学習においてオブジェクトストレージ経由の差分同期が唯一の現実的な選択肢になりつつあります。

出典：Hugging Face

拡散型言語モデルでNVIDIAが推論6倍速を実現

2026年05月23日 NVIDIA Qwen エンジニア推論ファインチューニング事前学習 GPU ハードウェアベンチマーク Hugging Face

3つの推論モードを統合

自己回帰と拡散生成を1モデルに統合

自己投機モードで精度維持と高速化を両立

3B・8B・14Bの3サイズで提供

商用利用可能なライセンスで公開

速度と精度の両立

拡散モードでAR比2.6倍の生成効率

自己投機で最大6.4倍の高速化を達成

8BモデルがQwen3 8Bを精度1.2%上回る

B200で毎秒約865トークンを記録

詳細を見る

NVIDIAは2026年5月23日、自己回帰（AR）と拡散（Diffusion）の両方の生成方式を1つのモデルに統合した言語モデルファミリー「Nemotron-Labs Diffusion」を公開しました。3B・8B・14Bのテキストモデルと8Bのビジョン言語モデルをHugging Face上で提供し、商用利用可能なライセンスで配布しています。

従来の大規模言語モデルはトークンを1つずつ逐次生成する自己回帰方式を採用しており、GPUの演算能力を十分に活用できないという課題がありました。Nemotron-Labs Diffusionは複数トークンを並列に生成し、段階的に修正する拡散方式を導入することで、この制約を突破します。生成済みトークンの修正も可能なため、誤りの伝播を抑制できます。

同モデルは3つの推論モードを備えています。従来通りの自己回帰モード、32トークン単位でブロック生成する拡散モード、そして拡散で下書きし自己回帰で検証する自己投機モードです。自己投機モードでは温度0で自己回帰と同一の出力品質を維持しながら、大幅な高速化を実現します。

性能面では、8BモデルがQwen3 8Bに対し平均精度で1.2ポイント上回りました。推論速度はハードウェア非依存の指標であるTPF（tokens per forward pass）で、拡散モードがAR比2.6倍、自己投機モードが最大6.4倍を達成しています。NVIDIA B200上のベンチマークでは毎秒約865トークンの生成速度を記録しました。

学習にはNVIDIAのNemotron事前学習データセットから1.3兆トークン、ファインチューニングに450億トークンを使用しています。推論エンジンSGLangでの対応が進んでおり、設定1行の変更で3モードを切り替え可能です。学習コードもMegatron Bridgeフレームワーク経由で公開されており、開発者はすぐに利用を開始できます。

出典：Hugging Face

NVIDIA、COMPUTEX 2026で3部門受賞

2026年05月21日 NVIDIA AI導入創業者推論 GPU ハードウェアインフラエネルギーロボット医療ロボティクスエージェント Scale AI

受賞製品の概要

Vera Rubin NVL72が金賞と持続可能技術賞の二冠

Jetson ThorがエッジAI部門で金賞獲得

Alpamayoが車載技術部門賞を受賞

次世代AI基盤の性能

推論性能がワットあたり10倍向上

トークン単価を10分の1に削減

組立時間を2時間から5分に短縮

完全液冷で45度運用を実現

物理AI・自動運転への展開

Jetson Thorは前世代比7.5倍の演算性能

Alpamayoが複雑な運転判断を推論で解決

詳細を見る

NVIDIAは2026年5月21日、台湾で開催されるアジア最大級のIT見本市COMPUTEX 2026のBest Choice Awards（BCA）において、AI計算、ロボティクス、自動運転の3部門で受賞したことを発表しました。同社の創業者兼CEOであるジェンスン・ファン氏は6月1日に基調講演を予定しており、GTC TaipeiではAIの最新動向が披露されます。

最大の注目はVera Rubin NVL72です。金賞と持続可能技術特別賞のダブル受賞を果たしたこのラックスケールAIスーパーコンピュータは、36基のVera CPUと72基のRubin GPUを第6世代NVLinkスイッチで統合しています。推論性能はワットあたり最大10倍、トークンあたりのコストは10分の1に抑えられ、エージェント型AIや長文脈処理に最適化された設計となっています。

ハードウェア面でも革新が目立ちます。Vera Rubin NVL72はケーブルレス・ファンレスのモジュラートレイ設計を採用し、組み立て時間を従来の2時間からわずか5分に短縮しました。100%液冷アーキテクチャは45度での運用を可能にし、冷却に使っていた電力をトークン生成に回すことで、持続可能なAIインフラの新基準を示しています。

エッジAI分野ではJetson Thorが金賞を獲得しました。Blackwell GPUアーキテクチャを搭載し、最大2,070 FP4テラフロップスのAI性能を実現しています。前世代のJetson Orinと比較して演算能力は7.5倍、エネルギー効率は3.5倍に向上しており、ロボットや医療機器、産業システムへの生成AI導入を加速させます。

自動運転領域ではAlpamayoが車載技術・スマートコックピット部門賞を受賞しました。歩行者の曖昧なジェスチャーや矛盾する信号と道路標示といった、従来の学習データではカバーしにくい長尾分布の複雑な運転シナリオに対し、100億パラメータの推論型ビジョン言語行動モデルで対応します。1,700時間超の走行データも公開されており、オープンプラットフォームとしての展開が進んでいます。

出典：NVIDIA公式

LLM記憶を0.12%の追加パラメータで実現する新手法

2026年05月21日 GitHub Qwen 検索推論 GPU エージェントコンテキスト Hugging Face RAG

delta-memの仕組み

固定サイズ行列に履歴を圧縮

モデル本体の重みは凍結のまま

デルタルール学習で動的に更新

ゲート機構で忘却と記憶を制御

性能と効率の両立

Memory Agent Benchで29%→38%に向上

テスト時学習は26→50点にほぼ倍増

GPU消費量は未修正モデルとほぼ同等

実用化の方向性

RAGとのハイブリッド構成が現実解

詳細を見る

Mind Labと複数大学の研究チームは2025年5月、LLMエージェントの長期記憶問題を解決する新手法「delta-mem」を発表しました。この手法はエージェントの過去のやり取りを固定サイズの行列に圧縮し、モデル本体を変更せずに動的な記憶を実現します。追加パラメータはバックボーンモデルのわずか0.12%にとどまり、競合手法の76.40%と比較して圧倒的に軽量です。

従来のアプローチには大きな課題がありました。コンテキストウィンドウの拡張はコストが増大し、トークン数が増えるほど二次関数的に計算量が膨れ上がります。RAGは外部検索の遅延や統合の複雑さを伴います。パラメトリック手法は学習後に固定され、推論時の新情報に適応できません。delta-memはこれらの問題を、連想記憶の「オンライン状態」として履歴を保持することで解決しています。

技術的には、LLMの隠れ状態を行列に射影して過去の記憶を検索し、数値的な補正としてモデルの推論に適用します。更新は「ゲート付きデルタルール」で制御され、どの程度の旧記憶を保持し、新記憶をどれだけ反映するかを自動調整します。更新戦略は3種類あり、大規模モデルにはシーケンス単位の書き込み、小規模モデルにはマルチステート書き込みが有効と判明しました。

Qwen3-4B-Instructでの評価では、平均スコアが凍結ベースラインの46.79%から51.66%に向上しました。記憶集約型のMemory Agent Benchでは29.54%から38.85%へ改善し、テスト時学習サブタスクでは26.14から50.50へとほぼ倍増しています。32,000トークンの推論テストでも、GPU消費量は未修正モデルとほぼ同一でした。

研究チームはコードをGitHub、学習済みアダプタの重みをHugging Faceで公開しています。共著者のJingdi Lei氏は、delta-memは高速で継続的に更新される「作業記憶」として最適であり、正確な事実の検索にはRAGが依然として適していると述べています。企業のAIスタックは今後、モデル内部の短期作業記憶とRAGによる長期明示記憶の階層構造へ進化していくとの見通しを示しました。

出典：VentureBeat

AI端末のHarkがシリーズAで7億ドル調達

巨額調達の背景

シリーズAで7億ドル調達

評価額は60億ドル

NvidiaやAMD等半導体大手も参加

元Apple幹部がデザイン統括

製品戦略と課題

汎用AIパーソナルアシスタント構築

今夏にマルチモーダルモデル公開予定

専用ハードウェアも開発中

プライバシー問題が最大の壁

詳細を見る

AI端末スタートアップのHarkが、シリーズAラウンドで7億ドル（約1050億円）を調達したと発表しました。ポストマネー評価額は60億ドルで、Parkway Venture Capitalがリードし、Nvidia、AMD Ventures、Intel Capital、Qualcomm Venturesなど半導体大手のベンチャー部門が軒並み参加しています。ARK InvestやSalesforce Venturesなど著名投資家も名を連ねました。

Harkは、ロボット企業Figure.AIや電動航空機メーカーArcherを創業した連続起業家Brett Adcock氏が2025年末に自己資金1億ドルで設立した企業です。デジタル世界への「ユニバーサルインターフェース」となるエージェント型AIシステムの開発を掲げています。デザイン部門は元Appleプロダクト幹部のAbidur Chowdhury氏が率いています。

同社は今夏に初のマルチモーダルモデルを公開し、既存の製品・サービスと連携するパーソナルAIプラットフォームを提供する計画です。その後、専用ハードウェアデバイスの投入も予定しています。現在の従業員数は70名で、Nvidia B200 GPUを搭載したデータセンターを運用しています。

注目すべきは、これほどの巨額調達にもかかわらず、具体的な製品の詳細がほとんど明かされていない点です。Chowdhury氏は「現在のAI製品はソフトウェア開発者向けばかりで、一般の人を助けるものがない」と指摘し、AnthropicやOpenAIがコーディングツールに注力する中、Harkはインターフェースとネイティブハードウェアに特化すると強調しました。

一方、AIアシスタントにユーザーの生活情報をどこまで提供するかというプライバシーの課題は未解決です。MetaのスマートグラスやAndroid搭載メガネも同様の問題を克服できていません。Chowdhury氏はこの問いに対し具体的な回答を避けており、製品の全容が見えるのはまだ先になりそうです。

出典：TechCrunch

007新作がGeForce NOWに登場、年間会員に無料提供

2026年05月21日 NVIDIA GPU ハードウェアクラウド GeForce NOW DLSS

007バンドル概要

年間Ultimate会員に007 First Light無料付与

6月10日までの期間限定キャンペーン

5月27日発売と同時にクラウドでプレイ可能

Steam連携で永続的にゲーム所有

クラウドゲーミングの拡充

Forza Horizon 6含む新作8タイトル追加

RTX 50世代GPUで最大5K HDR配信

DLSS技術による高画質・高性能の両立

ダウンロード不要で即時プレイ

詳細を見る

NVIDIAは2026年5月21日、クラウドゲーミングサービスGeForce NOWにおいて、新作ゲーム「007 First Light」を年間Ultimate会員向けに無料提供するバンドルキャンペーンを開始しました。6月10日までに12カ月のUltimate会員を購入すると、5月27日の発売日からダウンロード不要で即座にプレイできます。本作はジェームズ・ボンドの起源を描くオリジナルストーリーで、ステルスやアクションを織り交ぜた映画的体験が特徴です。

クラウド上のRTX 50シリーズGPUを活用し、Ultimate会員は最大5K HDRでの高品質ストリーミングを利用できます。ハイエンドPCを所有していなくても、最新AAAタイトルを高画質で楽しめる点がGeForce NOWの訴求ポイントです。Steamアカウントとの連携でゲームは永続的に所有でき、あらゆるデバイスからアクセス可能です。

同時に、オープンワールドレーシング「Forza Horizon 6」を含む8つの新作タイトルがGeForce NOWのライブラリに追加されました。Forza Horizon 6はGame Pass対応で、NVIDIA DLSSによるパフォーマンス最適化により、反射表現やスピード感のある映像が滑らかに描画されます。

NVIDIAはクラウドゲーミングの価値訴求として、大型タイトルのバンドル提供を積極化しています。ハードウェア購入なしで最新ゲームを即座に体験できるサービスモデルは、ゲーム流通の形を変える可能性があります。今回のキャンペーンは、Ultimate会員の獲得と定着を狙った戦略的な施策といえます。

出典：NVIDIA公式

Cerebras、1兆パラメータを毎秒981トークン推論

ウェーハスケールの速度優位

Kimi K2.6を毎秒981トークンで処理

GPU比6.7倍、中央値比23倍の速度

エージェント向けコーディング要求を5.6秒で完了

Artificial Analysisが独立検証で速度確認

企業向け推論市場の競争激化

Fortune 500企業が本番ワークロードを試験中

IPO直後で時価総額950億ドルに到達

NVIDIAのGroq 買収200億ドルが競争圧力に

OpenAI向け推論インフラも提供中

詳細を見る

Cerebras Systemsは、2026年最大のテックIPOを完了した直後に、1兆パラメータの推論性能を公表しました。北京のMoonshot AIが開発したオープンウェイトモデルKimi K2.6を、独自のウェーハスケールチップ上で毎秒981トークンで処理し、GPU系クラウドの最速を6.7倍上回る記録をベンチマーク企業Artificial Analysisが独立検証しています。

Kimi K2.6は1兆パラメータのMixture-of-Expertsモデルで、トークンあたり320億パラメータを活性化します。SWE-Bench Proで58.6を記録し、Claude Opus 4.6やGPT-5.4と同等以上の性能を示しており、AnthropicやOpenAIの高額な閉鎖型APIの代替として企業の関心を集めています。コーディングやエージェント処理など高付加価値タスクでの利用が想定されています。

Cerebrasの速度優位を支えるのはWafer-Scale Engine 3です。ディナープレート大の単一チップに44GBのオンチップSRAMを搭載し、NVLink対比200倍以上の帯域幅を実現します。MoEモデルの全エキスパートを同一ウェーハ上に配置することで、GPU間のデータ転送ボトルネックを解消しました。

同社はFortune 500のソフトウェア・金融・ヘルスケア企業にクラウド試験を提供中で、消費者向けAPIよりも企業顧客を優先する戦略を採っています。料金はGPUベースのプロバイダと同等水準としつつ、速度に対する付加価値で差別化を図ります。

競争環境も急変しています。NVIDIAが高速推論のGroqを200億ドルで買収し、推論市場が訓練市場を商業的重要性で追い越しつつあることを示唆しました。Cerebrasは新ハードウェアの発表を予告しており、OpenAIとの200億ドル超の推論インフラ契約も含め、エージェント時代の推論基盤としての地位確立を目指しています。

出典：VentureBeat

NVIDIAとGoogle Cloud、開発者コミュニティ10万人突破で新学習コース拡充

2026年05月19日 Google OpenAI NVIDIA Salesforce Gemini シミュレーションエンジニア推論 GPU インフラコンテンツロボットエージェント Gemma RAG Google DeepMind

開発者支援の拡充

JAX学習パスを新設

NVIDIA Dynamo推論最適化ラボ追加

月例開発者ライブ配信を開始

コミュニティ参加者10万人突破

責任あるAIへの取り組み

SynthID電子透かし技術で協業

NVIDIA Cosmosモデルへの透かし統合

AI生成コンテンツの信頼性確保

フルスタック基盤の強化

Gemma 4とNemotronの組み合わせ活用

プロトタイプから本番環境へ拡張可能

詳細を見る

NVIDIAとGoogle Cloudは2026年5月19日、Google I/Oカンファレンスにおいて、両社の共同開発者コミュニティが10万人を突破したことを発表しました。昨年のGoogle I/Oで立ち上げたこのコミュニティに、JAXライブラリの新学習パスやNVIDIA Dynamoの推論最適化コードラボなど新たなリソースを追加し、AI開発者の育成を加速します。

コミュニティでは、開発者がNVIDIAのGPUアクセラレーション技術とGoogle Cloudのプラットフォームを組み合わせ、本番環境で使えるAIアプリケーションを構築しています。具体的には、Google Kubernetes Engine上でのRAGアプリケーション開発や、エージェント型ワークロードの可観測性実装などが進んでいます。スポーツ分析やエンタープライズデータパイプラインといった実用的なユースケースでの検証も行われています。

責任あるAIの分野では、NVIDIAがGoogle DeepMindのSynthID技術で業界初のパートナーとなりました。SynthIDはAI生成コンテンツに電子透かしを埋め込む技術で、NVIDIA Cosmosワールドファウンデーションモデルの出力に適用されます。ロボットや自律機械向けの3D知覚・シミュレーション機能を持つCosmosモデルに透明性をもたらし、開発者がエージェント型アプリケーションをより責任ある形で展開できるようにします。

インフラ面では、Google Cloud NextでNVIDIA Vera Rubin搭載のA5XインスタンスやGoogle DeepMindのGeminiモデルを含むフルスタックプラットフォームを拡張しました。OpenAIやSalesforceなど大手企業も活用しており、プロトタイプからエンタープライズ規模のワークロードまでシームレスに拡張できる環境が整っています。開発者はGemma 4、NVIDIA Nemotron、Google Agent Development Kitなどのオープンモデルとツールを組み合わせ、Blackwell GPU搭載のG4 VM上でマルチエージェントアプリケーションを構築できます。

出典：NVIDIA公式

Hugging Face、全サイズで最高精度のリランカー6モデルを公開

2026年05月19日検索エンジニア推論 GPU コンテキストベンチマークトランスフォーマー教師 Hugging Face

Ettinリランカーの性能

17Mから1Bまで6サイズ展開

全サイズで既存モデル超えの精度

1Bモデルは教師モデルと同等精度

150Mが600M未満で最強性能

蒸留による学習手法

MSE蒸留で教師モデルを圧縮

約1.4億トリプルの学習データ公開

学習スクリプト約150行で再現可能

推論速度の優位性

17Mモデルが最速の毎秒7517ペア

1Bモデルは教師比2.4倍高速

詳細を見る

Hugging Faceの開発者Tom Aarsen氏は2026年5月19日、Sentence Transformers向けのクロスエンコーダー型リランカー「Ettin Reranker」ファミリーとして、17Mから1Bパラメータまで6つのモデルを公開しました。いずれもジョンズ・ホプキンス大学が開発したModernBERTベースのEttinエンコーダーを基盤としており、学習データと学習スクリプトもあわせてオープンソースで提供されています。

学習手法には、既存の高性能リランカーmxbai-rerank-large-v2（15.4億パラメータ）を教師モデルとしたポイントワイズMSE蒸留が採用されています。約1億4300万件のクエリ・文書・スコアのトリプルで学習し、学習率とバッチサイズ以外のハイパーパラメータは全サイズ共通です。学習スクリプトはわずか約150行で、誰でも同じレシピを再現できます。

ベンチマーク結果では、すべてのモデルが同サイズ帯で最高精度を達成しました。17Mモデルは従来広く使われていたms-marco-MiniLM-L12-v2（33Mパラメータ）をNDCG@10で+0.051上回り、32Mモデルは17倍のパラメータを持つBAAI/bge-reranker-v2-m3（568M）を+0.025超えています。最大の1Bモデルは教師モデルとのMTEBスコア差がわずか0.0001に収まりました。

推論速度でも大きな優位性があります。17MモデルはH100 GPU上で毎秒7517ペアを処理し、MiniLM-L6-v2の約2倍の速度を実現しました。1Bモデルは教師モデルの2.4倍の速度で、精度をほぼ維持しながら大幅な高速化を達成しています。この速度差は、モジュラーTransformerアーキテクチャによるアンパディング処理とFlash Attention 2の組み合わせによるものです。

検索システムの実務では、高速な埋め込みモデルで候補を絞り込み、リランカーで最終順位を決める「retrieve-then-rerank」パターンが標準的です。Ettinリランカーは全モデルが最大8192トークンのコンテキストに対応し、Apache 2.0ライセンスで公開されているため、既存のMiniLM系リランカーからの移行が容易です。

出典：Hugging Face

元OpenAI社員らがxAIの安全性問題でSpaceX上場に警鐘

2026年05月19日 Google OpenAI Anthropic xAI Grok チャットボット画像生成投資家リスク GPU 画像イーロン・マスク米国投資買収 IPO SpaceX トランプ Google DeepMind

投資家への公開書簡

元OpenAI社員とAI安全性団体が共同書簡

xAIの安全性リスクは未反映の投資リスクと指摘

SpaceXのIPOは史上最大規模の見通し

xAIの安全性実態

安全担当はわずか2〜3人との報道

Grokが白人虐殺に言及する問題発生

児童の性的画像生成で37州の司法長官が是正要求

新たな監視体制の提案

新団体Guidelight AI Standardsが発足

業界横断の統一安全基準策定を目指す

詳細を見る

元OpenAI社員2名とAI安全性に関する非営利団体のグループが、イーロン・マスク氏のAI企業xAIの安全性リスクがSpaceXの新規株式公開（IPO）を複雑にする可能性があるとする公開書簡を2026年5月19日に公表しました。SpaceXは史上最大となる最大750億ドル規模のIPOを準備中で、昨年xAIを買収後、企業価値は1兆ドル超に急騰しています。

書簡を主導したのは、元OpenAI安全性研究者のスティーブン・アドラー氏と元政策アドバイザーのペイジ・ヘドリー氏が共同設立した新団体Guidelight AI Standardsです。ヘドリー氏はxAIの安全性対策がOpenAI、Google DeepMind、Anthropicなど他のフロンティアAI開発企業と比較して「ほぼ全面的に最悪」だと述べています。

書簡は具体的な安全性上の問題事例を列挙しています。xAIのチャットボットGrokが回答中に白人虐殺に自発的に言及した件や、女性・児童の性的画像を大量生成し拡散した件が含まれます。後者の問題では米国37州の司法長官がマスク氏のAI企業に是正を求める書簡を送付しました。ワシントン・ポスト紙の報道によれば、2026年1月時点でxAIの安全性担当者はわずか2〜3人だったとされます。

書簡はSpaceXに対し、xAIがフロンティアAIモデルの開発を継続する意向があるか投資家に開示するよう求めています。SpaceXは最近、GPU処理能力の大部分をAnthropicに売却する契約を結んでおり、xAIがフロンティアAI競争に残るのか不透明な状況です。開発を継続する場合は、安全性・ガバナンス計画の公表が必要だと主張しています。

アドラー氏とヘドリー氏はGuidelight AI Standardsを通じ、AI企業が遵守できる統一的な安全性基準の策定を目指しています。政策立案者、投資家、ジャーナリストなどAI分野外の人々にもわかりやすい評価を提供する方針です。トランプ政権がAIモデルに対する情報機関の監視強化を検討しているとの報道もあり、規制環境の変化がxAIと結合したSpaceXの投資リスクをさらに高める可能性があります。

出典：WIRED

NVIDIA初の自社設計CPU「Vera」出荷開始

2026年05月18日 OpenAI Anthropic NVIDIA オラクル検索エコシステムシミュレーション強化学習 GPU インフラクラウドエネルギーエージェントコンテキスト SpaceX Jensen Huang

エージェントAI向け設計

88コアの独自Olympusコア搭載

メモリ帯域幅1.2TB/s実現

コア当たり性能50%向上

同時並行処理に最適化

大手AI企業へ納入

Anthropic・OpenAI・SpaceXAIへ初出荷

OCI が数十万台規模の導入を計画

Rubin GPUとの統合構成も提供

詳細を見る

NVIDIAは同社初の自社設計CPU「Vera」の出荷を開始しました。5月16日、最初のVera CPUがAnthropic、OpenAI、SpaceXAIの3社に届けられ、翌月曜にはOracle Cloud Infrastructure（OCI）にも納入されました。NVIDIAのハイパースケール担当副社長Ian Buck氏が自ら各社を訪問し、手渡しで引き渡しを行っています。

VeraはエージェントAIのワークロードに特化して設計された新しいクラスのCPUです。AIエージェントはGPUだけでは動作せず、サンドボックスの実行やツール呼び出し、オーケストレーション、長文コンテキストの検索など、CPU側の処理が不可欠です。Veraは88基のNVIDIA独自設計Olympusコア、1.2TB/sのメモリ帯域幅、従来比50%高速なコア当たり性能を備え、こうした並行処理の負荷に対応します。

Anthropicの計算基盤責任者James Bradbury氏は「エージェントワークロードの解決においてVeraはエコシステムの有望な一部」と評価しました。OCIは2026年中に数十万台規模のVera CPU導入を計画しており、クラウドプロバイダーとしてハイパースケール展開を行う最初の企業となります。SpaceXAIは強化学習やエージェントベースのシミュレーションパイプラインでの活用を検討しています。

VeraはNVIDIAの次世代Rubin GPUやBlueField 4 DPUと連携する統合アーキテクチャの一部でもあります。Vera Rubin NVL72構成ではNVLink-C2Cを介してRubin GPUと統合メモリアーキテクチャを共有し、従来インフラの2倍のエネルギー効率でGPUへのデータ供給を実現します。Jensen Huang CEOが3月のGTCで発表した同製品は、NVIDIAの次なる数十億ドル規模のビジネスと位置付けられています。

出典：NVIDIA公式

Cosmos動画生成モデルのLoRA微調整手法を公開

2026年05月18日 NVIDIA Flow 動画生成 GPU 動画ロボット基盤モデル Hugging Face LoRA

効率的な微調整手法

LoRA・DoRAでアダプタ注入

2Bパラメータモデルを単一GPUで学習可能

rank32で約5000万の学習パラメータ

アダプタ切替で複数ドメイン対応

ロボット動画生成への応用

92本のロボット操作動画で学習

人間の手の幻覚を微調整で解消

指示追従と物理的妥当性が大幅に向上

8基のH100で約2.5時間で学習完了

詳細を見る

NVIDIAとHugging Faceは、大規模動画生成モデルCosmos Predict 2.5をLoRAおよびDoRAで効率的に微調整する手法を公開しました。20億パラメータのモデル全体を再学習する代わりに、注意機構やフィードフォワード層に小規模なアダプタモジュールを注入することで、単一のGPUでも微調整が可能になります。ロボット操作の合成動画生成を主な応用先として、92本の実ロボット動画を使った学習手順が示されています。

微調整にはrectified flowの定式化が用いられ、ノイズサンプルからクリーンデータへ線形に輸送する速度をモデルが学習します。VAE、テキストエンコーダ、DiTの基盤重みはすべて凍結され、LoRAアダプタのパラメータのみが更新されます。数値安定性のため、アダプタの重みはfloat32にキャストされ、bf16混合精度で学習が進みます。

評価では、Sampson誤差による幾何的整合性と、Cosmos Reason2をLLM審査員とした物理的妥当性・指示追従性の3指標が用いられました。微調整前のベースモデルでは、ロボットの手が人間の手に置き換わる幻覚や、指定された手の左右が無視される問題が発生していましたが、LoRA・DoRAによる微調整でこれらが解消されました。

rank 8とrank 32の比較では、高ランクが指示追従性を向上させる一方、幾何的整合性や物理的妥当性はランク8でも十分という結果が得られました。これは物理的な事前知識が凍結された基盤モデルに既に含まれており、アダプタはドメイン固有の外観やタスク構造の学習のみを担うためと分析されています。DoRAは低ランクでの学習安定化に有用ですが、rank 32ではLoRAと同等の性能に収束しました。

出典：Hugging Face

マルチエージェントAIのトークン消費を75%削減する新手法

2026年05月15日 Qwen 検索数学 Llama 推論ファインチューニング GPU 品質保証医療スタンフォードエージェントベンチマーク基盤モデル Mistral Gemma

テキスト通信の限界

エージェント間テキスト生成が遅延とコスト増の原因

逐次テキスト生成で推論速度が律速

全モデルの重み更新は計算コストが膨大

潜在空間での協調

RecursiveLinkで埋め込み空間を直接伝達

モデル重みは凍結し軽量モジュールのみ学習

同一基盤モデルのメモリ共有が可能

精度と効率の両立

ベースライン比で平均精度8.3%向上

推論速度最大2.4倍、訓練コスト半減

詳細を見る

イリノイ大学アーバナ・シャンペーン校とスタンフォード大学の研究チームが、マルチエージェントAIシステムの新フレームワーク「RecursiveMAS」を発表しました。従来のマルチエージェントシステムはエージェント間でテキストを生成・共有して連携しますが、これが遅延やトークンコスト増大の主因となっていました。RecursiveMASはテキストの代わりに埋め込み空間（潜在表現）を直接受け渡すことで、この根本的なボトルネックを解消します。

RecursiveMASの中核技術は「RecursiveLink」と呼ばれる軽量な2層モジュールです。各エージェントの最終隠れ層の状態をそのまま次のエージェントの入力埋め込み空間へ変換し、テキストへのデコードを経ずに情報を伝達します。内部用と外部用の2種類があり、異なるモデルアーキテクチャ間でも埋め込み次元を橋渡しできます。基盤モデルの重みは凍結したまま、RecursiveLinkのパラメータ（全体の約0.31%、約1300万パラメータ）のみを学習するため、訓練コストを大幅に抑えられます。

9つのベンチマーク（数学、医療推論、コード生成、検索ベースQA）での評価では、最強のベースラインに対し平均8.3%の精度向上を達成しました。特に推論負荷の高いタスクではTextGradを18.1%上回っています。テキスト生成を省略できるため、エンドツーエンドの推論速度は最大2.4倍に向上し、3ラウンド目のトークン使用量は75.6%削減されました。GPU最大メモリ使用量も最小で、訓練コストはフルファインチューニングの半分以下です。

同一の基盤モデルを使う複数エージェントではバックボーンを共有でき、GPUメモリの重複ロードも不要です。これらの効率改善により、企業のエージェント本番運用で課題となる計算コストの障壁を大きく引き下げます。研究チームはコードと学習済みモデルの重みをApache 2.0ライセンスでオープンソース公開しており、Qwen・Llama-3・Gemma3・Mistralなど主要なオープンモデルでの利用が可能です。

出典：VentureBeat

IBMが97Mパラメータで最高精度の多言語埋め込みモデルを公開

2026年05月14日 LangChain 検索 Llama 推論 GPU コンテキストベンチマークトランスフォーマー LlamaIndex RAG

小型モデルの性能躍進

97Mパラメータで同規模最高の検索精度

MTEB多言語検索で60.3を記録

前世代R1から12.2ポイント改善

コンテキスト長を512から32Kトークンに拡大

実用性重視の設計思想

Apache 2.0ライセンスで商用利用可

200以上の言語と9種のプログラミング言語に対応

LangChain等の主要フレームワークに1行で導入可能

311Mモデルの総合力

MTEB多言語検索65.2で上位

Matryoshka対応で次元削減時も精度維持

詳細を見る

IBMは2026年5月14日、オープンソースの多言語埋め込みモデル「Granite Embedding Multilingual R2」を発表しました。97Mパラメータのコンパクトモデルと311Mパラメータのフルサイズモデルの2種類で、いずれもApache 2.0ライセンスのもと、200以上の言語と9種類のプログラミング言語に対応します。

最大の注目点は97Mパラメータモデルの検索性能です。MTEB多言語検索ベンチマークで60.3を記録し、100M未満のオープンな多言語埋め込みモデルとしては最高スコアとなりました。同規模で次点のmultilingual-e5-smallの50.9を9.4ポイント上回っています。前世代のR1モデルからはアーキテクチャの刷新やトレーニング手法の改良により、12.2ポイントの大幅な改善を実現しています。

技術面では、エンコーダをXLM-RoBERTAからModernBERTに刷新し、コンテキスト長を512トークンから32,768トークンへ64倍に拡大しました。これにより長文文書の検索精度が劇的に向上し、LongEmbedベンチマークでは31.3ポイントの改善を記録しています。法務文書や技術マニュアルなど、実務で扱う長い文書の検索において大きな恩恵をもたらします。

311MモデルはMatryoshka表現学習に対応しており、768次元の埋め込みを256次元に削減してもMTEB多言語検索で0.5ポイント低下にとどまります。ストレージや計算コストを3分の1に抑えつつ高い検索品質を維持できるため、大規模な本番環境への導入に適しています。

企業利用を強く意識した設計も特徴です。MS-MARCOデータセットや非商用ライセンスのデータを使用せず、IBMが独自にキュレーションしたデータで学習しています。sentence-transformersやLangChain、LlamaIndex、Haystack、Milvusといった主要フレームワークにモデル名を1行変更するだけで導入できるため、既存のRAGパイプラインへの組み込みも容易です。ONNX・OpenVINO形式のウェイトも同梱されており、GPUなしでのCPU推論にも対応しています。

出典：Hugging Face

Hugging Face、LLM推論を22%高速化する非同期バッチ処理を公開

2026年05月14日推論強化学習 GPU トランスフォーマー Hugging Face

同期処理の無駄を解消

GPU待機時間が全体の24%を占める問題

CPUとGPUが交互に動く同期処理が原因

CUDAストリームで並列実行を実現

非同期化の技術的課題

CUDAイベントによるストリーム間同期

ダブルバッファでデータ競合を回避

キャリーオーバーで出力トークンを次バッチへ引き継ぎ

実測で大幅な性能向上

GPU稼働率が76%から99.4%に改善

モデル変更なしで22%の速度向上

詳細を見る

Hugging Faceは2026年5月14日、LLM推論における連続バッチ処理（Continuous Batching）を非同期化し、生成速度を22%向上させる手法を技術ブログで公開しました。従来の同期方式ではCPUとGPUが交互に稼働するため、GPU待機時間が全体の約24%に達していたことが問題の背景です。

従来の連続バッチ処理では、CPUがバッチを準備している間GPUは遊休状態となり、GPUが計算している間CPUも待機するという非効率が生じていました。8Bモデルで8Kトークン生成の実験では、全生成時間300.6秒のうち約72秒がGPUのアイドル時間でした。この「交互動作」のボトルネックを解消するために、CPU側のバッチ準備とGPU側の計算を同時に走らせる非同期方式が提案されています。

技術的には3つのCUDAストリーム（ホスト-デバイス転送、計算、デバイス-ホスト転送）を用い、CUDAイベントでストリーム間の依存関係を制御します。バッチNの計算中にバッチN+1の入力をCPU側で準備し、GPUへ転送しておくことで待ち時間をなくす仕組みです。データ競合を避けるため入出力テンソルを2スロット用意し交互に使う「ダブルバッファ」方式を採用しています。

もう1つの課題は、バッチNの出力トークンがバッチN+1の入力に必要な点です。これには「キャリーオーバー」と呼ばれる手法で対処します。バッチN+1の入力にプレースホルダー（値0）を置いておき、バッチNの計算完了後に実際のトークンを上書きする処理をCUDAグラフに組み込んでいます。

同じ8Bモデル・8Kトークン・バッチサイズ32の条件で検証した結果、GPU稼働率は76.0%から99.4%に向上し、生成時間は300.6秒から234.5秒へと22%短縮されました。モデルのカーネル変更は一切不要で、CPUとGPUの協調スケジューリングだけで達成しています。実装はtransformersライブラリに統合済みで、強化学習など16K以上の長文生成ユースケースでさらなる最適化を進めるとしています。

出典：Hugging Face

Applied Materials、半導体R&Dに50億ドル投じEPICセンター開設へ

2026年05月14日エンジニア経営者半導体 GPU エネルギー投資

AI時代の半導体課題

AI処理でデータ移動の消費電力が演算並みに

ロジック・メモリ・パッケージングの同時最適化が必須

従来の逐次型R&D;では10〜15年かかり限界

オングストローム世代で物理的結合が複雑化

EPICの共創モデル

50億ドル投資、アメリカ史上最大の半導体装置R&D;拠点

顧客エンジニアと初日から共同開発し学習サイクルを2倍高速化

GAA・CFET・3D DRAM・HBMなど次世代技術を一拠点に集約

大学連携で半導体人材育成パイプラインも強化

詳細を見る

Applied Materialsは2026年中の開設を目指し、約50億ドルを投じた半導体R&D;拠点「EPICセンター」の構想を発表しました。これはアメリカ史上最大規模の半導体製造装置R&D;投資であり、AI時代に求められるエネルギー効率の高いチップ開発を加速させる狙いがあります。

AI処理ではデータの移動が演算と同等以上のエネルギーを消費するようになっており、ロジック・メモリ・先端パッケージングの3領域を統合的に最適化する必要性が高まっています。しかし従来の半導体業界のR&D;モデルは、各工程を順次受け渡す「リレー型」であり、オングストロームスケールの複雑な相互依存に対応するには遅すぎるという課題がありました。

EPICセンターはこの課題に対し、チップメーカーのエンジニアとApplied Materialsの技術者が初日から同じクリーンルームで共同開発する「共創プラットフォーム」を提供します。原子レベルのモデリングからプロセス開発、検証、計測フィードバックまでを一体化し、従来比で最大2倍の開発速度を実現するとしています。

具体的には、GAA（ゲートオールアラウンド）トランジスタやCFET（相補型FET）といった次世代ロジック、4F²や3D DRAMへのメモリ移行、そして16層以上のHBM（広帯域メモリ）スタッキングやハイブリッドボンディングといった先端パッケージング技術の開発が進められます。最先端GPUでは切手サイズに3,000億個超のトランジスタと3,200キロメートル超の配線が詰め込まれる時代に突入しています。

半導体産業にとって、AI需要の爆発的成長は好機であると同時に、技術開発のスピードという根本的な課題を突きつけています。EPICセンターの共創モデルが機能すれば、エネルギー効率に優れたAIチップの実用化が大幅に早まる可能性があります。経営者やエンジニアにとっては、半導体サプライチェーン全体の開発パラダイムが変わりうる動きとして注目に値するでしょう。

出典：spectrum.ieee.org

AIデータセンターの電力問題に変電所分散型と蓄電池で対抗

2026年05月12日 NVIDIA 推論リスク GPU インフラデータセンターエネルギー米国投資

変電所横のマイクロDC

NvidiaとEPRIが25拠点の実証計画

変電所の余剰5〜20MWを活用

推論ワークロードを電力状況で動的移動

2026年末までに建設開始予定

蓄電池による電力安定化

GPU同期パルスが送電網を不安定化

半固体電池がミリ秒級の電力変動を吸収

UPS統合で過剰設備投資を抑制

柔軟な電力利用の展望

米国の送電網は平均53%しか稼働せず

ピーク時0.25%の抑制で76GW追加可能

詳細を見る

AIデータセンターの電力消費が急増するなか、Nvidiaと米電力研究所EPRIは、全米の変電所に隣接する小規模データセンター約25拠点を建設する実証プロジェクトを発表しました。各拠点は5〜20MW規模で、電力需給に応じて推論ワークロードを別の拠点へ動的に移動させる「分散推論」方式を採用します。米国には約5万5000の変電所があり、それぞれの余剰電力を束ねれば大規模な計算資源を確保できるという発想です。

一方、ギガスケールのAI訓練施設では別の電力課題が浮上しています。数千基のGPUが同期して計算する際に発生する高周波パルス負荷が、電圧低下や周波数不安定を引き起こし、送電網全体に波及するリスクがあります。従来のディーゼル発電機やガスタービンでは、ミリ秒単位の電力スパイクに対応できません。

この課題に対し、電池メーカーAmpaceはEatonと連携して半固体電池を用いたUPS統合ソリューションを提案しています。超低内部抵抗の半固体セルが「衝撃吸収材」として機能し、電力変動を発生源で中和します。これにより、従来必要だった過剰な変圧器や発電機の設備投資を削減でき、総所有コストの最適化が見込めます。

背景には、米国の送電網が平均53%の稼働率にとどまるという構造的な余力があります。ピーク需要はごく短時間に集中するため、データセンターが年間わずか0.25%の時間だけ消費を抑制すれば、76GWの追加容量を確保できるとの試算もあります。小規模分散と蓄電池による安定化という2つのアプローチが、AIインフラの電力問題を解く鍵として注目されています。

出典：spectrum.ieee.org | spectrum.ieee.org

CUDAがNvidiaの最強の堀である理由

2026年05月11日 NVIDIA Apple DeepSeek エコシステムエンジニア機械学習 GPU ハードウェアスタンフォードベンチマーク Intel

CUDAの技術的優位性

GPU並列処理の最適化基盤

数十のライブラリ群による性能向上

行列演算50行超の低レベル制御

DeepSeekはPTX層まで直接操作

競合を寄せ付けない構造

ロックイン効果で他社GPU不利

AMD ROCmはバグと互換性に難

IntelのoneAPIも普及せず

ソフトウェア人材の厚みが差別化要因

詳細を見る

米Wiredは2026年5月11日、NvidiaのソフトウェアプラットフォームCUDAが同社最大の競争優位（堀）である理由を分析する記事を掲載しました。CUDAはGPUの並列計算能力を最大限に引き出す開発基盤であり、AI時代における同社の支配的地位を支えています。

CUDAはCompute Unified Device Architectureの略称で、もともとゲーム用GPUの汎用計算への転用から生まれました。2000年代初頭にStanford大学のIan Buck氏がGPUの汎用計算利用を着想し、Nvidia入社後にJohn Nickolls氏とともに開発を主導しました。現在ではAI向けライブラリ群を包含する巨大なエコシステムに成長しています。

記事の筆者が実際にCUDAでの開発を試みたところ、PyTorchなら3行で書ける行列積がCUDAでは50行以上を要しました。GPU性能の最適化は極めて専門的な作業であり、優秀なGPUカーネルエンジニアの数は世界的に限られています。この人材の多くをNvidiaが囲い込んでいる点も同社の強みです。

CUDAの支配力はロックイン効果によってさらに強化されています。主要な機械学習フレームワークがCUDA上に構築されているため、AMDのGPUはスペック上で優位でも実性能ではNvidiaに及びません。独立研究者のベンチマークでも、AMD MI300XはNvidia H100に劣後するとの結果が報告されています。

競合の動向も振るいません。AMD の ROCm はバグや互換性の問題が続き、Intel の oneAPI も普及に失敗しました。唯一の有望な挑戦者として、Swift や LLVM の生みの親であるChris Lattner氏率いる Modular が挙げられています。記事は、Nvidia の本質は Apple に近く、ハードウェアの強さはソフトウェアエコシステムに支えられていると結論づけています。

出典：WIRED

Cowboy Space、宇宙DC向けロケット開発へ2.75億ドル調達

2026年05月11日 Google エンジニア創業者 GPU インフラデータセンター太陽光発電評価額 SpaceX Falcon

自社ロケット開発の背景

2.75億ドルのSeries B完了

評価額20億ドルに到達

既存ロケットの打上げ能力不足が動機

SpaceXやBlue Originの商用化に遅れ

独自設計と技術戦略

第2段にDCを直接統合する設計

衛星1基あたり約800基のGPU

1MW発電・質量2万〜2.5万kg想定

2028年末までに初打上げ目標

詳細を見る

Robinhoodの共同創業者Baiju Bhatt氏が率いるCowboy Space Corporationは、宇宙データセンター向けロケットの自社開発を目的としたSeries Bラウンドで2億7500万ドルを調達しました。ポストマネー評価額は20億ドルで、Index Venturesがリードし、Breakthrough Energy VenturesやConstruct Capitalなどが参加しています。同社は以前Aetherfluxとして宇宙太陽光発電事業で創業しましたが、軌道上データセンターへとピボットしました。

自社ロケット開発に踏み切った理由は、既存の打上げサービスでは容量が圧倒的に不足しているためです。SpaceXのStarshipは開発段階にあり、商用利用可能になっても自社衛星事業が優先される見込みです。Blue OriginのNew Glennも4月の3回目の打上げで衛星投入に失敗しており、外部の打上げ手段に依存する限り、地上データセンターとコスト競争できる規模には到達できないとBhatt氏は判断しました。

技術面での最大の特徴は、ロケットの第2段にデータセンター衛星を直接組み込む設計です。通常のロケットがペイロードを分離して軌道投入するのに対し、第2段そのものが衛星として機能します。各衛星は質量2万〜2万5000kg、1MWの発電能力を持ち、約800基のGPUを搭載する計画です。ロケットの推力はSpaceXのFalcon 9をやや上回る規模を想定しています。

同社はBlue Origin出身の推進系エンジニアWarren Lamont氏やSpaceX出身の打上げディレクターTyler Grinnell氏など、宇宙産業の経験者を採用しています。ロケットエンジンも自社開発する方針で、試験・製造・打上げ施設の整備を進めている段階です。2028年末までの初打上げを目指しています。

宇宙データセンター市場では、GoogleのSuncatcherが2030年代半ばを目標としており、Starcloudはセンサー向けのエッジ処理から事業を開始する戦略をとっています。Cowboy Spaceはロケットからデータセンターまでを垂直統合する独自路線で、SpaceXやBlue Originと直接競合する構えです。AI計算需要の急増と地上のインフラ制約が強まる中、Bhatt氏は市場規模の大きさから複数プレイヤーが共存できると述べています。

出典：TechCrunch

xAI計算資源をAnthropicが全量取得

2026年05月10日 Anthropic NVIDIA xAI Grok チャットボット創業者投資家 GPU クラウドデータセンターイーロン・マスク投資提携 IPO SpaceX

取引の構図

Colossus 1の全計算能力をAnthropicが取得

xAIはGPU貸し出し型ビジネスへ転換

SpaceXのIPO直前に発表

Grokの苦境

企業向け用途での存在感が薄いGrok

xAI社員すら他社モデルを使用

共同創業者が相次ぎ退社

IPOへの思惑

SpaceXがxAIを吸収・解散予定

短期的には安定収益だが成長期待に疑問

詳細を見る

AnthropicとxAIが大型提携を発表しました。Anthropicがテネシー州メンフィスにあるxAIのデータセンター「Colossus 1」の計算能力をすべて取得し、自社のエンタープライズ向けAI製品に活用します。SpaceXが大型IPOを控えるなか、子会社xAIの事業転換として注目を集めています。

この取引により、xAIは事実上「ネオクラウド」、つまりNvidiaからGPUを購入して他社に貸し出すビジネスモデルへ移行したことになります。自社でフロンティアモデルを開発する企業であれば、データセンターの計算資源は自社のAI訓練に優先的に使うのが通常です。全能力を外部に貸し出す判断は、xAIがモデル開発の最前線から後退していることを示唆しています。

背景には、xAIの主力モデル「Grok」の競争力不足があります。消費者向けチャットボットとしての利用は伸びず、企業がGrokを業務に採用する動きもほとんど見られません。さらに、xAIの従業員自身が社内で他社モデルを使っていたことが報じられ、これが組織の大幅な再編につながりました。Elon Musk氏以外の共同創業者は全員退社しています。

SpaceXはIPOに向けて、xAIを独立組織として解散し「SpaceXAI」に統合する計画を明らかにしています。TechCrunchのポッドキャストでは、今回の提携が「IPO前の大きなヒートチェック（実力試し）」だとの見方が示されました。GPU貸し出しは短期的に安定した収益源になりますが、フロンティアAI開発企業と比べた場合、長期的な投資家の関心を引きにくいという課題が残ります。

なお、Colossus 1をめぐっては無許可でガスタービンを運用したとする環境訴訟も係争中です。ネオクラウドへの転換が、SpaceXの企業価値を押し上げる材料になるのか、それとも成長ストーリーの弱さを露呈するのか。IPOの成否とともに市場の判断が注目されます。

出典：TechCrunch

Orbital、GPU衛星網で宇宙AI推論へ

2026年05月10日 OpenAI Anthropic チャットボット創業者推論リスク GPU データセンターエネルギー太陽光発電スタートアップ Andreessen Horowitz SpaceX Falcon

衛星1万基の計画

GPU搭載小型衛星のメッシュ網

太陽光発電で各100kW確保

推論特化で設計を簡素化

a16z出資、2027年打ち上げ

技術課題と展望

放射線によるGPU誤動作リスク

真空中の放熱が大きな壁

軌道上の修理・保守が困難

実用化に10〜20年との指摘も

詳細を見る

ロサンゼルスのスタートアップOrbitalが、AI推論に特化した宇宙データセンターの構築計画を発表しました。Andreessen Horowitz(a16z)の支援を受け、太陽光発電で稼働するGPU搭載小型衛星を低軌道に打ち上げ、地上データセンターが直面する電力不足を回避する構想です。創業者のEuwyn Poon氏は「地上の電力容量では足りない。唯一の道は宇宙だ」と語っています。

計画では、テニスコート大のソーラーパネルと同等サイズの放熱パネルを備えた冷蔵庫サイズの衛星を最大1万基配備します。各衛星は約100キロワットの電力でGPUサーバーラックを駆動し、衛星間はレーザー光通信で接続されます。ユーザーのリクエストは地上局から衛星に転送され、処理結果が同じ経路で返される仕組みです。

推論に特化している点は技術的に合理的です。大規模モデルの学習にはGPUクラスタの密結合が必要ですが、推論は1リクエストあたりの計算負荷が小さく、独立したノードへの分散が容易です。衛星1基あたり100キロワットに抑えることで設計も大幅に簡素化されるとPoon氏は説明しています。成功すればOpenAIやAnthropicといった大手AIラボにAPI経由で推論能力を提供する計画です。

一方、宇宙ならではの課題は山積しています。放射線がGPUにビットフリップなどのエラーを引き起こすリスク、空気のない環境での放熱の難しさ、故障時の修理困難性が大きな壁です。テキサスA&M;大学のAmit Verma教授は、チャットボットやレコメンド機能には数十ミリ秒の遅延は許容できるものの、リアルタイム株式取引のような用途には不向きだと指摘しています。

Orbitalは2027年にSpaceXのFalcon 9で試験衛星を打ち上げ、軌道上でのGPU稼働と商用推論処理を検証する予定です。2028年にはロサンゼルスに製造施設を建設する計画ですが、工学物理学者のAndrew Côté氏は宇宙データセンターの実用化には少なくとも10〜20年かかると予測しており、Orbitalの工程表は野心的と言えるでしょう。

出典：spectrum.ieee.org

Nvidia、AI企業に400億ドル超を出資

2026年05月09日 OpenAI NVIDIA 半導体 GPU データセンタースタートアップ投資

投資の全体像

2026年だけで400億ドル超の出資

OpenAIへの300億ドルが最大

上場企業7社に数十億ドル規模の投資

2025年は67件のベンチャー投資を実施

循環取引への批判と狙い

顧客企業への投資が循環取引と批判

Corningに32億ドル等の大型案件

成功すれば競争優位の堀を構築可能

2026年は非公開企業にも約24件出資

詳細を見る

半導体大手Nvidiaが2026年の最初の数カ月間だけで、AI関連企業への株式投資の総額が400億ドル（約6兆円）を超えたことが、CNBCの報道で明らかになりました。最大の案件はOpenAIへの300億ドルの出資で、GPU販売だけでなく、AI産業全体への資本参加を通じた囲い込み戦略を一段と加速させています。

投資額の大部分を占めるのが、OpenAIへの300億ドルという単一の出資です。これに加え、ガラスメーカーのCorningに最大32億ドル、データセンター事業者のIRENに最大21億ドルなど、上場企業7社への数十億ドル規模の投資も発表しています。2025年には67件のベンチャー投資を行い、2026年もすでに非公開スタートアップへ約24件の出資ラウンドに参加しました。

一方で、Nvidiaが自社の顧客企業に投資している構図は「循環取引」との批判を招いています。投資先がNvidiaの半導体を購入し、その資金が再びNvidiaに還流するという指摘です。

Wedbush Securitiesのアナリストは、この投資が「循環投資のテーマにぴったり当てはまる」としつつも、成功すれば競争優位の堀（moat）を築ける可能性があると分析しています。GPU市場の支配だけでなく、AI産業全体への資本参加を通じた囲い込み戦略が鮮明になってきました。

出典：TechCrunch

企業のGPU稼働率わずか5%、投資の95%が浪費

2026年05月08日 Google ネットワーク推論 GPU インフラクラウドセキュリティコンプライアンス安全保障投資バブルエージェント

GPU調達バブルの崩壊

GPU稼働率が平均わずか5%

AI基盤投資は年間4010億ドル規模

投資1ドルあたり95セントが浪費

「確保優先」からコスト効率重視へ転換

推論経済への構造転換

特化型AIクラウドへの移行が加速

マネージド推論の評価意向が倍増

KVキャッシュ共有でメモリ税を削減

データ主権と信頼基盤

72%の企業がガバナンスに課題

トークン生産者か消費者かの選択

詳細を見る

Gartnerの推計によると、2026年のAIインフラ関連の新規支出は4010億ドルに達する見込みです。しかしCast AIの調査では、企業のGPU稼働率は平均わずか5%にとどまっており、投資の95%が実質的に無駄になっている実態が明らかになりました。過去2年間の「GPUの奪い合い」で確保した計算資源が、3〜5年の減価償却サイクルの中で固定費として重くのしかかっています。

VentureBeatの2026年第1四半期調査によると、企業の優先事項は急速に変化しています。「GPUへのアクセス確保」は20.8%から15.4%に低下し、代わりに「推論あたりのコスト・TCO」が34%から41%へ急上昇しました。セキュリティとコンプライアンスの要件も41.5%から48.7%に増加しており、白紙小切手の時代は終わりを迎えています。

特化型AIクラウド（Coreweave、Lambda、Crusoeなど）への移行意向は30.2%から35.9%に拡大しました。これらのプロバイダーは汎用クラウドとは異なり、推論に最適化されたストレージ、ネットワーク、スケジューリングを提供します。一方、マネージド推論の評価意向も13.2%から23.1%へとほぼ倍増し、自前での推論基盤構築が難しい企業の受け皿になっています。

技術面では、RDMAネットワークによる待機時間の削減、共有KVキャッシュアーキテクチャによるメモリ効率の改善、GoogleのTurboQuantによる最大6倍のKVキャッシュ圧縮など、稼働率の壁を突破する手段が整いつつあります。ストレージ層の最適化では、Dellが従来比19倍の初回トークン生成速度向上を実現したと発表しています。

しかし最大の障壁は技術ではなく信頼です。VentureBeatの調査では、72%の企業が自社のAIガバナンスが不十分であると認め、88%の経営幹部がAIエージェント関連のセキュリティインシデントを報告しています。企業は「トークン消費者」として外部に依存するか、「トークン生産者」として推論基盤を自社で保有するかという戦略的選択を迫られています。自前の推論基盤は、データ主権とガバナンスをインフラ層で強制できるという安全保障上の利点もあります。

出典：VentureBeat

サイバー防御特化の4Bモデル、8B超えの精度を実現

2026年05月08日 Qwen 脆弱性プロンプトインジェクション GPU セキュリティデプロイ医療 MIT プロンプトベンチマーク基盤モデル教師 Hugging Face Gemma

小型特化モデルの優位性

パラメータ数半分で8Bモデルに匹敵する精度

12GB消費者向けGPUでローカル実行可能

機密データを外部APIに送信せず完全オンプレミス運用

Apache 2.0ライセンスで商用利用可能

訓練手法と評価結果

AMD Instinct MI300X単体で全工程完結

CTI-MCQで+8.7ポイント上回る成績

同一レシピで2Bモデルにも移植成功

CVE-CWEマッピング精度97.3%維持

想定用途と今後の展開

SOC分析官の脆弱性トリアージ支援

1Bモデルやスマートフォン向け量子化版を計画

詳細を見る

サイバーセキュリティの防御領域に特化した小型言語モデルCyberSecQwen-4Bが、Hugging Face上でApache 2.0ライセンスのもと公開されました。AMD Developer Hackathonで開発された本モデルは、40億パラメータながら、Ciscoが公開した80億パラメータの専門モデルFoundation-Sec-Instruct-8Bと同等以上の性能を達成しています。12GB以上のGPUがあればローカルで動作し、機密性の高いセキュリティデータを外部に送信する必要がありません。

ベンチマークのCTI-Benchでは、CTI-MCQ（サイバー脅威インテリジェンスの多肢選択問題）で0.5868を記録し、8Bモデルの0.4996を8.7ポイント上回りました。CVEからCWEへのマッピング精度を測るCTI-RCMでも0.6664と、8Bモデルの97.3%の精度を維持しています。パラメータ数が半分であることを考えれば、防御用途において小型特化モデルが大型汎用モデルを凌駕しうることを示す結果です。

訓練はAMD Instinct MI300X（192GB HBM3）1基のみで完結しました。ROCm 7とvLLMスタックの組み合わせにより、量子化や勾配チェックポイントなどの工夫なしにbf16精度でフル学習が可能でした。訓練データはMITRE/NVD公開レコードからの2021年CVE-CWEマッピングと、教師モデルから生成した合成Q&A;データで構成され、評価セットとの重複は事前に除去されています。

同一の訓練レシピをGemma-4-E2Bに適用したGemma4Defense-2Bも作成され、CTI-RCMで0.9ポイント差に収まる結果を得ました。レシピの再現性と移植性が確認されたことで、組織ごとのライセンス要件やデプロイ規模に応じた基盤モデルの選択が可能です。

想定用途はCWE分類、CVE-CWEマッピング、構造化されたサイバー脅威インテリジェンスQ&A;など、SOC分析官の日常業務を支援する領域です。今後はノートPC向けの1Bモデル、スマートフォンやエッジ機器向けのGGUF量子化版、新規CVEへの継続的評価、プロンプトインジェクション耐性の強化が計画されています。エアギャップ環境や医療・政府機関など、外部API接続が制限される現場への展開が期待されます。

出典：Hugging Face

Anthropic売上年換算300億ドル突破、前年比80倍成長

爆発的な収益成長

年間売上換算300億ドル到達

計画の10倍成長に対し80倍の実績

Claude Codeが半年で10億ドル規模に

企業顧客1000社超が年間100万ドル以上支出

計算資源の確保に奔走

SpaceXと30万kW超のGPU利用契約

Amazonから最大250億ドルの投資確保

Google・Broadcomと5ギガワットの計算容量契約

評価額1兆ドル視野

新ラウンドで9000億ドル超の評価額検討

2026年10月にもIPOの可能性

詳細を見る

Anthropicのダリオ・アモデイCEOは、同社の開発者会議「Code with Claude」で、2026年第1四半期の年間売上換算が300億ドルに達したと明らかにしました。年間10倍成長を計画していたにもかかわらず、実際には80倍という想定外の成長を記録しました。2024年1月の8700万ドルから約2年半でこの規模に到達しており、Salesforceが20年かけて達成した売上水準をわずか3年足らずで超えたことになります。

成長の中核を担うのが、AIコーディングツールClaude Codeです。2025年半ばの公開から半年で年間売上換算10億ドルを突破し、2026年2月時点で25億ドル超に達しています。週間アクティブユーザー数は1月から倍増し、法人契約は4倍に増加しました。Anthropic社内でもコードの大半をClaude Codeが生成しており、自社製品で次世代製品を開発するというフィードバックループが競争優位を強化しています。

急成長に伴い、計算資源の不足が深刻な課題となっています。Anthropicはイーロン・マスク氏のSpaceXが運営するColossus 1データセンターの全計算容量を利用する契約を締結しました。22万基超のNvidia GPUを含む300メガワット超の容量を確保します。マスク氏はこれまでAnthropicを公然と批判してきましたが、同社チームとの交流を経て「非常に有能で正しいことに真剣」と評価を転換しました。

資金調達面では、評価額9000億ドル超の新ラウンドを検討中で、実現すればOpenAIを抜いて世界最高額のAIスタートアップとなります。2025年3月の615億ドルからわずか1年余りで評価額は約15倍に跳ね上がりました。流通市場ではすでに1兆ドルの暗示的評価額で取引されており、2026年10月にもIPOを実施する可能性が報じられています。

一方で課題も山積しています。米国防総省が3月にAnthropicをサプライチェーンリスクに指定し、軍関連業務から排除しました。100社以上の企業顧客が取引継続に懸念を示しているとされます。またOpenAIは、Anthropicの300億ドルという数字にはAWSやGoogle Cloud経由の売上が総額計上されており、約80億ドル過大だと指摘しています。アモデイ氏はAIが単一エージェントから組織全体の知能へ進化する未来像を描き、2026年中に1人で運営する10億ドル企業が誕生すると予測しています。

出典：VentureBeat

Zyphra、8Bパラメータで大規模モデルに迫る推論モデルを公開

2026年05月07日 NVIDIA DeepSeek Claude 数学 Sonnet 推論事前学習推論モデル GPU オンデバイススタートアップコンテキストベンチマークトランスフォーマー

ZAYA1-8Bの革新

総パラメータ8B、活性パラメータわずか760M

独自MoE++アーキテクチャ採用

KVキャッシュ8分の1に圧縮

Apache 2.0で商用利用可能

驚異的ベンチマーク性能

AIME '25で91.9%達成

HMMT数学でClaude 4.5 Sonnet超え

LiveCodeBenchでDeepSeek-R1超え

AMD基盤と業界への示唆

AMD Instinct MI300で全訓練完了

エッジデバイスへの展開が現実的に

詳細を見る

Palo AltoのスタートアップZyphraは2026年5月7日、オープンソースの推論特化型言語モデルZAYA1-8BをApache 2.0ライセンスで公開しました。総パラメータ数は約84億、活性パラメータはわずか7.6億という超効率設計で、AMD Instinct MI300 GPUのみで訓練された点が大きな特徴です。

ZAYA1-8Bは独自のMoE++アーキテクチャを採用しています。圧縮畳み込みアテンション（CCA）によりKVキャッシュを従来の8分の1に削減し、長文脈での推論効率を大幅に向上させました。さらにMLPベースのルーター設計やPID制御に着想を得た安定化手法など、Transformer基盤に根本的な改良を加えています。

最大の技術的突破は推論時の計算手法Markovian RSAです。複数の推論トレースを並列生成し、末尾部分のみを集約して再推論するという手法で、コンテキスト窓を溢れさせずに深い思考を実現します。これによりAIME '25で91.9%、HMMT '25数学で89.6%（Claude 4.5 Sonnetの79.2%を上回る）、LiveCodeBenchで69.2%（DeepSeek-R1-0528超え）という驚異的なスコアを記録しました。

事前学習段階から推論能力を組み込む「推論ファースト事前学習」も特徴的です。長い思考連鎖がコンテキストに収まらない場合、問題設定と最終回答を保持しつつ中間部分を刈り込むAnswer-Preserving Trimmingを開発し、問題と解答の関係を効率的に学習させています。

企業にとっての実用的意義は大きく、活性パラメータ760Mという軽量さはオンデバイス展開やエッジ推論を現実的にします。データ所在地の制約やAPI依存コストといった課題を解消し、高度な推論能力をローカル環境で利用可能にします。AMD GPUでの訓練成功は、Nvidia一強への有力な対抗軸が成立することを示しました。2025年にユニコーン評価を得たZyphraは、AMDやIBMの支援のもと「パラメータを増やす」以外のAI進化の道筋を示しています。

出典：VentureBeat

米エネルギー長官とNVIDIA、AI電力基盤でGenesis計画推進

2026年05月07日 NVIDIA 半導体 GPU データセンターエネルギースーパーコンピューター米国エージェント

Genesis計画の全容

DOEの17国立研究所が参画

Argonne研に10万GPU級スパコン建設

5000エクサフロップスの科学専用計算力

融合研究向けAIエージェント開発

エネルギーとAIの相互依存

電力生産の停滞がAI成長の障壁に

SMR3基が7月までに臨界達成予定

Blackwellでワット性能25倍向上

送電網審査をAIで年単位から週・時間へ

詳細を見る

2026年5月7日、SCSP AI+ Expoで米エネルギー省（DOE）のクリス・ライト長官とNVIDIA副社長イアン・バックが対談し、AI時代の米国エネルギー戦略「Genesis計画」の進捗を語りました。同計画はDOEの17国立研究所とNVIDIAが連携し、AIを科学的発見に応用する国家規模の取り組みです。

NVIDIAとDOEはアルゴンヌ国立研究所に2台のAIスーパーコンピュータを共同建設中です。1台目のEquinoxは1万基のGrace Blackwell GPUで現在構築中、2台目のSolsticeは次世代Vera Rubinチップ10万基を搭載し、5000エクサフロップスの演算能力を実現します。これは現在のTOP500スパコン合計の5倍に相当します。

具体的な成果として、NVIDIAは150万本の物理学論文で訓練し、10万本の核融合論文で微調整したオープンソースAIモデルを開発しました。DOE研究者はこの専門AIエージェントを使い、融合研究を加速できます。バック氏は「NVIDIAは世界中のAIラボが使うのと同じ技術を、すべての世界の科学に開放する」と述べました。

ライト長官はエネルギー面の課題を指摘しました。米国は過去20年で石油生産を3倍、天然ガスを2倍に増やしましたが、電力生産はほぼ横ばいです。対策として小型モジュール炉（SMR）3基を今年7月4日までに臨界させるほか、大型原子炉の新設や核融合戦略室の設置を進めています。

AI自体もエネルギー効率改善に貢献しています。NVIDIAはHopper世代からBlackwell世代でワットあたり性能を25倍向上させました。さらにAIは送電網の相互接続審査を年単位から数週間・数時間に短縮する可能性があります。ライト長官は「データセンター建設は電力コストを下げ、送電網を強化する仕組みだ」と強調し、AIとエネルギーの好循環を訴えました。

出典：NVIDIA公式

NVIDIA、AI向けEthernetに新プロトコルMRCを導入

2026年05月06日 OpenAI NVIDIA マイクロソフトオラクルネットワーク推論 GPU ハードウェアデータセンター Intel

MRCプロトコルの特徴

複数経路での負荷分散

マイクロ秒単位の障害迂回

RDMA接続の帯域幅を最大化

OpenAIとMicrosoftが実運用

巨大AIクラスタへの対応

数十万GPU規模の同期を維持

マルチプレーン設計に対応

Open Compute Projectで仕様公開

AMD・Intel等と共同開発

詳細を見る

NVIDIAは2026年5月6日、AI向けイーサネット基盤「Spectrum-X Ethernet」に新たなRDMAトランスポートプロトコル「MRC（Multipath Reliable Connection）」を導入したと発表しました。MRCは単一のRDMA接続で複数のネットワーク経路にトラフィックを分散させる技術で、大規模AI学習環境でのスループット向上、負荷分散、可用性の改善を実現します。OpenAI、Microsoft、Oracleがすでに実運用環境に導入しています。

OpenAIのSachin Katti氏は「Blackwell世代でのMRC導入は非常に成功した」と述べ、ネットワーク起因の学習遅延や中断を回避できたと評価しています。MicrosoftのFairwaterデータセンターやOracleのAbileneデータセンターなど、フロンティアLLMの学習・推論を目的とした大規模AI工場でもMRCが採用されています。データロスが発生した際にはインテリジェントな再送機能が高速かつ精密に復旧を行い、GPUのアイドル時間を最小限に抑えます。

MRCの大きな強みは、マイクロ秒単位でネットワーク経路の障害を検知し、ハードウェアレベルで自動的にトラフィックを迂回させる点です。数千台のGPUが同期する学習クラスタでは、わずかなネットワーク障害が全体の遅延につながるため、この高速復旧能力は極めて重要です。さらにマルチプレーンネットワーク設計により、数十万GPU規模までの拡張が可能になります。

MRCの仕様はOpen Compute Projectを通じてオープンに公開されました。NVIDIAはAMD、Broadcom、Intel、Microsoft、OpenAIと共同で開発を進めており、業界標準としての普及を目指しています。Spectrum-X Ethernetプラットフォーム上ではMRCのほか、Adaptive RDMAなど複数のトランスポートモデルを選択でき、ワークロードに応じた柔軟な構成が可能です。

出典：NVIDIA公式

Google、Gemma 4に投機的デコードで最大3倍高速化

2026年05月06日 Google Gemini 推論 GPU ハードウェアクラウド Gemma

投機的デコードの仕組み

軽量ドラフターが次トークンを先読み

メインモデルの待機時間を有効活用

KVキャッシュ共有で再計算不要

スパースデコードで候補を絞り込み

ローカルAIへの影響

消費者GPU上の推論速度を大幅改善

E2Bドラフターはわずか7400万パラメータ

Apache 2.0ライセンスで自由に利用可能

メモリ帯域のボトルネックを軽減

詳細を見る

Googleは2026年5月、オープンモデルGemma 4向けに「Multi-Token Prediction（MTP）」と呼ばれるドラフターモデルを公開しました。投機的デコード（speculative decoding）の手法を活用し、テキスト生成速度を最大3倍に引き上げることができます。ローカル環境でAIを動かすユーザーにとって、大きな性能改善となります。

通常、Gemma 4のような大規模言語モデルはトークンを1つずつ逐次生成します。各トークンの生成にはモデルパラメータをメモリから計算ユニットへ転送する必要があり、エンタープライズ向けの高帯域メモリ（HBM）と比べて遅い消費者向けGPUでは、この転送がボトルネックになっていました。MTPはこの待機時間を利用して軽量なドラフターモデルに次のトークンを推測させる仕組みです。

ドラフターモデルのサイズはE2Bでわずか7400万パラメータと非常にコンパクトです。メインモデルのKVキャッシュ（文脈を保持するアクティブメモリ）を共有することで、すでに処理済みの文脈を再計算する必要がありません。さらにスパースデコード技術を用いて、候補となるトークンのクラスタを事前に絞り込むことで、推測の精度と速度を両立しています。

Gemma 4はGoogleのフロンティアモデルGeminiと同じ技術基盤で構築されていますが、ローカル実行に最適化されています。ライセンスもApache 2.0に変更され、以前のカスタムライセンスよりも大幅に自由度が高まりました。クラウドにデータを送らずに手元のハードウェアでAIを活用したいユーザーにとって、今回のMTPドラフター公開は実用性を一段と高めるものといえるでしょう。

出典：Ars Technica

AnthropicがSpaceXAIの巨大データセンターと計算資源契約を締結

契約の概要と背景

Colossus 1の全計算資源を取得

300MW超・GPU約22万基の大規模契約

Claude Pro/Max利用者の容量拡大へ

軌道上データセンターにも関心表明

xAIの戦略転換とIPO

Grok利用減でネオクラウド事業に軸足

Colossus 2へ移行し旧施設を収益化

SpaceXAI上場に向けた投資家訴求

Google・Metaと異なる計算資源外販路線

AI業界の計算資源争奪戦

Anthropicのクラウド総契約が3000億ドル超規模に

主要クラウドの受注残の半分をAI企業が占有

詳細を見る

AnthropicとSpaceXAIは2026年5月6日、AnthropicがxAIのメンフィス所在データセンター「Colossus 1」の計算資源を利用する契約を締結したと発表しました。Anthropicは同社の年次開発者カンファレンスで発表し、SpaceXAI側もブログ記事で詳細を公開しています。この契約により、Anthropicは300メガワット超の電力容量と約22万基のNvidia GPU（H100、H200、GB200）へのアクセスを得ます。

Anthropicはこの計算資源を「Claude Pro」「Claude Max」の利用者向け容量拡大に充てる方針です。近年、Claude Codeなどのサービスでは利用制限やサービス中断への不満が高まっており、開発者は週平均20時間以上Claude Codeを使用しているとされます。また、Anthropicは軌道上AI計算基盤の共同開発にも関心を示しており、SpaceXAIの宇宙データセンター構想の将来的な顧客となる可能性があります。

この提携はxAIの戦略的転換を象徴しています。xAIはすでにトレーニングを新施設Colossus 2に移行済みで、旧施設を外部に貸し出すことで収益化を図りました。TechCrunchの分析によれば、画像生成問題でGrokの利用者が減少するなか、xAIは計算資源の販売を主軸とする「ネオクラウド」企業へと変貌しつつあります。GoogleやMetaが自社のAI開発のために計算資源を囲い込む戦略とは対照的です。

SpaceXAIにとって、この契約はIPOを控えた重要な実績となります。Anthropicという有力顧客の存在は、軌道データセンターを含む今後の大規模インフラ投資の収益性を投資家に示す材料になります。一方で、競合に計算資源を販売する姿勢は、xAI自身のソフトウェア開発やコーディングツールへの野心と矛盾するとの指摘もあります。

AI業界全体では計算資源の争奪が激化しています。AnthropicはGoogle Cloudに2000億ドル、Amazonに1000億ドル超のコミット契約を結んでおり、AnthropicとOpenAIの契約だけで主要クラウド事業者の受注残2兆ドルの半分以上を占めるとも報じられています。計算資源の確保がAI開発の成否を左右する時代が本格化しています。

出典：WIRED | TechCrunch

インド初の生成AIユニコーンKrutrimがクラウド事業に転換

2026年05月05日 OpenAI Anthropic App Store アシスタント創業者レイオフ半導体 GPU ハードウェアクラウドクラウドサービスインド医療提携評価額

モデル開発から撤退

独自AIモデル開発を事実上凍結

チップ設計も中断、資本と人材を再配置

200人超を段階的にレイオフ

AIアシスタントアプリもストア撤去

クラウド事業の成長

FY2026売上約31.5億円で前年比3倍

企業顧客25社超、GPU容量の大半が外部向け

初の年間黒字で利益率10%超

競合との差が拡大

ライバルSarvamは新モデルや提携を次々発表

インドAIサミットにKrutrimは不参加

詳細を見る

インド初の生成AIユニコーンとして注目を集めたKrutrimが、独自AIモデルの開発路線を転換し、クラウドサービス事業への移行を発表しました。2024年1月に評価額10億ドルで5000万ドルを調達した同社は、大規模AIシステム構築の経済的困難に直面し、チップ設計の中断や資本・人材の再配置を含む事業再編を進めていました。

Krutrimはライドシェア大手Olaの創業者Bhavish Aggarwal氏が設立し、AnthropicやOpenAIに対抗するインド発のAIモデル開発を目指していました。しかし過去1年間で200人以上をレイオフし、4月にはAIアシスタントアプリ「Kruti」をアプリストアから撤去するなど、事業縮小の兆候が続いていました。

一方で同社はクラウド事業の成長を強調しています。2026年度の売上は約31.5億円（₹30億）で前年比3倍に拡大し、初の年間黒字を達成したと発表しました。通信、金融、ヘルスケアなどの分野で25社超の企業顧客を獲得し、GPU計算能力の大半が外部ワークロードに充てられているといいます。ただし前年度は売上の約90%が親会社Olaグループ内部からだったとの報道もあり、外部収益の実態には疑問が残ります。

競合のSarvamはインドAIサミットで新モデルやハードウェア、宇宙テック企業Pixxelとの提携を発表するなど積極的に活動しており、Krutrimとの差は拡大しています。調査会社Greyhound Researchのアナリストはクラウドへの転換を商業的に合理的と評価しつつも、黒字化の主張にはより厳格な検証が必要だと指摘しています。

出典：TechCrunch

GoogleがGemma 4向けMTPドラフター公開、推論速度最大3倍に

2026年05月05日 Google NVIDIA Apple 生産性 Llama エンジニア推論 GPU コーディングエージェントコンテキスト Hugging Face Ollama Gemma

投機的デコードの仕組み

軽量ドラフターが複数トークンを先読み予測

本体モデルが一括検証し高速化

出力品質の劣化なしで最大3倍速

KVキャッシュ共有で計算コスト削減

開発者への実用的メリット

コーディング支援やエージェントの応答遅延を大幅短縮

消費者向けGPUでのローカル推論が実用速度に

エッジデバイスでのバッテリー消費も改善

Apache 2.0ライセンスで即日利用可能

詳細を見る

Googleは2026年5月5日、オープンモデルGemma 4ファミリー向けにMulti-Token Prediction（MTP）ドラフターをリリースしました。投機的デコード技術を活用し、推論品質を一切損なうことなく最大3倍の速度向上を実現します。Gemma 4は公開からわずか数週間で6000万回以上ダウンロードされており、今回のMTPドラフター公開でさらなる普及が見込まれます。

標準的なLLM推論はメモリ帯域幅がボトルネックとなり、1トークン生成のたびに数十億パラメータをVRAMから計算ユニットに転送する必要があります。MTPドラフターはこの問題に対し、軽量な補助モデルが複数の将来トークンを高速に予測し、本体モデルが一括で検証するという投機的デコード方式を採用しています。本体モデルがドラフトに同意すれば、通常1トークン分の時間でシーケンス全体とさらに1トークンを出力できます。

技術面では、ドラフトモデルが本体モデルの活性化情報とKVキャッシュを共有する設計により、コンテキストの再計算を省略しています。エッジ向けのE2B・E4Bモデルでは、エンベッダーにクラスタリング技術を導入してロジット計算のボトルネックも解消しました。Apple Silicon上の26B MoEモデルではバッチサイズ4〜8で約2.2倍、NVIDIA A100でも同様の高速化が確認されています。

MTPドラフターはGemma 4と同じApache 2.0ライセンスで公開されており、Hugging Face、Kaggle、MLX、vLLM、SGLang、Ollamaなど主要プラットフォームで即日利用可能です。コーディング支援、自律エージェント、モバイルアプリなど、レイテンシが重視されるあらゆるユースケースで開発者の生産性向上に直結する技術といえます。

出典：Google公式

Cerebras、最大266億ドル評価でIPO準備へ

2026年05月04日 OpenAI Cerebras 投資家推論半導体 GPU エネルギーサム・アルトマン投資 IPO

IPOの概要

28百万株を115〜125ドルで売出し

最大35億ドルの調達見込み

2026年最大のテックIPOとなる可能性

需要は募集額の約3倍に到達

OpenAIとの深い関係

OpenAIが10億ドルを融資済み

3300万株超のワラント付与

Sam Altmanら幹部が個人投資

複数年100億ドル超の計算資源契約

詳細を見る

AIチップメーカーのCerebras Systemsは2026年5月4日、新規株式公開（IPO）の準備を正式に発表しました。2800万株を1株あたり115〜125ドルで売り出し、最大35億ドルを調達する計画です。上限価格で算出した時価総額は約266億ドルに達し、実現すれば2026年最大のテックIPOとなります。

Cerebrasの最大の強みはOpenAIとの深い関係です。OpenAIは2025年12月にCerebrasへ10億ドルを融資し、3300万株超を取得可能なワラントを保有しています。さらに複数年で100億ドル超の計算資源契約を締結しており、Cerebrasの主要顧客です。CEOのSam Altmanをはじめ、Greg Brockman、Ilya SutskeverらOpenAI創業メンバーも個人で出資しています。

同社はGPUベースの競合に対抗する独自チップ「Wafer-Scale Engine 3」を提供しています。推論処理でGPUより高速かつ省電力と主張しており、AI推論需要の急増を追い風にしています。投資家にはAlpha Wave、Benchmark、Eclipse、Fidelity、Foundation Capitalのほか、Tiger Global、Coatue、AMD、アブダビのG42など著名な機関投資家が名を連ねます。

Cerebrasは2024年にもIPOを試みましたが、G42からの投資に対する米連邦政府の審査で延期となった経緯があります。その後2025年9月に81億ドル評価で11億ドル、2026年2月に230億ドル評価で10億ドルを調達し、今回のIPOに至りました。Bloombergによれば、すでに募集額35億ドルに対し約100億ドルの注文が集まっており、公開価格が提示レンジを上回る可能性が高いとされています。

出典：TechCrunch

Planet Labs、衛星上AIで航空機を数秒検出

2026年05月01日 Google NVIDIA Amazon エンジニアリスク GPU インフラクラウド太陽光発電画像オーストラリア SpaceX Pixel

軌道上AI処理の実現

Pelican衛星でAI画像認識

1画像0.5秒で処理完了

撮影から数分でユーザーへ配信

従来は地上転送に6〜12時間

次世代衛星網の構想

Owl衛星群で毎日1m解像度

自律的に異常検知し高解像度撮影

将来はLLMを宇宙で稼働

Googleと2027年に試験衛星打上げ

詳細を見る

米Planet Labsは、同社の高解像度衛星Pelican-4に搭載したAIモデルで、オーストラリアのアリススプリングス空港の航空機を自動検出することに成功したと発表しました。衛星上で画像認識アルゴリズムを実行し、16,000ピクセルの画像を0.5秒で処理できます。これにより、撮影から数分以内に分析結果をユーザーに届けることが可能になりました。

従来の地球観測では、衛星が取得した膨大なデータを地上に転送し、クラウドで処理するまでに6〜12時間を要していました。同社エンジニアリング担当副社長のKiruthika Devaraj氏は「過去を見ているのと同じだった」と指摘します。山火事など一刻を争う事態では、この遅延が被害拡大につながるリスクがありました。

AI処理にはNVIDIA Jetson ORIN GPUモジュールが使われており、18カ月の開発期間を経て検出精度80%を達成しました。次世代アルゴリズムでは95%超を目標としています。今後6〜9カ月以内にリアルタイムAI検出サービスを顧客に提供する計画です。

さらにPlanet Labsは、次世代のOwl衛星群により「惑星知能」の実現を目指しています。Owl群が地球を常時監視し、異常を自律的に検知して高解像度のPelican衛星に再撮影を指示する仕組みです。将来的にはJetson Thorプロセッサへの移行や、宇宙空間でのLLM稼働も視野に入れています。

同社はGoogleとSuncatcherプロジェクトで協業しており、2027年にプロトタイプ衛星2基の打上げを予定しています。宇宙空間でのデータ処理インフラ構築には、SpaceXやAmazonも関心を示しており、太陽光発電と自然冷却を活用できる利点がある一方、打上げコストの課題も残されています。

出典：spectrum.ieee.org

RunPodがコンテナ不要のAI開発ツールFlashをOSSで正式公開

Flash GAの主要機能

Docker不要でサーバーレスGPU開発

ローカルPythonからLinux成果物を自動生成

コールドスタートの大幅短縮

4種のワークロード構成に対応

CPU前処理からGPU 推論への自動ルーティング

開発者エコシステム戦略

MIT Licenseで商用利用制限なし

Claude CodeやCursor向けスキル提供

ARR1.2億ドル・開発者75万人超の基盤

詳細を見る

クラウド GPUプラットフォームのRunPodは2026年4月30日、オープンソースのPythonツール「RunPod Flash」の正式版（GA）を公開しました。サーバーレスGPU環境でのAI開発において、従来必須だったDockerコンテナの構築・管理工程を排除し、モデルの学習・推論・デプロイを大幅に高速化します。MITライセンスで提供され、企業での採用障壁を低く抑えています。

Flashの中核的な価値は、同社が「パッケージング税」と呼ぶDockerfileの管理・イメージのビルド・レジストリへのプッシュといった一連の作業を不要にする点です。内部ではクロスプラットフォームビルドエンジンが動作し、たとえばApple Silicon搭載のMacからLinux x86_64向けの成果物を自動生成します。依存関係はバンドルされ、実行時にマウントされるため、コールドスタートの遅延が大幅に削減されます。

GA版では4種類のワークロード構成を導入しました。キューベースの非同期バッチ処理、ロードバランス型の低遅延HTTP API、カスタムDockerイメージによる複雑な環境対応、既存エンドポイントとの連携です。さらに複数データセンターにまたがる永続ストレージをサポートし、モデルの重みや大規模データセットを一度キャッシュすれば再利用できます。環境変数の変更時にエンドポイント全体の再構築が不要になる仕組みも加わりました。

注目すべきは、AIコーディングエージェントとの連携を前提に設計されている点です。Claude Code、Cursor、Cline向けの専用スキルパッケージを提供し、エージェントがFlash SDKの文脈を理解した上でデプロイコードを自律的に記述できるようにしています。RunPodのCTOであるBrennen Smith氏は「エージェントが活用できる良質な基盤と接着剤が必要だ」と述べています。

RunPodは現在ARR1億2,000万ドルを超え、開発者数は75万人以上に成長しています。AnthropicやOpenAI、Perplexityといった大規模顧客から個人研究者まで幅広い層を抱えており、30種類以上のGPU SKUをミリ秒単位の課金で提供しています。Flash GAの投入により、同社は単なるGPU クラウド提供者からAI開発のオーケストレーション基盤への転換を図っています。

出典：VentureBeat

AIトークン単価低下でも総コスト増大、ジェボンズのパラドクス顕在化

2026年04月30日 Anthropic NVIDIA AI活用ネットワークエンジニア推論 GPU インフラデータセンター投資エージェント AIゲートウェイ

推論コストの逆説

トークン単価は2年で約10分の1に低下

消費量は100倍以上に増大

コスト最適化がエンジニアリング課題に

GPU稼働率が重要経営指標へ

エージェントAI時代のインフラ課題

短時間・高頻度の推論リクエストが急増

サイロ化したインフラが非効率を拡大

フルスタック統合による最適化が鍵

プラットフォームと開発者の協調が不可欠

詳細を見る

企業のAI活用が実験段階から本番運用へ移行するなか、コスト構造の逆転現象が顕在化しています。VentureBeatの2026年4月30日付記事によると、推論トークンの単価はこの2年間で約10分の1に低下したにもかかわらず、消費量が100倍以上に膨らんだことで、企業のAI関連総コストはむしろ増加しています。経済学でいうジェボンズのパラドクスがAIインフラ領域で起きている形です。

この現象の背景には、エージェントAIの台頭があります。従来の大規模学習ジョブとは異なり、エージェント環境では短時間かつ予測不能な推論リクエストが高頻度で発生します。GPU、ネットワーク、ストレージに対して従来のデータセンター設計では想定しなかった負荷がかかり、インフラ効率がAI経済性を左右する決定的要因になっています。

こうした課題に対し、インフラベンダー各社はフルスタック統合プラットフォームの提供で応えています。Nutanixは自社ハイパーバイザーAHV上にNVIDIAトポロジー対応の最適化機能を組み込み、GPU・CPU・メモリ・DPUの割り当てを自動化するソリューションを展開しています。NVIDIA NIMマイクロサービスやAnthropicなど主要LLMへのゲートウェイも統合し、サイロ化の解消を図っています。

企業がAI投資を持続的に拡大できるかは、トークン単価とGPU稼働率というインフラ指標の管理にかかっています。プラットフォームチームと開発者チームが共通の運用モデルで協調し、パイロットから本番環境へスムーズに移行できる体制を構築することが、AI経済性を確保する前提条件になりつつあります。

出典：VentureBeat

企業GPU稼働率わずか5%、恐怖心が最適化を阻む悪循環

2026年04月29日 AWS 創業者推論半導体 GPU クラウドコンテキスト

調達と構造の二重のムダ

GPU稼働率わずか5%の実態

割当喪失の恐怖で過剰確保が常態化

コンテナ設計がGPU遊休時間を増大

AWSがH200予約価格を15%値上げ

改善への具体策

タイムゾーン活用のGPU共有が有効

ワークロード別のチップ選定が急務

H100やA100で40〜60%のコスト削減可能

調達と運用を一体で見直す必要性

詳細を見る

企業のGPUフリート稼働率がわずか5%にとどまっていることが、Cast AIの2026年版Kubernetes最適化レポートで明らかになりました。これは人手による通常管理で達成できる約30%を大幅に下回る数値です。同社の共同創業者Laurent Gil氏は、クラウド GPUの調達構造そのものが問題の根源だと指摘しています。

稼働率が極端に低い原因は、調達とアーキテクチャの二重構造にあります。企業がGPUを確保する際、数週間から数カ月の待機期間を経てようやく割当を受けますが、1年または3年の契約が条件です。一度確保したGPUは、再取得の困難さから誰も手放そうとしません。手放せば稼働率は改善するが、手放した瞬間に再入手できなくなるという矛盾が、過剰確保の悪循環を生んでいます。

アーキテクチャ面でも問題は深刻です。Anyscaleの分析によると、AIワークロードはCPU処理とGPU処理を交互に行うため、1つのコンテナにまとめるとGPUが大半の時間遊休状態になります。Gartnerも同様の結論に達しており、プロジェクト横断でのGPU共有と推論の分離を推奨しています。調達の過剰確保とコンテナ設計の非効率が重なり、5%という数字が生まれているのです。

クラウド市場は二層に分裂しています。H100のオンデマンド価格は2025年9月の約7.57ドルから約3.93ドルへ下落した一方、最新のH200は需要が供給の約3倍に達し、AWSは2026年1月に予約価格を約15%値上げしました。クラウドコンピューティングが毎年安くなるという20年来の前提は、最先端チップでは崩れつつあります。

では企業は何をすべきでしょうか。まず問うべきは「本当にH200が必要か」という点です。H200は70B以上のパラメータと128K以上のコンテキストを持つ大規模モデル向けであり、多くの本番ワークロードではH100で40%、A100で60%のコスト削減が可能です。タイムゾーンを活用したGPU共有、MIGによるチップ分割、vLLMやDynamoによる推論分離など、既存リソースの活用策は存在します。調達と運用を別々の予算項目として扱うのではなく、一つのループとして一体的に最適化することが、この悪循環を断ち切る鍵となります。

出典：VentureBeat

Stanford大、ゼロ演算を省く疎行列チップでAI効率70倍に

2026年04月28日 NVIDIA Meta Apple Cerebras Llama エンジニア半導体 GPU ハードウェアエネルギースタンフォード Intel

スパース計算の原理

モデルの大半がゼロ値パラメータ

ゼロ演算の省略で高速化

圧縮格納によるメモリ削減

GPUは非構造化スパースに非対応

Onyxチップの成果

CPUの70分の1のエネルギー消費

平均8倍の計算速度

構造化・非構造化の両方に対応

密・疎の両ワークロードを1チップで処理

詳細を見る

スタンフォード大学の研究チームが、AIモデル内のゼロ値パラメータを活用する専用チップ「Onyx」を開発しました。大規模言語モデルでは重みや活性値の大半がゼロまたはゼロに近い値であり、この「スパース性」を利用すれば不要な演算を省略できます。Onyxは従来のCPUと比較して平均で消費エネルギーを70分の1に抑え、計算速度を8倍に向上させています。

AIモデルの巨大化が進む中、Metaの最新Llamaは2兆パラメータに達しています。モデルの大型化は性能向上につながる一方、エネルギー消費と処理時間の増大が深刻な課題です。低精度演算や小型モデルの利用といった対策が取られてきましたが、スパース計算はモデルの性能を維持しつつ効率を高める第三の選択肢として注目されています。Cerebrasの研究では、LLMのパラメータの最大70〜80%をゼロに設定しても精度を損なわないことが示されました。

しかし、既存のGPUやCPUはスパース計算に最適化されていません。NVIDIAのGPUは「4要素中2つがゼロ」という構造化スパースにしか対応しておらず、任意の位置にゼロが存在する非構造化スパースでは性能が大きく低下します。CPUはより柔軟ですが、圧縮データの間接参照によるメモリアクセスがボトルネックとなります。Appleは独自チップのプリフェッチャー改良で対応を試みていますが、汎用アーキテクチャの根本的な制約は残ります。

Onyxは粗粒度再構成可能アレイ（CGRA）をベースに設計されており、FPGAの柔軟性とCPUの効率性を両立しています。メモリタイルが圧縮行列を格納し、演算タイルが不要なゼロ演算をすべて省略します。専用コンパイラがソフトウェア命令をCGRA構成に自動変換するため、開発者は疎・密の両方のワークロードを同一チップ上で実行できます。エネルギー遅延積ではIntel Xeon CPUの最大565倍の効率を達成しました。

研究チームは次世代チップの開発を進めており、行列演算だけでなく正規化やソフトマックスなど全演算のスパース対応を目指しています。密・疎アーキテクチャのチップ上での統合効率化や、複数チップでの分散処理にも取り組んでいます。スパースハードウェアの普及は、AI計算の実行コスト・消費電力・環境負荷を大幅に低減する可能性があります。

出典：spectrum.ieee.org

Poolsideがローカル実行可能な無料コーディングAIモデルを公開

2026年04月28日 Apple GitHub DeepSeek Claude Qwen エンジニアファインチューニングオープンウェイト GPU クラウドセキュリティコーディング米国中国スタートアップエージェントベンチマーク Gemma

Lagunaモデルの概要

Apache 2.0で公開のXS.2

33Bパラメータ、活性3Bの軽量MoE

ローカルGPU1枚で動作可能

企業向け225BのM.1も同時発表

性能と開発環境

SWE-bench Proで44.5%達成

独自合成データとRLで訓練

ターミナル型エージェントpool提供

モバイル対応IDE shimmer公開

詳細を見る

米AIスタートアップのPoolsideは2026年4月28日、コーディング特化の大規模言語モデル「Laguna」シリーズ2モデルを発表しました。小型モデルのLaguna XS.2はApache 2.0ライセンスで無料公開され、消費者向けGPU1枚でローカル実行できるのが大きな特徴です。同社は2023年にサンフランシスコで設立された約60人の組織で、政府・公共セクター向けにセキュアなAI開発を進めてきました。

Laguna XS.2は総パラメータ数33B、活性パラメータ数3BのMixture of Experts構成を採用しています。Apple SiliconのMacでは統合メモリ36GB以上、PCではRTX 5090など24〜32GB以上のVRAMがあれば4ビット量子化で動作します。一方、上位モデルのLaguna M.1は225BパラメータのMoEで、企業や政府向けの高セキュリティ環境での複雑なソフトウェア工学タスクに最適化されています。

ベンチマーク性能は注目に値します。XS.2はSWE-bench Proで44.5%を達成し、Claude Haiku 4.5の39.5%やGemma 4 31Bの35.7%を上回りました。M.1もSWE-bench Proで46.9%、SWE-bench Verifiedで72.5%を記録しています。訓練には30兆トークンが使われ、そのうち約13%は合成データです。独自のMuonオプティマイザにより標準手法より約15%速く学習が進むとしています。

開発者向けツールも同時に公開されました。poolはターミナルベースのコーディングエージェントで、同社が内部のRL訓練に使うのと同じAgent Client Protocolサーバとして機能します。shimmerはクラウドネイティブの開発環境で、スマートフォンからでもフル機能の開発が可能です。GitHubとの連携や既存リポジトリのインポートにも対応しています。

Poolsideがオープンウェイト公開に踏み切った背景には、「西側諸国には強力なオープンウェイトモデルが必要」という信念があります。中国企業のDeepSeekやXiaomiが低コストのオープンモデルで存在感を示すなか、米国発のオープンな対抗馬として位置づけを狙っています。なお、同社のモデルは他社のようにQwenベースのファインチューニングではなく、独自にゼロから訓練されたものです。コミュニティによる評価とファインチューニングを通じた改善を期待しているとしています。

出典：VentureBeat

NVIDIA、製造業のシミュレーション先行型へ転換推進

2026年04月28日 NVIDIA ワークフローシミュレーションデジタルツインデザイナー GPU ロボットイギリスコンテキスト

シミュレーション先行の成果

ABBが精度99%のロボット訓練実現

製品導入サイクル最大50%短縮

JLRが空力解析を4時間から1分に圧縮

工場運用と今後の展開

Tulipが映像とセンサー統合基盤を構築

Terexで歩留まり3%向上を見込む

OpenUSDが3Dパイプラインの共通規格に

SimReady仕様でアセット再利用を標準化

詳細を見る

NVIDIAは、製造業における従来の「設計・製造・テスト」サイクルを根本から変えるシミュレーション先行型のワークフローを推進しています。同社のNVIDIA OmniverseとOpenUSDを基盤に、高精度なシミュレーション環境で合成データを生成し、AIモデルを本番投入前に訓練・検証できる体制が整いつつあります。物理的に正確な3Dアセットの仕様である「SimReady」も、パイプライン間のデータ損失を解消する重要な役割を担います。

ABB Roboticsは、Omniverseライブラリを自社シミュレーション基盤「RobotStudio HyperReality」に統合し、シミュレーション精度99%を達成しました。ロボットステーションをUSDファイルとして表現し、実機と同じファームウェアで動作させることで、生産ライン構築前にAIモデルの検証が可能になっています。その結果、製品導入サイクルは最大50%、コミッショニング時間は最大80%、設備ライフサイクルコストは30〜40%の削減が見込まれています。

英国の自動車メーカーJLRは、同様のシミュレーション先行アプローチを車両空力設計に適用しました。2万件以上の風洞相関CFDシミュレーションでニューラルサロゲートモデルを訓練し、空力熱負荷の95%をNVIDIA GPU上で処理しています。Omniverseで構築した「Neural Concept Design Lab」により、デザイナーが車両形状を変更すると空力特性がリアルタイムで可視化され、従来4時間かかった解析がわずか1分に短縮されました。

工場が稼働した後の課題に対応するのが、Tulip Interfacesの「Factory Playback」です。NVIDIA Metropolis VSSブループリントを基盤に、カメラ映像・センサーデータ・運用コンテキストを統合したタイムラインを構築しています。さらにNVIDIA Cosmos Reasonビジョン言語モデルでオペレーターの行動をリアルタイム解釈する仕組みも備えています。世界40以上の工場を持つ産業機器メーカーTerexへの導入では、歩留まり3%向上と手直し作業10%削減が期待されています。

NVIDIAはSimReadyアセット、Omniverseライブラリ、物理AIスタックを組み合わせた包括的な開発基盤を提供しており、ロボット訓練からデジタルツイン、工場の映像解析まで幅広い用途に対応しています。無料の自習コースやIsaac Sim、Cosmos Cookbookなども公開されており、製造業のシミュレーション先行型への移行を後押しする体制が整っています。

出典：NVIDIA公式

MITがAI消費電力を秒単位で予測するツールを開発

2026年04月27日エンジニア GPU データセンターエネルギー米国 MIT IEEE

EnergAIzerの仕組み

数秒で電力消費を推定

AIワークロードの反復パターンを活用

GPU構成の変更にも対応

未展開の新設計にも適用可能

データセンターへの影響

推定誤差は約8%の高精度

従来手法は数時間〜数日が必要

リソース配分の最適化に貢献

モデル展開前の消費電力評価が可能

詳細を見る

MITとMIT-IBM Watson AI Labの研究チームが、データセンターで特定のAIワークロードを実行した際の消費電力を数秒で予測できるツール「EnergAIzer」を開発しました。ローレンス・バークレー国立研究所の推計では、2028年までにデータセンターが米国の総電力消費の最大12%を占めるとされており、AI時代のエネルギー効率改善は喫緊の課題です。

EnergAIzerは、AIワークロードに含まれる反復的なパターンに着目しています。ソフトウェア開発者がGPU上で効率的に動作するよう最適化を施す際、並列処理コアへの作業分散やデータ移動に規則的な構造が生まれます。この構造を捉えることで、従来のように個々のステップを逐一エミュレーションする必要がなくなりました。

ただし高速推定だけでは全コストを網羅できない課題もありました。GPUがプログラムを実行する際のセットアップコストや、帯域幅の競合による速度低下に伴う追加電力などです。研究チームは実際のGPUから測定データを収集し、補正項を推定モデルに組み込むことでこの問題を解決しました。

実際のAIワークロードとGPUを使ったテストでは、EnergAIzerの推定誤差は約8%にとどまり、数時間かかる従来手法と同等の精度を実現しています。ユーザーはAIモデルの種類や入力の数・長さといったワークロード情報を入力するだけで、GPU構成や動作速度を変えた場合の電力消費の変化も確認できます。

データセンター運営者にとっては限られたリソースの効率的な配分に、アルゴリズム開発者にとってはモデル展開前のエネルギー評価に活用が期待されます。研究チームは今後、最新GPU構成への対応や、複数GPUが協調するワークロードへのスケーリングを目指すとしています。本研究はIEEE International Symposium on Performance Analysis of Systems and Softwareで発表されました。

出典：MIT News

OpenAI個人情報保護モデルで3つのアプリを構築

2026年04月27日 OpenAI OCR エンジニア推論 GPU プライバシー画像コンテキストベンチマーク Hugging Face Pixel

モデルの特徴と性能

15億パラメータ、活性50Mの軽量設計

Apache 2.0の寛容ライセンス

128Kトークンの長文一括処理

PII検出ベンチマークで最高精度達成

3種のデモアプリ構成

PDF等の個人情報を自動強調表示

画像内の個人情報を黒塗り処理

貼り付けテキストの秘匿共有機能

gradio.Serverで統一的に構築

詳細を見る

OpenAIが公開した個人情報保護モデル「Privacy Filter」を活用し、Hugging Faceの開発者3名が実用的なWebアプリ3本を構築しました。Privacy Filterは15億パラメータのモデルで、活性パラメータは5000万、Apache 2.0ライセンスで提供されています。128Kトークンのコンテキストに対応し、PII検出ベンチマークで最高精度を達成しています。

1つ目の「Document Privacy Explorer」は、PDFやDOCXファイルをアップロードすると、個人名・メールアドレス・電話番号などの個人情報を自動検出してカテゴリ別にハイライト表示するアプリです。128Kコンテキストを活かし、文書全体を一括処理するためチャンク分割が不要です。

2つ目の「Image Anonymizer」は、スクリーンショットや画像内の個人情報を黒塗りで自動秘匿するツールです。Tesseract OCRで文字領域を抽出した後にPrivacy Filterで検出し、ピクセル座標の矩形として返します。ブラウザ上でバーの表示切替やドラッグ移動、手動追加も可能です。

3つ目の「SmartRedact Paste」は、テキストを貼り付けると秘匿済みの公開URLと、原文を確認できるトークン付き非公開URLの2つを生成するプライバシー対応ペーストビンです。多言語テキストにも対応しています。

3つのアプリはすべてgradio.Server上に構築されています。モデル推論は@server.apiデコレータでGradioのキューに載せ、ZeroGPU割り当てやプログレス通知を活用します。静的ページの配信にはFastAPIのルートを使い、モデル呼び出しとUI提供を明確に分離する設計パターンが共通しています。

出典：Hugging Face

MetaがAWS製CPU数百万基採用、AI向け自社チップ競争加速

2026年04月24日 Google Anthropic NVIDIA Meta Amazon AWS 推論半導体 GPU クラウドクラウドサービスエージェント Intel

契約の背景と狙い

Meta、AWS Graviton CPUを大量採用

AIエージェント処理にCPU需要が急増

ARM基盤でNvidia Vera CPUと直接競合

Google Cloud契約後もAWSに回帰

クラウド3社の陣取り合戦

AnthropicがTrainiumを長期確保済み

AWS、Google Cloud Next直後に発表

Jassy CEOがNvidia・Intelに対抗姿勢

自社チップの価格性能比で勝負を宣言

詳細を見る

Metaが数百万基のAWS Graviton CPUを採用する契約をAmazonと締結しました。GravitonはARM基盤の汎用CPUで、GPUではありません。AIモデルの学習にはGPUが不可欠ですが、学習済みモデル上で動くAIエージェントはリアルタイム推論やコード生成、マルチステップ制御などCPU集約型の処理を大量に発生させるため、専用設計のCPU需要が高まっています。

Metaは2025年8月にGoogle Cloudと6年間100億ドルの契約を結んでおり、それまで主要顧客だったAWSから一部離れていました。今回の契約はMetaの支出をAWSに引き戻す意味を持ちます。AWSはGoogle Cloud Nextカンファレンス終了直後にこの発表をぶつけており、クラウド各社間の対抗意識が鮮明です。

AWSのAI向けチップにはGPU相当のTrainiumもありますが、こちらはAnthropicが10年間1000億ドルの大型契約で優先的に確保済みです。そのためMeta向けにはCPU側のGravitonが前面に出た形です。Gravitonの競合はNvidiaのVera CPUで、いずれもARM基盤かつAIエージェント処理に最適化されていますが、NvidiaがチップをOEM販売するのに対し、AWSはクラウドサービス経由でのみ提供する点が異なります。

Amazon CEOのAndy Jassy氏は4月の株主書簡でNvidiaやIntelに言及し、企業が求めるのはAI処理の価格性能比であると強調しました。自社チップの競争力を示す実績としてMetaの採用は大きく、社内チップ開発チームへの期待と圧力がいっそう高まっています。AI半導体の競争はGPUだけでなくCPU領域にも本格的に広がりつつあります。

出典：TechCrunch

OpenAI、最新モデルGPT-5.5を公開しコーディング性能で首位奪還

性能とベンチマーク

Terminal-Bench 2.0で82.7%達成

Claude Opus 4.7を大幅に上回る

コード作業のトークン効率が向上

GPT-5.4と同等のレイテンシを維持

提供と価格体系

Plus・Pro・Enterprise向けに即日提供

API価格は入力5ドル・出力30ドル/100万トークン

サイバー防御向け専用ライセンス新設

NVIDIAとの連携

GB200 NVL72上で推論実行

NVIDIA社内1万人超がCodexで活用

詳細を見る

OpenAIは2026年4月23日、最新のフラッグシップモデルGPT-5.5を発表しました。共同創業者のGreg Brockman氏は「より直感的でエージェント的なコンピューティングに向けた大きな前進」と位置づけ、コーディング、オンラインリサーチ、データ分析、ドキュメント作成など幅広いタスクを自律的にこなせる点を強調しています。前モデルGPT-5.4のわずか1カ月後というハイペースのリリースとなりました。

ベンチマーク結果では、ターミナル操作の総合力を測るTerminal-Bench 2.0で82.7%を記録し、AnthropicのClaude Opus 4.7(69.4%)やGoogle Gemini 3.1 Proを大きく上回りました。非公開モデルのClaude Mythos Preview(82.0%)もわずかに超えています。一方、ツールなしの推論ベンチマーク「Humanity's Last Exam」ではOpus 4.7(46.9%)に及ばない41.4%にとどまり、純粋な学術知識ではまだ差がある分野もあります。実務面では、GDPval(知識労働)で84.9%、サイバーセキュリティのCyberGymで81.8%と、エージェント型タスク全般で最高水準を達成しました。

推論基盤にはNVIDIA GB200 NVL72が採用されています。NVIDIAではすでに社内1万人以上がGPT-5.5搭載のCodexを活用し、デバッグ作業が数日から数時間に短縮されたと報告されています。GPT-5.5自身がGPU負荷分散のヒューリスティックを設計し、トークン生成速度を20%以上改善するという「モデルが自らの推論基盤を最適化する」成果も生まれました。OpenAIはNVIDIAのシステムを10ギガワット以上導入する計画で、両社の10年にわたる協業がさらに深まっています。

安全性の面では、OpenAI史上最も強力なセーフガードを導入したとしています。準備態勢フレームワークのもと、生物・化学およびサイバーセキュリティの能力を「High」リスクに分類。一般ユーザー向けにはサイバーリスク分類器を厳格化する一方、重要インフラを守る正規のセキュリティ専門家には制限を緩和する「サイバー許容型」ライセンスを新設しました。さらに生物安全性に関しては、ユニバーサル脱獄を発見した研究者に2万5,000ドルを支払うバグバウンティプログラムも開始しています。

料金面では、API価格が前世代から実質倍増し、入力5ドル・出力30ドル(100万トークンあたり)となりました。Proモデルはさらにその6倍です。ただしOpenAIは、GPT-5.5が同じタスクをより少ないトークンで完了するため、実質コストは抑えられると説明しています。Plus・Pro・Business・Enterpriseの各プランで即日利用可能となり、API提供も「近日中」としています。Brockman氏はChatGPT・Codex・AIブラウザを統合した「スーパーアプリ」構想にも言及し、AnthropicやGoogleとのフロンティアモデル競争がさらに激化する見通しです。

天文学のAI分析がGPU需要を加速、NASAローマン望遠鏡も前倒し

2026年04月23日 NVIDIA ネットワーク創業者リスク GPU インフラ画像トランスフォーマー Pixel DLSS トランプ

爆発する天文データ量

ローマン望遠鏡、8カ月前倒しの2026年9月打上げ

生涯で2万TBのデータ取得見込み

JWST、毎日57GBの画像を地上へ送信

ルービン天文台、毎晩20TBのデータ生成予定

ハッブルの日量1〜2GBと桁違いの規模

人手による分析は不可能な水準に到達

GPU駆動のAI解析基盤

深層学習モデルMorpheusで銀河を自動分類

ピクセル単位の意味的分割で構造を識別

初期宇宙に予想外の円盤銀河を発見

CNNからTransformerへのアーキテクチャ移行を推進

DLSS類似技術で地上望遠鏡の大気歪みを補正

GalaxyFriendsで約9万銀河を類似性で整理

NSF助成で構築したGPUクラスタが基盤に

GPU確保の課題

世界的なGPU需要増で研究用確保が困難に

トランプ政権がNSF予算50%削減を提案

大学の限られた資源では最新設備の維持が難航

研究者には起業家的姿勢が必要と指摘

詳細を見る

NASAはナンシー・グレース・ローマン宇宙望遠鏡を当初予定より8カ月早い2026年9月に打ち上げると発表しました。同望遠鏡は運用期間中に2万テラバイトものデータを天文学者に届ける見通しです。すでにジェイムズ・ウェッブ宇宙望遠鏡は毎日57ギガバイトの画像を送信しており、チリのヴェラ・C・ルービン天文台も年内に観測を開始して毎晩20テラバイトを生成する予定です。かつてのハッブル望遠鏡の日量1〜2ギガバイトとは桁違いの規模であり、天文学は本格的なビッグデータ時代に突入しています。

カリフォルニア大学サンタクルーズ校の天体物理学者ブラント・ロバートソン教授は、NVIDIAと15年にわたり協力してGPUを天文学に応用してきました。同教授の研究室が開発した深層学習モデル「Morpheus」は、自動運転車と同じ意味的分割手法を用いてピクセル単位で銀河を分類します。JWSTデータへの適用により、初期宇宙に存在するはずがないとされていた回転円盤銀河を多数発見し、宇宙の進化理論に新たな知見をもたらしました。この発見は当初懐疑的に受け止められましたが、その後独立した複数の研究で確認されています。

ロバートソン教授はMorpheusのアーキテクチャを畳み込みニューラルネットワークからTransformerに移行する作業を進めており、分析可能な領域が数倍に拡大する見込みです。また、NVIDIAのDLSSに概念的に近い手法を用い、宇宙望遠鏡のデータで訓練したモデルを地上望遠鏡の画像に適用することで、大気による歪みを除去して宇宙望遠鏡に近い鮮明さを実現しています。さらに大学院生が開発した「GalaxyFriends」というツールにより、約9万個の銀河を類似性に基づいて整理し、パターンの発見や異常検出を効率化しています。

一方で研究を支えるGPU インフラの確保は深刻な課題となっています。ロバートソン教授はNSFの助成金でサンタクルーズ校にGPUクラスタを構築しましたが、設備は陳腐化しつつあり、AI手法を使いたい研究者は増える一方です。さらにトランプ政権がNSF予算の50%削減を提案しており、研究基盤の維持が一層困難になる懸念があります。ロバートソン教授は「大学はリソースの制約からリスク回避的になる。研究者は起業家的に行動し、この分野の進む方向を示す必要がある」と述べています。

出典：TechCrunch | NVIDIA公式

OpenAIが個人情報検出モデルをオープンソース公開

2026年04月22日 OpenAI GitHub ワークフロー GPT-5 推論ファインチューニング推論モデルリスク GPU クラウドプライバシー認証コンプライアンス医療コンテキストベンチマーク Hugging Face

モデルの技術的特徴

総パラメータ15億、推論時は5000万

双方向トークン分類で文脈を理解

128Kトークンの長文書を一括処理

8種類のPIIカテゴリを検出

企業導入のメリット

端末上で完結しデータ外部送信不要

Apache 2.0で商用利用・改変が自由

ドメイン特化のファインチューニング対応

ブラウザ上でもWebGPUで実行可能

詳細を見る

OpenAIは2026年4月22日、テキスト中の個人識別情報(PII)を検出・除去する専用モデル「Privacy Filter」をオープンソースで公開しました。Apache 2.0ライセンスでHugging FaceとGitHubから利用でき、商用利用やモデルの改変も自由です。同社が自社のプライバシー保護ワークフローで使用しているモデルの公開版で、PII-Masking-300kベンチマークでF1スコア96%を達成しています。

Privacy Filterは通常の大規模言語モデルとは異なり、双方向トークン分類モデルとして設計されています。入力テキスト全体を一度に読み取り、前後の文脈から個人情報かどうかを判断します。たとえば「Alice」という単語が私的な個人名なのか、文学作品のキャラクター名なのかを周囲の文脈から区別できます。総パラメータ数は15億ですが、Mixture-of-Experts構造により推論時のアクティブパラメータは5000万に抑えられています。

検出対象は個人名・住所・メール・電話番号・URL・日付・口座番号・パスワードやAPIキーなどの秘密情報の8カテゴリです。128,000トークンのコンテキストウィンドウを持ち、法的文書や長大なメールスレッドも分割せずに処理できます。Viterbiデコーダにより「John Smith」のような複数語の名前も一貫した範囲として正しくマスキングされます。

企業にとっての最大の利点は、ローカル環境で完結する点です。ノートPCやブラウザ上で動作するため、機密データをクラウドに送信せずにPIIを除去できます。GDPRやHIPAAへの準拠が求められる環境でも、まずPrivacy Filterでデータを浄化してからGPT-5などの推論モデルに渡すワークフローが構築できます。

ただしOpenAIは、本モデルは「匿名化ツールやコンプライアンス認証の代替ではない」と注意喚起しています。医療・法務・金融などの高リスク領域では人間によるレビューとドメイン固有の評価が依然として重要です。それでも、少量のデータでファインチューニングすればF1スコアが54%から96%に向上した実験結果も示されており、各組織の用途に合わせた柔軟なカスタマイズが可能です。

出典：OpenAI公式 | VentureBeat

OpenAI、Responses APIにWebSocket対応を追加

2026年04月22日 OpenAI Vercel Cerebras Codex GPT-5 エンジニア推論 GPU ハードウェアインフラコーディング開発ツールエージェント Cursor

高速化の仕組み

永続接続で会話状態を再利用

トークン再レンダリングを省略

安全性チェックを差分のみに限定

導入効果

エージェント処理が最大40%高速化

GPT-5.3で1,000TPS超を達成

Codex・Cursor・Clineが即座に採用

推論高速化の恩恵をユーザーへ直結

詳細を見る

OpenAIは2026年4月22日、Responses APIにWebSocketモードを正式導入したと発表しました。従来のHTTPベースでは、エージェントがツール呼び出しのたびに会話履歴全体を再送信する必要があり、推論速度が向上してもAPIのオーバーヘッドがボトルネックになっていました。WebSocketによる永続接続でこの構造的課題を解消し、エージェントのエンドツーエンド処理を最大40%高速化しています。

技術的には、WebSocket接続のライフタイム内で前回のレスポンス状態をインメモリにキャッシュする設計です。後続リクエストがprevious_response_idを指定すると、サーバーはキャッシュから状態を取得し、トークンの再レンダリングやモデル解決ロジックの再実行を省略します。安全性分類器やバリデーターも差分入力のみを処理するよう最適化されました。

開発の背景には、コーディングエージェントCodex向けの高速モデルGPT-5.3-Codex-Sparkの存在があります。同モデルは専用のCerebras ハードウェア上で1,000TPS超の推論速度を実現しますが、従来のAPI構造ではCPU側の処理がGPUの速度に追いつかない状態でした。WebSocketモードの導入により、本番環境で1,000TPSの目標を達成し、バースト時には4,000TPSも記録しています。

既にVercel AI SDK、Cline、Cursorなど主要な開発ツールがWebSocketモードを統合済みです。Vercelは最大40%、Clineは39%、Cursorは最大30%のレイテンシ改善を報告しています。既存のResponses APIと同じリクエスト・レスポンス形式を維持しているため、開発者はインテグレーションを大幅に書き換えることなく移行できる点も普及を後押ししています。

OpenAIはWebSocketモードを、2025年3月のResponses APIローンチ以来最も重要な機能追加と位置づけています。モデルの推論速度が急速に向上する中、APIインフラ側の最適化がユーザー体験に直結する時代に入ったことを示す事例といえます。

出典：OpenAI公式

NVIDIAとGoogle Cloud、AI工場基盤で協業拡大

次世代インフラ整備

Vera Rubin搭載A5Xを発表

推論コスト前世代比10分の1に

最大96万GPU規模に拡張可能

OpenAIが大規模推論で採用

エージェントAIと産業AI

Nemotron 3をAgent基盤で提供

強化学習のマネージドAPI公開

Omniverseでデジタルツイン構築

ロボット訓練からデプロイまで一貫

詳細を見る

NVIDIAとGoogle Cloudは、Google Cloud Next 2026において、AIファクトリー向けインフラの大幅な拡充を発表しました。10年以上にわたる協業の成果として、エージェントAIとフィジカルAIの本番環境への展開を加速する新たなマイルストーンとなります。両社はチップからソフトウェアまでフルスタックで共同設計したプラットフォームを提供し、開発者やエンタープライズのAI活用を支援します。

インフラ面では、次世代Vera Rubin NVL72を搭載したA5Xベアメタルインスタンスが発表されました。前世代と比較して推論コストを10分の1、メガワットあたりのトークンスループットを10倍に改善します。単一サイトで最大8万GPU、マルチサイトでは最大96万GPUへのスケーリングが可能です。

Blackwellプラットフォームでは、A4からA4X Maxまで幅広いVMラインナップを揃えました。OpenAIがChatGPTの推論ワークロードにGB300およびGB200 NVL72システムを採用するなど、フロンティアAIラボによる実運用が進んでいます。また、機密コンピューティング対応のConfidential G4 VMも発表され、規制産業向けにプロンプトやモデルの暗号化保護を実現しました。

エージェントAI領域では、Nemotron 3 SuperがGemini Enterprise Agent Platformで利用可能になりました。NeMo RLベースのマネージド強化学習APIも導入され、クラスタ管理を自動化しながら大規模なRL訓練を実行できます。CrowdStrikeがサイバーセキュリティ向けにNeMoライブラリを活用するなど、実用事例も広がっています。

フィジカルAI分野では、OmniverseライブラリとIsaac SimがGoogle Cloud Marketplaceで提供され、デジタルツインの構築やロボットシミュレーションが可能になりました。Cosmos Reason 2などのNIM マイクロサービスをVertex AIにデプロイすることで、ロボットやビジョンAIエージェントが物理世界で推論・行動できる基盤が整います。SnapやSchrödingerなど大企業からスタートアップまで、9万人超の開発者コミュニティがこのプラットフォームを活用しています。

出典：NVIDIA公式

Thinking Machines LabがGoogle Cloudと数十億ドル規模の契約締結

2026年04月22日 Google OpenAI Anthropic NVIDIA Amazon 推論強化学習半導体 GPU TPU インフラクラウドデプロイスタートアップ評価額

契約の概要

数十億ドル規模のクラウド契約

Nvidia最新GPU「GB300」搭載システムを利用

モデル訓練・デプロイ向けインフラ提供

Google Cloud初の大型顧客の一社

Thinking Machines Labの現在地

Mira Murati氏が2025年2月に設立

シードラウンドで20億ドル調達、評価額120億ドル

強化学習ベースのカスタムAIモデル構築ツール「Tinker」を提供

詳細を見る

元OpenAI CTOのMira Murati氏が設立したAIスタートアップThinking Machines Labが、Google Cloudと数十億ドル規模（一桁台）のインフラ利用契約を締結しました。契約にはNvidiaの最新チップ「GB300」を搭載したAIシステムへのアクセスが含まれ、モデルの訓練とデプロイを支援します。

Googleは近年、AIスタートアップとのクラウド契約を積極的に進めています。今月にはAnthropicがGoogleおよびBroadcomとTPU数ギガワット分の契約を締結。一方でAnthropicはAmazonとも最大5ギガワットの契約を結んでおり、クラウド各社の競争は激化しています。Thinking Machines Labにとっては初のクラウドプロバイダー契約であり、排他契約ではないため将来的に複数プロバイダーの利用も想定されます。

Thinking Machines Labは2025年2月の設立後、20億ドルのシードラウンド（評価額120億ドル）を完了し、同年10月に初製品「Tinker」を発表しました。TinkerはカスタムフロンティアAIモデルの構築を自動化するツールで、強化学習アーキテクチャを基盤としています。

今回の契約はTinkerの強化学習ワークロードを支える計算基盤の確保が目的です。GB300搭載システムは前世代比で訓練・推論速度が2倍に向上するとされ、Thinking Machines Labは同システムの最初期の顧客となります。急成長するフロンティアAIラボを早期に囲い込むGoogleの戦略が鮮明になった契約といえます。

出典：TechCrunch

Google、第8世代TPUを訓練用と推論用の2チップ体制に刷新

2026年04月22日 Google OpenAI Anthropic NVIDIA エコシステムネットワーク推論半導体 GPU TPU データセンターエネルギーエージェントベンチマーク

訓練特化のTPU 8t

前世代比約3倍の121EFlops

100万チップ超の単一クラスタ構成

97%のgoodputで訓練効率最大化

推論特化のTPU 8i

Boardflyで低遅延ネットワーク実現

オンチップSRAM3倍でエージェント処理高速化

性能対コスト80%改善

垂直統合の競争優位

自社設計でNvidia税を回避

Axion ARM CPU搭載で電力効率2倍

詳細を見る

Googleは4月22日、Cloud Nextカンファレンスで第8世代TPU（Tensor Processing Unit）を発表しました。従来の単一チップ路線を転換し、訓練専用のTPU 8tと推論専用のTPU 8iの2チップ体制へ移行します。エージェントAI時代の異なるワークロード要件に対応するため、2024年にロードマップの分割を決断したと、同社SVPのAmin Vahdat氏が明かしました。

TPU 8tは大規模モデル訓練に特化し、1ポッドあたり9,600チップ、2ペタバイトの共有HBMを搭載します。前世代Ironwoodの約3倍となる121 FP4 EFlopsの演算性能を実現し、新開発のVirgoネットワークにより100万チップ超を単一論理クラスタとして接続可能です。フロンティアモデルの訓練期間を数カ月から数週間に短縮することを目指します。

TPU 8iはエージェントAIの推論ワークロードに最適化されています。288GBのHBMに加え、前世代の3倍となる384MBのオンチップSRAMを搭載し、大規模なKVキャッシュをチップ上に保持できます。新設計のBoardflyトポロジーでネットワーク径を50%以上削減し、リアルタイム推論のレイテンシを最大5倍改善しました。1ポッドあたり1,152チップで、前世代比80%の性能対コスト向上を実現します。

両チップとも自社設計のAxion ARMベースCPUをホストに採用し、前世代比2倍の電力効率を達成しました。Googleはシリコンからデータセンターまでの垂直統合設計により、OpenAIやAnthropicなどNvidia GPUに依存する競合が支払う「Nvidia税」を回避できる点を強調しています。JAX、PyTorch、SGLang、vLLMなど主要フレームワークをサポートし、ベアメタルアクセスも提供します。

両TPUの一般提供は2026年後半を予定しています。現時点ではGoogle自社ベンチマークのみで、独立した第三者検証はこれからです。また、CUDA/PyTorchエコシステムからの移行コストは依然として考慮すべき要素です。Citadel Securitiesなど先進企業がTPU採用を表明しており、フロンティアAI開発の競争軸が「GPUの調達力」から「スタック全体の設計力」へ移行しつつあることを示す発表となりました。

出典：TechCrunch | VentureBeat | Ars Technica | Google公式 | Google公式

Google Gemini、エアギャップ環境で単一サーバー稼働が可能に

2026年04月22日 Google OpenAI NVIDIA マイクロソフト Gemini AWS 推論 GPU ハードウェアインフラクラウドセキュリティ医療提携オープンソースモデル

オンプレミス提供の仕組み

CirrascaleがGDC経由で提供

GPU8基搭載の専用アプライアンス

モデルは揮発メモリ上のみに存在

改ざん時は自動で機能停止

規制業界への影響

金融・医療・政府機関が主要顧客

データ主権問題への対応が可能に

専用環境で安定した応答速度を実現

2026年後半に本格普及の見通し

詳細を見る

Cirrascale Cloud Servicesは2026年4月22日、Google Cloudとの提携拡大により、Google Geminiをオンプレミスのエアギャップ環境で稼働させるサービスを発表しました。Google Distributed Cloudを通じて提供されるこのサービスは、ネオクラウド事業者として初めてGoogleの最先端AIモデルを完全プライベートな切断型アプライアンスとして利用可能にするものです。Google Cloud Next 2026に合わせた発表で、プレビュー版の提供が即日開始され、一般提供は6〜7月を予定しています。

アプライアンスはDell製のGoogle認定ハードウェアで、Nvidia GPU8基を搭載し、コンフィデンシャルコンピューティングで保護されています。最大の特徴は、Geminiのモデルが揮発メモリ上にのみ存在する点です。電源を切るとモデルは消去され、ユーザーの入出力データもセッション終了時に自動的にクリアされます。物理的な改ざんが検知された場合は機器が自動停止し、再利用にはCirrascaleやDell、Googleへの返送が必要になります。

このサービスが解決するのは、規制産業が長年直面してきた「最先端AIモデルへのアクセス」と「データセキュリティ」の二律背反です。金融機関や医療機関、政府機関はこれまで、パブリッククラウドAPIを通じて機密データを外部に送信するか、性能の劣るオープンソースモデルで妥協するかの選択を迫られていました。Cirrascale CEOのDave Driggers氏は「フル版のGeminiであり、何も削られていない」と強調しています。

競合との差別化も明確です。MicrosoftのAzure OpenAIやAWS Outpostsがクラウド拡張としてオンプレミスを提供するのに対し、CirrascaleのサービスではGoogleのインフラから完全に独立した環境でモデルが動作します。最小構成はサーバー1台から導入でき、Google自身のプライベートインスタンスより小規模な展開が可能です。データ主権法への対応として、Google Cloud Platformの拠点がない国でもGeminiを利用できる点も大きな利点です。

料金体系はシートライセンス、トークン課金、定額制の3モデルを用意し、顧客のニーズに柔軟に対応します。ハードウェアの購入とマネージドサービスの組み合わせも可能で、大学や政府系研究機関の予算構造にも適合します。業界アナリストは2027年までにAIモデルの学習・推論の40%がパブリッククラウド外で実行されると予測しており、プライベートAIへの需要は急速に高まっています。Driggers氏は2026年後半に大手銀行や研究機関が本格導入を開始するとの見通しを示しました。

出典：VentureBeat

Gemma 4 VLA、8GBのJetsonで音声・視覚応答を実現

2026年04月22日 Google NVIDIA Llama 推論 GPU オンデバイス画像音声 Hugging Face Gemma

エッジ上のVLA構成

8GBのJetson Orin Nanoで動作

音声認識・TTS・視覚を統合

llama.cppでQ4量子化モデルを使用

ツール呼び出しで自律的に判断

デモの仕組みと導入

Parakeet STTで音声をテキスト化

必要時のみウェブカメラを起動

Kokoro TTSで音声応答を生成

単一スクリプトで環境構築可能

詳細を見る

GoogleのGemma 4 VLA（Vision-Language-Action）モデルが、わずか8GBメモリのNVIDIA Jetson Orin Nano Super上で動作するデモが公開されました。音声入力から視覚認識、音声応答までを一台のエッジデバイスで完結させるチュートリアルで、NVIDIAのAsier Arranz氏がHugging Faceブログで詳細な手順を紹介しています。

デモの構成は、Parakeet STTによる音声認識、Gemma 4による推論、Kokoro TTSによる音声合成を組み合わせたパイプラインです。ユーザーがスペースキーを押して質問を話すと、モデルが質問内容を解析します。視覚情報が必要と判断した場合は、自律的にウェブカメラを起動して撮影し、画像を踏まえた回答を生成します。

技術的なポイントは、llama.cppを使ったローカル推論サーバーの構築です。モデルはQ4_K_M量子化版のGGUFフォーマットで提供され、ビジョンプロジェクターと合わせてGPUにオフロードされます。--jinjaフラグによりGemmaのネイティブツール呼び出し機能が有効化され、キーワードマッチングではなくモデル自身が視覚の必要性を判断する仕組みです。

導入手順はシステムパッケージのインストール、Python環境の構築、メモリの最適化、llama.cppのビルド、デバイスの設定、デモの実行という6ステップで構成されています。8GBという限られたメモリを最大限活用するため、スワップの追加やDocker・不要プロセスの停止といったメモリ管理の工夫も紹介されています。

テキストのみで試したい場合は、NVIDIA公式のDockerイメージを使ったワンライナーでの起動も可能です。ただしDocker版はビジョンプロジェクターを読み込まないため、VLAデモのフル機能は利用できません。エッジデバイス上でマルチモーダルAIを手軽に体験できる実践的なチュートリアルとなっています。

出典：Hugging Face

NVIDIA AIで地球を守る5つの取り組み

2026年04月22日 NVIDIA シミュレーション気象推論 GPU エネルギー画像ドローンロボティクス MIT

気候・防災への応用

Earth-2で高精度気象予測

津波警報を従来比100億倍高速化

衛星画像処理を秒単位に短縮

環境保全と資源循環

オランウータン巣の自動検出

AI選別で廃棄物回収率90%達成

リサイクル施設のCO2排出大幅削減

Planet社の地球観測データ即時分析

詳細を見る

NVIDIAはアースデーに合わせ、AI技術で地球環境を保護する5つのプロジェクトを紹介しました。気候シミュレーション基盤「Earth-2」による高精度気象予測、絶滅危惧種オランウータンの保全、AIロボティクスによるリサイクル、津波早期警報、衛星画像のリアルタイム解析という5分野で、加速コンピューティングが環境課題の解決を後押ししています。

気象分野では、Earth-2がオープンなAI気象ソフトウェアスタックとして観測データの前処理から15日間の予測まで全工程を高速化します。Earth-2 Nowcastingは生成AIを活用し、国規模の予測をキロメートル解像度・6時間先までの局地予報に数分で変換します。データ同化モデル「HealDA」はNOAAやMITREと共同開発され、単一GPUで大気の全球スナップショットを数分で生成できます。

野生動物保全では、ボルネオとスマトラの熱帯雨林でGPU加速AIがオランウータンの巣をドローン画像から自動検出する研究が成果を上げています。従来は1時間のドローン飛行で30時間の画像分析が必要でしたが、AIモデルは1,800枚の画像を5分以内に処理します。InceptionV3ベースのモデルは99%超の精度を達成し、3種すべてが絶滅危惧種であるオランウータンの迅速な個体数モニタリングを可能にしています。

リサイクル分野では、NVIDIA InceptionメンバーのAMP社がAIロボティクスで廃棄物回収率90%を実現し、従来施設の約75%を大きく上回っています。これまでに20億ポンド以上の素材を埋立処分から転換し、推定73万9千トンのCO2排出を削減しました。NVIDIA Hopper GPUの採用でAI推論の消費電力も半減しています。

防災では、テキサス大学オースティン校のチームがカスカディア断層の津波予測でACMゴードンベル賞を受賞しました。物理モデルの事前計算とGPU処理により、従来手法の100億倍の速度で津波予測を完了し、沿岸住民の避難時間を確保します。また、Planet社はNVIDIAとの協業で衛星の生データからの画像処理パイプラインをGPUネイティブで構築し、山火事などの災害情報を従来の数時間から秒単位で提供する基盤を整えています。

出典：NVIDIA公式

NVIDIA・Adobe・WPP、AIエージェントで広告自動化へ

2026年04月20日 NVIDIA ワークフロー広告クリエイティブデジタルツイン GPU インフラコンテンツポリシー画像ブランドエージェント Adobe

3社協業の全体像

Adobe Summitで発表

創作から配信まで一気通貫の自動化

ブランド管理と安全性を両立

技術基盤と機能

OpenShellで安全な実行環境を提供

Nemotronモデル基盤を活用

Fireflyでブランド準拠の生成

3Dデジタルツインが量産制作を支援

企業への影響

パーソナライズ施策の大規模展開が可能に

詳細を見る

NVIDIA、Adobe、WPPの3社は、企業のマーケティング業務を自動化するAIエージェント基盤の構築で協業を拡大すると発表しました。Adobe Summitで披露されたこの取り組みは、コンテンツの企画・制作・配信までを一貫して自動化し、パーソナライズされた顧客体験を大規模に提供することを目指しています。

3社はそれぞれ異なる強みを持ち寄ります。Adobeはクリエイティブツールと顧客体験プラットフォーム、WPPはグローバルなメディア・マーケティングの専門知識、NVIDIAはGPUコンピューティングとAIソフトウェア基盤を担います。新たに発表されたCX Enterprise Coworkerは、パーソナライゼーションからアクティベーションまでの顧客体験ワークフローを統合管理するAIエージェントです。

技術面では、NVIDIAのOpenShellランタイムがエージェントの安全な実行環境を提供します。ポリシーベースのサンドボックス内でエージェントが動作するため、企業のデータ境界やブランドルールを逸脱する操作を防止できます。「エージェントが何をできるか」を検証可能な形で管理できる点が、従来のポリシー管理との違いです。

コンテンツ生成の面では、Adobe Firefly FoundryがNVIDIAのAIインフラ上で稼働し、企業の独自アセットに基づいたカスタムモデルのチューニングを可能にします。これにより商用利用可能なブランド準拠コンテンツを大量生成できるようになります。さらに、NVIDIA OmniverseとOpenUSDを基盤とする3Dデジタルツインソリューションも一般提供が開始され、製品のデジタルツインを活用した高品質コンテンツの自動生成が実現します。

この協業により、グローバル小売企業が数百万通りの商品・顧客・チャネルの組み合わせに対して最適なオファーや画像を数分で更新するといった運用が可能になります。マーケティングチームは速度と安全性を両立しながら、常時稼働のパーソナライズ体験を提供できる新たな基盤を手に入れることになります。

出典：NVIDIA公式

MetaのAI投資がQuest値上げを招く皮肉

2026年04月17日 Meta 半導体 GPU ハードウェアインフラデータセンター投資

Quest値上げの背景

Quest全機種が50〜100ドル値上げ

メモリチップ高騰が主因

4月19日から新価格適用

VR以外の家電にも波及

AI投資との因果関係

2026年の設備投資は最大1350億ドル

CoreWeaveに210億ドル追加投資

GPU・データセンターが部品需給を圧迫

業界全体で6300億ドルのAIインフラ投資

詳細を見る

Metaは2026年4月17日、VRヘッドセット「Quest」シリーズの価格を4月19日から50〜100ドル（約12〜20%）引き上げると発表しました。同社はメモリチップなど重要部品の世界的な価格高騰を理由に挙げていますが、その高騰を引き起こした要因の一つがMeta自身の巨額AI投資であるという皮肉な構図が浮かび上がっています。

Metaは2026年の設備投資として1150億〜1350億ドルを計画しており、2025年の720億ドル、2023年の280億ドルから急増しています。この投資の大半はAIインフラに向けられ、データセンター企業CoreWeaveへの210億ドルの追加出資や、エルパソの新データセンターへの100億ドル投入が含まれます。

こうしたAI関連の大規模投資は、GPU・データセンター向けのメモリやストレージの需要を急拡大させています。業界全体では2026年に6300億ドルのAIインフラ投資が見込まれており、部品の供給逼迫が幅広い消費者向け製品の価格上昇につながっています。

Metaに限らず、ソニーのPlayStation 5やモトローラのスマートフォン、Raspberry Piなども同様の理由で値上げに踏み切っています。AI覇権競争に伴う部品需給の逼迫が、VRを含む消費者向けハードウェア全般のコスト増という副作用をもたらしている現状が鮮明になっています。

出典：Ars Technica

英国がAI新興企業向けに6.75億ドルの政府系ファンドを設立

2026年04月16日 Google AI活用ネットワーク専門家半導体 GPU スーパーコンピューター米国イギリススタートアップ創薬投資ベンチャーキャピタルエージェント Google DeepMind

ファンドの概要

6.75億ドル規模の国家AI基金

国内スタートアップへの投資に特化

スパコン利用権やビザ支援も提供

英国のAI戦略

米国・アジア依存からの脱却が狙い

ニッチ分野での競争力構築を重視

民間VCとの共同投資モデルを採用

初期投資先

Callosumへの投資を発表

6社に最大100万GPU時間を付与

詳細を見る

英国政府は2026年4月16日、国内のAIスタートアップに投資するための政府系ベンチャーファンド「Sovereign AI」を正式に立ち上げました。総額約6億7500万ドル(約1000億円)の規模で、モデル開発やエージェントAI、創薬など幅広い分野の新興企業を対象としています。VC大手Balterdon CapitalのJames Wise氏と、Y Combinator出身のJoséphine Kant氏が運営を担います。

同ファンドの特徴は、資金提供にとどまらない包括的な支援体制にあります。投資先の企業は英国が保有するスーパーコンピュータネットワークへのアクセス権を得られるほか、海外人材の採用に必要なビザの無償発給、政府調達への参加機会、専門家による助言などを受けられます。初期投資先として、異なるプロセッサの協調動作を支援するCallosumへの出資が発表されたほか、Prima MenteやCosineなど6社に最大100万GPU時間分の計算資源が提供されます。

この取り組みは、2025年1月に公表された英国のAI活用計画「AI Opportunities Action Plan」の一環です。英国にはGoogle DeepMindやARM、Wayveといった有力企業が拠点を構える一方、半導体設計・製造やモデル開発の分野では米国・アジア勢に大きく後れを取っています。政府は「AIの作り手であり、単なる利用者にとどまらない」立場を目指すとしています。

専門家は、英国がAIで完全な自給自足を達成することは現実的ではないと指摘しつつも、特定のニッチ領域で不可欠な存在となる企業を育成する戦略には意義があると評価しています。トニー・ブレア研究所のKeegan McBride氏は「世界は不可逆的に相互依存している中で、最良のポジションをどう築くかが問われている」と述べています。ファンドの規模は大手AI企業の投資額と比べると小さいものの、民間VCとの共同投資者として計算資源などの付加的な支援を提供できる点が強みになると、ロンドンのSeedcamp社は期待を示しています。

出典：WIRED

Sentence Transformersがマルチモーダル埋め込みモデルの学習に対応

2026年04月16日 Qwen 検索 GPU 画像動画音声トランスフォーマー Hugging Face

学習手法と実装

テキスト・画像・音声・動画に対応

Qwen3-VL-Embedding-2Bの微調整例を公開

視覚文書検索でNDCG@10が0.888→0.947に向上

実用的な技術要素

MatryoshkaLossで多次元埋め込みに対応

勾配キャッシュで大バッチ学習が可能

テキスト専用と同一のTrainer APIで実装

マルチモーダルリランカーの学習にも対応

詳細を見る

Hugging Faceは2026年4月16日、Sentence Transformersライブラリでマルチモーダル埋め込みモデルとリランカーモデルを学習・微調整する方法を解説するブログ記事を公開しました。テキストだけでなく画像・音声・動画を扱えるモデルの学習が、既存のテキスト専用パイプラインとほぼ同じコードで実現できます。

実践例として、Qwen3-VL-Embedding-2Bを視覚文書検索タスクで微調整する手順が紹介されています。テキストクエリに対して関連するドキュメントのスクリーンショットを検索するタスクで、微調整後のモデルはNDCG@10を0.888から0.947に改善しました。これは8Bパラメータの大型モデルを含む既存のすべてのモデルを上回る成績です。

学習にはCachedMultipleNegativesRankingLossとMatryoshkaLossを組み合わせて使用します。前者は勾配キャッシュにより限られたGPUメモリでも大きな実効バッチサイズを確保でき、後者は埋め込みベクトルを任意の次元数に切り詰めても高い性能を維持できるよう訓練します。512次元への圧縮でもピーク性能の99.7%を保持するという結果が示されています。

さらに、マルチモーダルなクロスエンコーダ（リランカー）モデルの学習方法も紹介されています。画像からテキスト、テキストから画像の双方向の照合を1つのモデルで学習する手法が示されており、Routerモジュールを使った別々のエンコーダの組み合わせにも対応しています。ドメイン固有データでの微調整がモデルサイズの拡大よりも効果的であることを実証した、実践的なガイドとなっています。

出典：Hugging Face

企業のAI投資、効果測定と費用対効果が最重要課題に

2026年04月16日 DeepSeek Copilot AI活用推論リスク GPU 投資

AI投資の現実

実験段階から本番運用へ移行

推論コスト増大と効果の不透明さ

5万ライセンス購入も成果把握困難

コスト最適化の戦略

トークン消費者から生成者への転換

オープンモデルや小型モデルの活用

単価下落でも総額は増加する逆説

柔軟性の重要性

抽象化と柔軟性で変化に対応

最適化より適応力を優先すべき

詳細を見る

企業のAI活用が「何を作れるか」から「投資に見合う価値を得ているか」へと転換期を迎えています。VentureBeatのAI Impact Tourセッションで、Red Hatのポートフォリオ戦略ディレクターであるBrian Gracely氏は、大企業内部のAI運用の実態として、AI活用の無秩序な拡大、推論コストの上昇、投資対効果の見えにくさを指摘しました。パイロットから本番環境へ移行する「Day 2」の段階に入り、コスト管理やガバナンスがシステム構築以上に困難になっているといいます。

Gracely氏は「Copilotの5万ライセンスを持つ顧客が、何を得ているかわからないまま世界で最も高価なGPUコンピューティングに支払っている」という事例を紹介しました。過去2年間は実験段階として自由な支出が許容されていましたが、2〜3回目の予算サイクルに入った今、支出と成果を結びつける計測基盤の欠如が深刻な問題となっています。

同氏は「トークンの消費者から生成者へ」という戦略転換を提唱しています。すべてのワークロードに最先端モデルが必要なわけではなく、DeepSeekなどのオープンモデルや小型モデルの選択肢が増えたことで、企業は自社でGPUを運用・レンタルする判断が現実的になりました。2年前に市場を独占していた少数のプロバイダー以外にも、実用的な代替手段が揃ってきています。

一方で、トークン単価が年間約60%下落しているにもかかわらず、利用量の急増が効率化の恩恵を相殺するジェボンズのパラドックスが生じています。利用量が3倍になりコストが半減しても、総支出は以前より増加するため、どのワークロードに高性能モデルを使い、どれを低コストモデルで処理するかの見極めが重要です。

Gracely氏が強調するのは、AI投資を減速させることではなく、柔軟性を最優先に設計することです。抽象化レイヤーを設けて実験コストを抑えつつ事業リスクも最小化する。AI活用はまだ3年程度の歴史しかなく、次に何が起きるかは予測困難です。今の費用構造に最適化するのではなく、変化が起きたときに適応できる組織的・技術的な柔軟性を構築することが、最も実践的な戦略だと同氏は結論づけています。

出典：VentureBeat

Adobe Premiere新カラーグレーディング機能、NVIDIA GPU加速で32bit処理実現

2026年04月15日 Google NVIDIA アシスタントファインチューニング GPU オンデバイスコンテンツ Gemma Adobe DLSS

Color Modeの主要機能

Premiere内蔵のカラーグレーディング環境

32bit色深度で初の高精度処理

6ゾーンの輝度調整に対応

文脈対応スコープとHUDオーバーレイ搭載

GPU活用と関連発表

GeForce RTX・RTX PRO系で高速化

Project G-Assist v0.2.1も同時更新

NAB Show 2026で正式発表

Filmora等他社ツールもNVIDIA連携強化

詳細を見る

NVIDIAは2026年4月18日から22日にラスベガスで開催されるNAB Show 2026に合わせ、AdobeがPremiereの新機能「Color Mode」をベータ版として発表することを明らかにしました。この機能はNVIDIA RTX GPUによるアクセラレーションを活用し、映像制作者がPremiere内で直接カラーグレーディングを行える専用環境を提供します。6万人以上のコンテンツプロフェッショナルが集まる同イベントで披露されます。

Color Modeは、Premiere内にネストされた専用グレーディング環境として設計されています。大型のプログラムモニターが中心に配置され、調整結果を即座に視覚的にフィードバックすることで、迅速な判断と精密な操作を可能にします。クリップグリッドビューにより、シーケンス内のショット間の一貫性を維持しやすくなっています。

技術面では、32bit色深度での処理に初めて対応し、最大限の色再現性を実現しています。従来のハイライト・ミッドトーン・シャドウの3ゾーンモデルを超え、最大6つの輝度調整ゾーンを利用できます。双方向コントロールやマルチゾーントーナルシェーピング、スタック型カラー操作など、すべての処理がNVIDIA GPU上で実行されます。

NVIDIAはあわせて、デバイス上で動作するAIアシスタント「Project G-Assist」のv0.2.1アップデートも発表しました。ゲーム設定の高度な検出システムと知識システムの強化により、eスポーツやAAAタイトルの設定調整でより高精度な助言が可能になっています。DLSS Overrides、Smooth Motion、RTX HDRなどNVIDIA Appの高度な機能も制御対象に加わりました。

そのほかNAB関連の動向として、WondershareのFilmoraがNVIDIA Broadcast技術を活用したアイコンタクト補正機能を追加したほか、UnslothとNVIDIAの協力によりファインチューニング性能が15%向上したことも報告されています。GoogleのGemma 4モデルファミリーもNVIDIA GPU向けに最適化され、RTX搭載PCからJetson Orin Nanoまで幅広いデバイスで効率的に動作します。

出典：NVIDIA公式

NVIDIA、トークン単価こそAIインフラ唯一の指標と主張

2026年04月15日 NVIDIA DeepSeek エコシステムネットワーク推論半導体 GPU ハードウェアインフラクラウド

従来指標の限界

FLOPS単価は実性能を反映せず

計算コストは入力指標に過ぎない

トークン出力量が収益性を左右

Blackwellの実力

Hopper比トークン出力65倍

トークン単価は35分の1に低減

ワットあたり出力50倍を達成

推論経済の全体設計

FP4精度や投機的復号を統合

エコシステム全体の最適化が鍵

詳細を見る

NVIDIAは2026年4月15日、AIインフラの経済性を評価する際に最も重要な指標は「トークンあたりのコスト」であると公式ブログで主張しました。従来多くの企業が注目してきたGPU時間単価やFLOPS単価は「入力指標」に過ぎず、実際のビジネス成果を測るには、推論で生成されるトークンの単価を見るべきだと訴えています。

同社はトークン単価の計算式を提示し、分母にあたる「GPUあたりのトークン出力量」を最大化することが鍵だと説明しています。ハードウェア性能だけでなく、ソフトウェア最適化、ネットワーク、メモリ、ストレージまで含めたフルスタックの協調設計が不可欠であり、いずれかが欠けると分母が崩壊すると指摘しました。この考え方を「推論の氷山」と呼び、表面に見えるチップスペックだけでは実力を測れないと強調しています。

具体的なデータとして、DeepSeek-R1モデルでの比較結果を公開しました。最新のBlackwell（GB300 NVL72）はHopper（HGX H200）に対し、GPU時間単価は約2倍ですが、GPUあたりのトークン出力は65倍、ワットあたり出力は50倍に達します。その結果、100万トークンあたりのコストはHopperの4.20ドルに対しBlackwellは0.12ドルと、約35分の1まで低下しています。

NVIDIAはこの優位性の源泉として、計算・ネットワーク・メモリ・ソフトウェアにまたがる「極限の協調設計」を挙げています。vLLM、SGLang、TensorRT-LLMなどのオープンソース推論ソフトウェアの継続的な最適化により、既存インフラでもトークン出力は導入後も向上し続けるとのことです。CoreWeave、Nebius、Together AIなどのクラウドパートナーがすでにBlackwellインフラを展開し、業界最低水準のトークン単価を実現していると述べました。

出典：NVIDIA公式

靴ブランドAllbirdsがGPU事業に転身、株価6倍に

2026年04月15日エンジニア投資家 GPU クラウドデータセンターシリコンバレーブランドブロックチェーン投資資金調達評価額 IPO

事業転換の経緯

Allbirdsがブランドを3900万ドルで売却

新社名NewBird AIでGPU事業へ

5000万ドルの転換社債で資金調達

株主総会5月18日に承認予定

GPU事業の展望と市場の反応

GPUaaS提供を長期ビジョンに掲げる

発表直後に株価が約600%急騰

データセンター空室率が過去最低水準

具体的な差別化戦略は不透明

詳細を見る

かつてシリコンバレーで愛されたサステナブルシューズブランドAllbirdsが、靴事業を売却し、AI計算基盤企業への転身を発表しました。同社は2021年のIPO時に約40億ドルの評価額を記録しましたが、その後の業績低迷が続き、2026年3月30日にブランドと靴事業をAmerican Exchange Groupへ3900万ドルで売却していました。新社名はNewBird AIとなります。

NewBird AIは非公開の機関投資家から5000万ドルの転換社債による資金調達を実施し、高性能GPU資産の取得に充てる計画です。長期的にはGPU-as-a-Service（GPUaaS）とAIネイティブなクラウドソリューションの統合プロバイダーを目指すとしています。同社はNasdaq上場企業としての上場維持枠を活用し、AI分野への参入を図ります。

発表を受けてAllbirdsの株価は約600%急騰しました。背景には、北米データセンターの空室率が過去最低水準に達し、2026年半ばまでの計算能力がすでに予約済みという市場環境があります。企業やAI開発者がGPUを確保できない需給ギャップをNewBird AIが埋めるという構想です。

ただし、複数のメディアはこの転身に懐疑的な見方を示しています。Wired誌は「GPUを買う資金以外に何をもたらすのか不明」と指摘し、Ars Technicaは同社のSEC提出書類に「計算基盤市場の機会を調査中」との表現があることから、計画の具体性に疑問を呈しました。2017年にLong Island Iced Tea社がブロックチェーン企業に転身して株価急騰後に上場廃止となった前例との類似性も指摘されています。

なお、ブランド売却と事業転換はいずれも5月18日の株主総会での承認が条件となっており、承認後の第3四半期に株主への配当が予定されています。靴事業を引き継ぐAmerican Exchange Groupは、既存顧客向けの製品提供を継続する方針です。

出典：TechCrunch | The Verge | WIRED | Ars Technica

AIでチップ最適化と設計を自動化、Nvidia支配に挑む2社

コード最適化の自動化

WaferがAIでカーネルコード最適化

AMDやAmazonと連携し効率最大化

Nvidiaのソフトウェア優位性を侵食する狙い

チップ設計へのAI活用

Ricursiveが評価額40億ドルで3.35億ドル調達

元Google技術者がチップ設計の自動化を推進

自然言語でチップ設計を指示する未来像

AIが自らのハードウェアを改善する再帰的進化

詳細を見る

AIチップ市場で圧倒的な支配力を持つNvidiaに対し、AIを活用してその優位性を切り崩そうとする2つのスタートアップが注目を集めています。WaferはAIモデルを使ってチップ上で動作するカーネルコードを最適化する技術を開発し、Ricursive IntelligenceはAIによるチップ設計の自動化に取り組んでいます。両社のアプローチは、Nvidiaが築いたソフトウェアエコシステムとハードウェア設計の参入障壁をAI自体の力で突破しようとするものです。

Waferは強化学習を用いてオープンソースモデルにカーネルコードの記述を学習させるほか、AnthropicのClaudeやOpenAIのGPTに「エージェントハーネス」を追加してチップ向けコード生成能力を強化しています。CEOのEmilio Andere氏は、AMDやAmazonの最新チップがNvidia GPUと同等の理論演算性能を持つと指摘し、「ワットあたりの知能を最大化したい」と述べています。同社はGoogleのJeff Dean氏やOpenAIのWojciech Zaremba氏らから400万ドルのシード資金を調達しました。

一方、Ricursive Intelligenceは元Google技術者のAzalia Mirhoseini氏とAnna Goldie氏が設立しました。両氏はGoogleでAIを活用したチップレイアウト最適化技術を開発した実績があり、この技術は現在業界で広く使われています。Ricursiveではさらに踏み込み、大規模言語モデルをチップ設計プロセスに統合することで、自然言語による設計指示を可能にすることを目指しています。

Ricursiveの構想は投資家から高い評価を受け、わずか数カ月で評価額40億ドル、調達額3億3500万ドルに達しました。Goldie氏は、AIがチップとアルゴリズムを同時に最適化する「再帰的改善」が可能になると展望しています。より多くの計算資源を投じてより高速なチップを設計するという、チップ設計のスケーリング則が生まれつつあると同氏は語っています。

Nvidiaの強みはハードウェア性能だけでなく、CUDAをはじめとするソフトウェアツール群にあります。しかしAIによるコード最適化やチップ設計の自動化が進めば、このソフトウェアの堀は薄れる可能性があります。Andere氏は「チップのプログラマビリティに存在する堀が本当に強固なのか、再考すべき時期だ」と指摘しており、AI技術がAI半導体の勢力図を塗り替える動きが加速しています。

出典：WIRED

Microsoft、画像生成AIの低コスト版を1カ月で投入

2026年04月14日 Google OpenAI NVIDIA マイクロソフト Amazon Gemini Copilot ワークフロー画像生成 GPU 画像スタートアップ提携エージェント基盤モデル Intel

モデルの性能と価格

画像出力トークン41%値下げ

処理速度が22%向上

GPU効率が4倍に改善

Google競合モデルより40%低遅延

戦略的な背景

OpenAIとの関係悪化が開発を加速

自社AI基盤の構築を推進

エージェントAI時代への布石

Copilot統合で全製品に展開予定

詳細を見る

Microsoftは2026年4月14日、テキストから画像を生成するAIモデル「MAI-Image-2-Efficient」を発表しました。これは3月19日に公開したフラッグシップモデル「MAI-Image-2」の低コスト・高速版で、Microsoft FoundryとMAI Playgroundで即日利用可能です。わずか1カ月足らずで本番運用向けの派生モデルを投入した形になります。

価格面では、画像出力トークンが100万あたり33ドルから19.50ドルへと約41%引き下げられました。処理速度はフラッグシップ版より22%高速で、NVIDIA H100上でのGPU効率は4倍を達成しています。GoogleのGemini 3.1 Flash等の競合モデルと比較しても、中央値レイテンシで平均40%上回ると同社は主張しています。

この急速な開発を支えるのは、2025年11月にMustafa Suleyman氏率いるMAI Superintelligenceチームです。同チームは発足から5カ月足らずで、フラッグシップ画像モデル、3つの基盤モデル、そして今回のコスト最適化版と、次々に製品を送り出しています。Microsoftはスタートアップのような開発速度で自社AIスタックを構築しつつあります。

背景にはOpenAIとの関係変化があります。OpenAIの最高売上責任者が社内メモでMicrosoftとの提携が事業拡大の制約になっていると明言し、Amazon Web Servicesとの新たな連携を推進していることが報じられました。Microsoftにとって自社モデルの強化は、OpenAIへの依存を減らし売上原価を改善する経営上の必然といえます。

さらに重要なのは、AIエージェント時代への対応です。Microsoftはマーケティングキャンペーンの自動実行など、エージェントが自律的に画像生成を呼び出すワークフローを構想しています。1日に数千回呼ばれても破綻しない低コスト・低遅延の画像生成は、このビジョンの基盤要件です。MAI-Image-2-Efficientの4倍の効率改善と41%の値下げは、まさにその要件を満たすための設計判断といえます。

出典：VentureBeat

Kepler、軌道上最大の計算クラスタを商用開放

2026年04月13日 NVIDIA ネットワーク推論リスク GPU インフラデータセンターエネルギー米国提携 SpaceX

宇宙エッジ計算の現在地

衛星10基にGPU約40基搭載

レーザー通信で衛星間を接続

顧客数は18社に到達

Sophia Spaceが新規顧客として参加

大規模DCとの差別化戦略

推論特化の分散GPU構成を採用

GPU稼働率100%を実現

受動冷却技術で放熱課題に対応

地上DC規制が宇宙計算の追い風に

詳細を見る

カナダのKepler Communicationsは、2026年1月に打ち上げた衛星10基からなる軌道上最大の計算クラスタを商用顧客に開放しました。同クラスタはNvidia Orin エッジプロセッサ約40基を搭載し、衛星間をレーザー通信で接続しています。現在18社の顧客を抱え、最新の顧客としてSophia Spaceとの提携を発表しました。

Kepler CEOのMina Mitry氏は、同社をデータセンター企業ではなく宇宙アプリケーション向けインフラと位置づけています。他の衛星や航空機向けにネットワークサービスを提供するレイヤーとなることを目指しており、合成開口レーダーなど高負荷センサーの処理オフロード需要を見込んでいます。米軍のミサイル防衛向け衛星にも宇宙対空レーザーリンクをデモ済みです。

提携先のSophia Spaceは、大規模宇宙データセンターの課題であるプロセッサの放熱問題を受動冷却で解決する技術を開発中です。今回の提携ではKepler衛星上に独自OSをアップロードし、2機の衛星にまたがる6基のGPUでの起動・設定を軌道上で初めて試みます。2027年末の自社衛星打ち上げに向けたリスク低減が狙いです。

SpaceXやBlue Originが構想する大規模宇宙データセンターの実現は2030年代とされる中、Keplerは訓練よりも推論ワークロードに特化した分散型GPUアーキテクチャで差別化を図ります。Mitry氏は「キロワット級の消費電力で稼働率10%のGPUより、常時100%稼働する分散GPUの方が有用」と述べています。米国では地上データセンター建設を禁止する自治体も出始めており、宇宙計算への関心が高まる背景となっています。

出典：TechCrunch

Overworld、Waypoint1.5公開、家庭用GPUで720p動作

2026年04月09日 Apple シミュレーション推論 GPU データセンター

家庭用GPUで動作

RTX3090〜5090対応

720p・60FPSで実時間生成

360pはノートPCも対応

Apple Silicon Mac対応予定

学習データ100倍

約100倍のデータで学習

フレーム間の冗長計算削減

ブラウザでも即時体験可能

詳細を見る

Overworldは4月9日、実時間対話型の世界モデルWaypoint1.5を公開しました。家庭用GPUのRTX3090から5090で動作し、デスクトップで最大720p・60FPSの生成環境を実現します。データセンター級の計算資源に頼らず、手元のマシンで生成世界に踏み込める点が最大の特長です。

今回の刷新で最も大きな変化はアクセシビリティの向上です。高性能機向けの720p版に加え、ゲーミングノートPCなど幅広い機器で軽快に動く360p版を新設しました。近くApple Silicon搭載Macにも対応する計画で、裾野の拡大を狙います。

モデル品質も大幅に底上げされました。学習データ量は初代Waypoint比で約100倍に拡張され、環境の一貫性や動きの連続性が改善しています。さらにフレーム間の冗長な計算を削減する効率的な映像モデリング手法を導入し、応答性を高めました。

世界モデルの価値は映像の美しさだけでは測れません。ユーザーが動いても世界が破綻せず、即座に反応することこそが没入感の源泉だと同社は強調します。描画品質に偏重しがちな近年の潮流に対し、応答性と探索可能性を前面に押し出した形です。

体験手段は二つ用意されました。一つは公式ランタイムOverworld Biomeを使ったローカル実行で、新しいインストーラーにより数分で起動できます。もう一つはブラウザ上で即座に試せるOverworld Streamで、初期設定なしに触れられます。

推論ライブラリWorld Engineも提供され、十数種の公式・サードパーティ製クライアントを支えます。エンターテインメントや創作支援、シミュレーションなど、生成世界を活用するAIネイティブ環境の基盤としての広がりが期待されます。

出典：Hugging Face

Hugging Face、画像音声動画の埋め込みに対応

2026年04月09日 NVIDIA Qwen 検索 Llama エンジニア推論 GPU 画像動画音声トランスフォーマー Hugging Face RAG

v5.4の新機能

マルチモーダル埋め込み追加

画像・音声・動画を共有空間化

リランカーも多モーダル対応

同一APIで混在入力可能

対応モデルと要件

Qwen3-VLとNemotron統合

2BはVRAM8GBから動作

processor_kwargsへ名称変更

詳細を見る

Hugging Faceは4月9日、オープンソースの埋め込みライブラリSentence Transformers v5.4を公開し、テキストに限定されてきた埋め込みとリランキングの機能を画像・音声・動画にまで拡張しました。開発者は従来と同じAPIを使いながら、モダリティをまたいだベクトル検索やRAGパイプラインを構築できるようになります。視覚的な文書検索やクロスモーダル検索といった新しい用途を、少ないコード変更で取り込める点が最大の特徴です。

中核となるのは、異なるモダリティの入力を共有埋め込み空間に写像する多モーダル埋め込みモデルです。テキストクエリと画像文書を直接比較でき、同じsimilarity関数で関連度を評価できます。ブログの例では「黄色い建物前に駐車された緑の車」というテキストが、該当する車の画像に対して最も高い類似度を示し、ハードネガティブの誤マッチが抑えられることが示されました。

リランカー（CrossEncoder）も多モーダル化され、テキスト・画像・動画を組み合わせたペアにスコアを付与できます。エンベディングで高速に候補を絞り込み、リランカーで精度を高めるという2段構えの検索パターンが、マルチモーダル文脈でも標準化されました。rank()やpredict()は従来と同じインターフェースのまま、複合入力を受け付けます。

対応モデルにはQwen3-VL-Embedding-2B/8B、NVIDIA llama-nemotron-embed-vl、jinaai/jina-reranker-m0などが含まれ、統合コレクションから即座に利用できます。2BクラスはVRAM約8GB、8Bクラスは約20GBを必要とし、CPUでは推論が著しく遅いためGPU環境の利用が推奨されています。

設定面では画像解像度や精度を制御するprocessor_kwargsとmodel_kwargsが用意され、従来のtokenizer_kwargsは非推奨となりました。経営層やエンジニアにとって、社内ドキュメントのスクリーンショットや動画アーカイブを横断検索する基盤を、既存の知識資産を活かしたまま整備できる点が実務的な価値です。

出典：Hugging Face

GoogleとIntel、AI基盤で多年提携を拡大

2026年04月09日 Google ソフトバンクネットワーク推論半導体 GPU インフラクラウドデータセンター AGI ASI 提携 Intel Arm

提携の中身

Xeon 6をGoogle採用

多年契約で関係強化

カスタムIPU共同開発継続

ASIC基盤IPUに集中

CPU争奪戦の背景

CPU不足が業界課題

GPU偏重からバランス型へ

Arm AGI CPU競争参入

詳細を見る

GoogleとIntelは4月9日、AIインフラ分野での多年にわたる提携を拡大すると発表しました。Google Cloudは引き続きIntel製Xeonプロセッサを採用し、最新のXeon 6をAI・クラウド・推論用途に活用します。両社は2021年から続くカスタムIPUの共同開発も継続し、ASICベースの設計に注力する方針です。

Google Cloudは過去数十年にわたりIntel製Xeonプロセッサを使い続けてきました。今回新たに採用が明確化されたXeon 6は、生成AI時代のクラウドや推論処理を支える基幹部品となります。長期にわたる信頼関係を軸に、両社は基盤構築のパートナーシップを一段と深めます。

提携のもう一つの柱が、カスタムIPUの共同開発です。IPUはCPUからネットワーク処理やデータ管理といった作業を引き受け、データセンター全体の効率を底上げします。2021年に始まったこの取り組みは、今後ASICベースの設計に焦点を絞って進められる予定です。

この拡大の背景には、業界全体を覆うCPU不足があります。モデルの開発や学習にGPUが使われる一方、完成したAIモデルの実行や推論、そしてインフラ全般の運用にはCPUが欠かせません。Intelのリップブー・タン最高経営責任者は「AIには加速器だけでなくバランスの取れたシステムが必要だ」と強調しています。

CPUへの回帰はGoogleとIntelだけではありません。SoftBank傘下のArm Holdingsは先月、創業35年で初の自社設計チップとなるArm AGI CPUを発表しました。世界的なCPU不足を背景に、半導体各社の競争はAI基盤の中核部品へと広がっています。

出典：TechCrunch

分散型AI訓練で太陽光住宅や遊休GPUを活用する動き

2026年04月07日 Google NVIDIA 創業者半導体 GPU ハードウェアクラウドデータセンターエネルギー太陽光発電基盤モデル学校 Intel Google DeepMind

ハードウェアの分散活用

NvidiaやCiscoが拠点間接続技術を発表

Akash Networkが遊休GPUの貸借市場を構築

小規模GPUの活用で大規模訓練を実現

DiLoCoアルゴリズムの進展

Google DeepMindが低通信量の分散最適化手法を開発

Prime Intellectが5カ国横断で100億パラメータモデルを訓練

0G Labsが1070億パラメータモデルの分散訓練に成功

エネルギー問題への貢献

太陽光発電住宅をデータセンター化する構想

新規データセンター建設に頼らない訓練手法

詳細を見る

AIの訓練には膨大なエネルギーが必要であり、データセンターの炭素排出量は増加の一途をたどっています。大手テック企業は原子力発電への関心を高めていますが、実用化にはまだ時間がかかります。こうした背景のもと、研究者や企業がAI訓練の分散化という手法でエネルギー問題に取り組んでいます。分散化とは、単一のデータセンターに依存せず、遊休サーバーや太陽光発電住宅のコンピュータなど既存のリソースを活用してモデル訓練を行う仕組みです。

NvidiaはSpectrum-XGSイーサネットを発表し、地理的に離れたデータセンター間での大規模訓練を可能にしました。Ciscoも分散AIクラスタ接続用のルーターを投入しています。一方、Akash Networkはオフィスや小規模データセンターの遊休GPUを貸し出すピアツーピア型クラウドマーケットプレイスを運営しており、「データセンターのAirbnb」を標榜しています。

ソフトウェア面では、Google DeepMindが開発したDiLoCoアルゴリズムが注目を集めています。DiLoCoは「計算の島」と呼ばれるチップ群を形成し、島同士の同期頻度を抑えることで通信コストと障害耐性の課題を解決します。改良版のStreaming DiLoCoでは、訓練と並行してバックグラウンドで知識を段階的に同期し、帯域幅の要件をさらに低減しました。Prime Intellectはこの手法で5カ国にまたがる100億パラメータモデルを訓練し、0G Labsは1070億パラメータの基盤モデルの分散訓練に成功しています。

Akash NetworkはStarclusterプログラムを立ち上げ、太陽光パネルを備えた住宅のデスクトップやノートパソコンをAI訓練に活用する構想を推進しています。参加にはバッテリーや冗長なインターネット接続が必要ですが、業界パートナーとの協力でバッテリーコストの補助を検討中です。2027年までに住宅がプロバイダーとして参加できるようになることを目指しており、学校やコミュニティ施設への展開も視野に入れています。

分散型AI訓練は、新たなデータセンターを建設せずに既存の処理能力を活かすことで、AIのエネルギー消費問題に対する有望な解決策となります。Akash共同創業者のGreg Osuri氏は「エネルギーをAIのところに持っていくのではなく、AIをエネルギーのあるところに持っていく」とその理念を語っています。

出典：spectrum.ieee.org

Cisco、宇宙データセンター実現へ準備着手

2026年04月06日 AI活用ネットワーク半導体 GPU インフラデータセンターエネルギーセキュリティ認証イーロン・マスク買収バブルエージェント

自社シリコンが競争力の源泉

2016年買収の独自シリコンが差別化要因

GPU接続用チップ製造は世界3社のみ

ハイパースケーラー向けが数十億ドル規模に

宇宙データセンター構想

電力無制限の宇宙空間に展開を支持

製品チームが宇宙環境対応の検討開始

住民反対や電力制約の回避策にも

AI活用と事業展望

来年にはコードの70%がAI生成へ

エージェント時代はネットワーク認証が不可欠

詳細を見る

CiscoのChuck Robbins CEOは、The Vergeのインタビューで、AI時代のインフラ戦略と宇宙データセンター構想について語りました。同氏は宇宙空間でのデータセンター建設を「実現する」と断言し、製品チームがすでに宇宙環境への対応を検討していることを明らかにしました。AIデータセンター向けネットワーキング需要の急増を背景に、ハイパースケーラー向け事業は数十億ドル規模に成長しています。

Ciscoの競争力を支えるのは、2016年にイスラエルの半導体企業Leabaを買収して獲得した自社設計シリコンです。Robbins氏は「この技術がなければAI時代の成長には参加できなかった」と述べました。現在、GPU接続に必要なネットワーキングシリコンを製造できる企業は世界でわずか3社しかなく、これがCiscoの最大の差別化要因となっています。

宇宙データセンターについてRobbins氏は、Elon Muskの構想を積極的に支持しました。宇宙では電力が無制限かつ遮るものがなく、地上で課題となる住民反対や電力供給の制約を根本的に回避できると説明しています。Ciscoの製品チームは2〜3か月前から宇宙環境での大気条件や温度への対応を検討し始めています。

社内でのAI活用も急速に進んでいます。今年中に5〜6製品が完全にAI生成コードで開発される予定で、来年にはコード全体の70%がAI生成になる見通しです。ただし、30年前のC++コードの変換では「徹底的なテストが不可欠」と慎重さも見せました。

Robbins氏は現在のAIブームをドットコムバブルと比較しつつ、「当時と異なりデータセンターは稼働初日からフル稼働している」と指摘しました。エージェント時代のセキュリティではネットワーク層での認証が必須とし、セキュリティ事業を持つ唯一のネットワーク企業であるCiscoの優位性を強調しました。

出典：The Verge

Anthropicが数ギガワット規模のTPU契約をGoogleらと締結

2026年04月06日 Google Anthropic NVIDIA マイクロソフト Claude AWS AI導入推論 GPU ハードウェア TPU クラウド投資

契約と投資の概要

数ギガワット規模の次世代TPU容量確保

2027年から順次稼働開始予定

大部分をアメリカ国内に設置

昨年の500億ドル投資計画をさらに拡大

急成長する事業規模

年間売上が300億ドル超に到達

年間100万ドル超の法人顧客が1,000社突破

2か月で大口顧客数が倍増

マルチクラウド戦略

AWS・Google Cloud・Azureの3大クラウド対応維持

詳細を見る

Anthropicは2026年4月6日、GoogleおよびBroadcomと数ギガワット規模の次世代TPU容量を確保する新たな契約を締結したと発表しました。この計算基盤は2027年から順次稼働を開始し、フロンティアモデル「Claude」の訓練と推論に活用されます。同社CFOのKrishna Rao氏は「過去最大の計算資源へのコミットメント」と述べています。

Anthropicの事業は2026年に入り急成長を続けており、年間売上ランレートは300億ドルを突破しました。2025年末の約90億ドルから3倍以上の伸びとなります。年間100万ドル以上を支出する法人顧客は2月時点の500社超からわずか2か月で1,000社に倍増しており、企業のAI導入が加速していることを示しています。

今回の契約で確保する計算基盤の大部分はアメリカ国内に設置される予定です。これは2025年11月に発表した500億ドルのアメリカ国内AI基盤投資計画の大幅な拡大に位置づけられます。昨年10月に発表したGoogle CloudのTPU容量拡大に続く動きであり、Broadcomとの関係もさらに深まることになります。

Anthropicはハードウェアの多様化戦略を維持しています。AWSのTrainium、GoogleのTPU、NVIDIAのGPUを用途に応じて使い分けることで、性能と耐障害性を最適化しています。主要クラウドパートナーは引き続きAWSであり、Project Rainierでの協業も継続中です。Claudeは現在、AWS Bedrock・Google Cloud Vertex AI・Microsoft Azure Foundryの3大クラウドすべてで利用可能な唯一のフロンティアAIモデルという位置づけを維持しています。

出典：Anthropic公式

Microsoft、自社開発AI基盤モデル3種を公開

2026年04月03日 Google OpenAI マイクロソフト Amazon Gemini PowerPoint 画像生成 GPU AGI 画像音声投資ベンチマーク基盤モデル

3モデルの概要と性能

音声認識MAI-Transcribe-1が25言語で最高精度

音声合成MAI-Voice-1、1秒で60秒分の音声生成

画像生成MAI-Image-2、前世代比2倍以上の高速化

各モデルを10人未満の小規模チームで開発

戦略的背景と競争環境

OpenAIとの契約改定で独自AGI開発が可能に

競合を下回る積極的な価格設定で市場攻勢

Suleyman氏、フロンティアLLM開発を明言

株価低迷の中でAI投資の収益化を加速

詳細を見る

Microsoftは4月3日、自社開発の基盤AIモデル3種を発表しました。音声認識のMAI-Transcribe-1、音声合成のMAI-Voice-1、画像生成のMAI-Image-2で、いずれもMicrosoft Foundryを通じて即日提供を開始しています。

MAI-Transcribe-1は業界標準ベンチマーク「FLEURS」で主要25言語の平均ワードエラー率3.8%を達成しました。OpenAIのWhisper-large-v3を全25言語で、GoogleのGemini 3.1 Flashを22言語で上回り、競合の半分のGPUで動作すると発表しています。

MAI-Voice-1は数秒の音声サンプルから話者の声を再現でき、100万文字あたり22ドルで提供されます。MAI-Image-2はArena.aiリーダーボードでトップ3に入り、BingやPowerPointへの展開が進んでいます。

注目すべきは開発体制の規模です。Mustafa Suleyman氏によると、音声モデルはわずか10人のチームで構築され、画像チームも10人未満です。少人数による高品質モデル開発は、AI開発に数千人規模が必要とする業界通念を覆すものです。

これらのモデル開発は、2025年10月のOpenAIとの契約改定により実現しました。従来Microsoftは独自にAGI開発を行うことが契約上禁止されていましたが、新条件により独立したモデル開発の自由を得ています。

価格戦略も競争的です。Suleyman氏は「すべてのハイパースケーラーの中で最も安い価格にする」と明言し、Amazon・Google双方を下回る設定にしたと述べました。年初来約17%の株価下落が続く中、AI投資の収益化圧力に応える狙いがあります。

Suleyman氏は今後、テキスト生成を含む全モダリティで最先端モデルを提供する方針を示しました。「Microsoftが必要とするなら、最高効率・最安価格で完全に独立した形で提供できるようにする」と語り、OpenAIとの協力関係を維持しつつ自立を目指す戦略を鮮明にしています。

出典：VentureBeat

GitHub、差分表示の描画性能を大幅に改善

2026年04月03日 GitHub GPU コンテキスト

v2アーキテクチャの刷新

Reactコンポーネント数を74%削減

イベントハンドラの一元管理に移行

状態管理を条件付き子コンポーネントへ分離

O(1)データアクセスパターンの採用

仮想化と追加最適化

JSヒープ使用量が10分の1に

INPが最大700msから40〜80msへ改善

CSSセレクタ最適化とGPU変換の活用

プログレッシブ読み込みで体感速度向上

詳細を見る

GitHubは、プルリクエストの「Files changed」タブにおける差分行の描画パフォーマンスを大幅に改善したことを発表しました。大規模なプルリクエストでは、JavaScriptヒープが1GBを超え、DOMノード数が40万以上に達するなど深刻な性能問題が発生していました。

従来のv1アーキテクチャでは、1つの差分行あたり最大15個のDOM要素、13個のReactコンポーネント、20以上のイベントハンドラが必要でした。新しいv2では、コンポーネント数を74%削減し、メモリ使用量を約50%低減することに成功しています。

主な改善策として、統合ビューと分割ビューにそれぞれ専用コンポーネントを設け、コメント機能やコンテキストメニューの状態を条件付き子コンポーネントへ移動しました。データアクセスもJavaScript Mapを活用したO(1)の定数時間ルックアップに変更しています。

さらに、1万行を超える巨大なプルリクエストにはTanStack Virtualを導入し、ウィンドウ仮想化を実装しました。これにより、p95以上の大規模PRでJSヒープとDOMノードが10分の1に削減され、INPは275〜700ms超から40〜80msへと劇的に改善されています。

加えて、重いCSSセレクタの置き換え、GPU変換によるドラッグ処理の最適化、サーバーサイドでの可視行のみのハイドレーションなど複合的な最適化も実施しました。プログレッシブ差分読み込みにより、ユーザーは全データの読み込み完了を待たずに操作を開始できるようになっています。

出典：GitHub公式

Arcee、米国発400Bオープンソース推論モデルを公開

2026年04月03日 NVIDIA Meta Claude Qwen Llama Opus 推論推論モデル GPU 米国中国スタートアップエージェント

モデルの技術的特徴

400BパラメータのMoE構成

推論時に13Bのみ活性化

同等規模比2〜3倍の推論速度

Apache 2.0で完全商用利用可能

性能と市場での位置づけ

PinchBenchで91.9を記録

Claude Opus 4.6に次ぐエージェント性能

出力トークン単価は約96%安価

米国製オープンモデルの空白を補完

詳細を見る

Arcee AIは、399億パラメータのテキスト専用推論モデル「Trinity-Large-Thinking」をApache 2.0ライセンスで公開しました。30人規模のサンフランシスコ拠点のスタートアップが、米国発のオープンソースフロンティアモデルとして開発したものです。

同モデルはMixture-of-Experts（MoE）アーキテクチャを採用し、400Bの総パラメータのうち推論時には約13Bのみを活性化します。これにより大規模モデルの知識を保持しつつ、同等規模のモデルと比べ2〜3倍の推論速度を実現しています。

開発にあたりArceeは総資金の約半額にあたる2000万ドルを33日間の学習に投入しました。NVIDIA B300 Blackwell GPU 2048基のクラスタを使用し、20兆トークンのデータで学習を行っています。

エージェント性能の指標であるPinchBenchでは91.9を記録し、プロプライエタリモデルのClaude Opus 4.6（93.3）に迫る水準です。出力トークンあたりの価格は0.90ドルで、Opus 4.6の25ドルと比較して約96%安価となっています。

「Thinking」機能の追加により、以前のプレビュー版で課題とされたマルチステップ指示への対応が改善されました。長時間のエージェントループでも一貫性を維持できる「長期エージェント」の実現を目指しています。

背景には、中国のQwenやz.aiがプロプライエタリ路線に転換し、MetaのLlamaも品質問題で後退するなど、オープンソースフロンティアモデルの空白が生じている市場環境があります。Arceeはこの領域を米国企業として埋める狙いです。

OpenRouterでは前身のTrinity-Large-Previewが米国で最も利用されたオープンモデルとなり、ピーク時には1日806億トークンを処理しています。今後はフロンティアモデルの知見をMini・Nanoモデルへ蒸留し、コンパクトモデルの強化も進める方針です。

出典：VentureBeat

Microsoft、自社開発AIモデル3種を公開しOpenAIに対抗

2026年04月02日 Google OpenAI マイクロソフト Gemini 画像生成 GPU AGI 画像音声スタートアップベンチマーク

新モデルの概要

音声認識・音声生成・画像生成の3モデル

MAI-Transcribe-1は25言語で最高精度

音声生成は1秒で60秒分の音声を出力

競合比GPU半減で同等以上の性能

戦略的背景

OpenAIとの契約再交渉で独自開発が可能に

10人以下の少数精鋭チームで開発

超知能チームを2025年10月に設立

競争と価格戦略

音声クローンや画像生成でスタートアップ勢に挑戦

全ハイパースケーラー最安の価格設定を明言

詳細を見る

Microsoftは2026年4月2日、自社開発の基盤AIモデル3種（MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2）を発表しました。音声認識・音声生成・画像生成の3分野をカバーし、Microsoft FoundryとMAI Playgroundで即日提供を開始しています。

音声認識モデルMAI-Transcribe-1は、業界標準のFLEURSベンチマークで上位25言語において平均WER3.8%を達成しました。OpenAIのWhisper-large-v3を全25言語で上回り、GoogleのGemini 3.1 Flashにも22言語で勝利するなど、最高水準の精度を示しています。

この動きを可能にしたのは、2025年10月のOpenAIとの契約再交渉です。従来MicrosoftはAGIの独自追求を契約上禁じられていましたが、新条件により自社モデル開発の自由を獲得しました。ムスタファ・スレイマン率いる超知能チームが正式に発足し、AI自給自足を目指しています。

注目すべきは開発体制の効率性です。音声認識モデルはわずか10人のチームで構築され、画像チームも10人未満とのことです。競合の半分のGPUで最高水準の性能を実現しており、AI事業のコスト構造を根本的に変える可能性があります。

価格面では全ハイパースケーラー最安を明言し、MAI-Voice-1は100万文字あたり22ドル、MAI-Image-2はテキスト入力100万トークンあたり5ドルに設定されました。スレイマン氏は今後、大規模言語モデルでもフロンティア級の自社モデルを投入する方針を示しており、Microsoftの競争戦略は新たな段階に入っています。

出典：VentureBeat | TechCrunch

Microsoft AI責任者が超知能開発に専念、事業価値重視の新戦略

2026年04月02日 Google OpenAI Anthropic マイクロソフト Meta Amazon Copilot アシスタントデザインエンジニア GPU AGI 音声ブランド

組織再編と新体制

スレイマン氏が超知能開発に専念

Copilot部門に消費者・企業チーム統合

アンドレオウ氏が製品統括EVPに就任

新モデルと収益戦略

MAI-Transcribe-1を商用公開

GPU費用を従来最先端の半額に削減

25言語対応の高精度音声認識

10人の少数精鋭チームで開発

超知能の定義と展望

超知能を事業価値の提供能力と定義

全員がAIアシスタントを持つ未来像を提示

詳細を見る

MicrosoftのAI部門CEOムスタファ・スレイマン氏は2026年4月、同社の大規模組織再編を経て超知能（スーパーインテリジェンス）の開発に専念する方針を明らかにしました。この移行は約9カ月前から準備されており、OpenAIとの契約再交渉が正式な転換点となりました。

スレイマン氏は超知能の定義について、AGIのような曖昧な概念ではなく「何百万もの企業顧客に製品価値を提供できるモデルの能力」と明確に位置づけています。開発者・企業・消費者への実用的な価値提供を最優先とし、OpenAIの新戦略とも方向性が一致しています。

組織面では、企業向けと消費者向けのチームをCopilotブランドのもとに統合しました。元コーポレートVPのジェイコブ・アンドレオウ氏がEVPとしてエンジニアリング・製品・デザインを統括し、スレイマン氏はフロンティアAIモデルの開発に集中できる体制を整えています。

新たに発表された音声書き起こしモデルMAI-Transcribe-1は、25言語に対応し背景雑音や音声の重なりなど困難な録音条件でも高精度で動作します。GPU費用は他社最先端モデルの半額で、企業にとって大幅なコスト削減となります。Microsoft FoundryおよびAI Playgroundで商用利用が可能です。

開発手法としては、官僚主義を排した10人の少数精鋭チームを採用しています。Meta・Amazon・Googleなど他社もフラット化を進めており、Anthropicも少人数チームに一定の計算資源を自由に使わせる実験を行うなど、業界全体で小規模チームによるイノベーションが加速しています。

出典：The Verge

Google、最強オープンモデルGemma 4をApache 2.0で公開

2026年04月02日 Google NVIDIA ワークフロー Llama 推論事前学習 GPU 画像動画音声中国エージェント Hugging Face Ollama Gemma Google DeepMind

モデル構成と性能

4種類のモデルを同時公開

31Bがオープン世界3位の性能

26B MoEは4Bの計算量で動作

E2B・E4Bはスマホ端末対応

技術的な特徴

テキスト・画像・音声のネイティブ対応

関数呼び出しをモデルに組込み

最大256Kトークンの長文脈

140以上の言語を事前学習

ライセンスと展開

Apache 2.0で商用利用自由

Ollama・llama.cppで即日利用可能

NVIDIA GPUで最適化済み

詳細を見る

Google DeepMindは2026年4月1日、オープンモデル「Gemma 4」を4サイズ同時に公開しました。最上位の31BモデルはArena AIリーダーボードでオープンモデル世界3位を獲得し、ライセンスは従来の独自条項からApache 2.0へ変更されました。

31B Denseは高品質な推論特化、26B MoEは128個の小規模エキスパートのうち8個だけを活性化し、31B級の性能を4B級の速度で実現します。AIME 2026で31Bが89.2%、MoEが88.3%を記録し、前世代Gemma 3の20.8%から飛躍的に向上しました。

エッジ向けのE2BとE4Bは、スマートフォンやRaspberry Pi、Jetson Nanoで完全オフライン動作します。Per-Layer Embeddings技術により、E2Bは総パラメータ51億ながら実効2Bとして軽量に動き、音声認識もモデル内で処理できます。

全モデルが画像・動画・音声のマルチモーダル入力に対応し、関数呼び出しもアーキテクチャレベルで統合されています。可変アスペクト比の画像処理、最大256Kトークンの長文脈、140以上の言語への対応により、エージェント型AIワークフローの構築基盤として設計されています。

Apache 2.0ライセンスへの移行は、企業導入における法的障壁を解消する重要な転換点です。NVIDIAとの協業によりRTX GPUからDGX Sparkまで最適化され、Ollama・llama.cpp・Hugging Faceなど主要ツールが初日から対応しています。中国系モデルがオープン化を後退させる中、Googleは逆方向の戦略を明確にしました。

出典：NVIDIA公式 | DeepMind公式 | Ars Technica | VentureBeat | Hugging Face

宇宙データセンターのStarcloudがシリーズAで1.7億ドル調達

2026年03月30日 Google NVIDIA 半導体 GPU データセンターエネルギースタートアップ資金調達評価額 SpaceX

資金調達と事業概要

評価額11億ドルでユニコーン到達

BenchmarkとEQT Venturesが主導

累計調達額は2億ドルに到達

初号機にNvidia H100搭載し打ち上げ済み

技術課題と競争環境

Starship商用化は2028〜29年見込み

冷却・電力・GPU同期が技術的障壁

SpaceXが100万基の衛星計画を申請

Aetherflux・Google等も参入相次ぐ

詳細を見る

Starcloudは宇宙空間にデータセンターを構築する米スタートアップで、シリーズAラウンドで1億7000万ドルを調達しました。BenchmarkとEQT Venturesが主導し、評価額は11億ドルに達してユニコーン企業の仲間入りを果たしています。

同社は2025年11月にNvidia H100 GPU搭載の初号衛星を打ち上げ済みで、軌道上でのAIモデル訓練に世界で初めて成功したと発表しています。今年後半には複数GPU搭載の「Starcloud 2」を打ち上げ予定で、Nvidia Blackwellチップも搭載されます。

将来的にはSpaceXのStarshipから打ち上げる3トン級の「Starcloud 3」を開発し、地上データセンターとコスト競争力を持つ水準を目指します。ただしStarshipの商用運用開始は2028〜29年と見込まれ、実現時期には不確実性が残ります。

技術面では宇宙空間での冷却・電力生成・GPU間同期が大きな課題です。Starcloud 2には民間衛星として最大級の放熱パネルを搭載予定で、大規模な訓練ワークロードには衛星間レーザー通信の確立が不可欠とされています。

競合環境も激化しており、Aetherflux、Googleの「Project Suncatcher」、Aetheroなどが宇宙データセンター事業に参入しています。さらにSpaceX自身も100万基の分散コンピューティング衛星の許可を米政府に申請しており、業界最大の脅威となる可能性があります。

出典：TechCrunch

ScaleOps、クラウド計算資源の自動最適化で1.3億ドル調達

2026年03月30日 NVIDIA Salesforce 投資家 GPU インフラクラウドスタートアップ投資資金調達買収評価額 Adobe

資金調達の概要

シリーズCで1.3億ドル調達

企業評価額は8億ドル

Insight Partnersが主導

累計調達額は約2.1億ドル

事業と成長

クラウドコスト最大80%削減

前年比450%超の成長

Adobe・Salesforce等が導入

年内に人員を3倍以上へ

詳細を見る

ScaleOpsは2026年3月、クラウドやAIインフラの計算資源をリアルタイムで自動管理・再配分するソフトウェアを手がけるスタートアップで、シリーズCラウンドで1億3000万ドルを調達したと発表しました。企業評価額は8億ドルに達しています。

ラウンドはInsight Partnersが主導し、Lightspeed Venture Partners、NFX、Glilot Capital Partnersなど既存投資家も参加しました。同社の累計調達額は約2億1000万ドルとなり、急速な事業拡大を裏付けています。

同社はNvidia に買収されたRun:ai出身のYodar Shafrir氏が2022年に共同創業しました。Kubernetesの静的な設定では動的なAIワークロードに対応しきれず、GPUの遊休や過剰プロビジョニングが常態化している課題に着目しています。

ScaleOpsのプラットフォームは完全自律型で、アプリケーションの文脈を理解し、手動設定なしにインフラを最適化します。競合のCast AIやKubecostとの差別化として、本番環境向けに設計され導入直後から稼働する点を強調しています。

顧客にはAdobe、Wiz、DocuSign、Salesforceなど大手企業が名を連ね、前年比450%超の成長を記録しました。今後は新製品の投入とプラットフォーム拡張を進め、AI時代に不可欠な自律型インフラ管理の実現を目指すとしています。

出典：TechCrunch

モジュール型AIデータセンター、駐車場に2000基超のGPU配備可能に

2026年03月30日 NVIDIA GPU インフラデータセンター韓国

即応型の設計思想

プレハブ式で6カ月展開

従来型は建設に2〜3年必要

トラック輸送で現地設置

液冷対応で高負荷AI処理

主要プレイヤーの動向

Duos Edge AIが576GPU搭載ポッド展開

韓国LG CNSが釜山で最大50基計画

HPE・Vertiv・Schneiderも参入

2030年までに市場規模倍増の予測

詳細を見る

Duos Edge AIとLG CNSは、プレハブ型のモジュール式AIデータセンターを発表しました。従来2〜3年かかるデータセンター建設を約6カ月に短縮し、駐車場のような場所にも迅速にGPUクラスターを展開できる仕組みです。

Duos Edge AIのコンピュートポッドは長さ約17メートル、幅約3.8メートルで、1基あたり576基のGPUを搭載します。AI基盤企業Hydra Hostとの契約では4基計2,304GPU、将来的に4,608GPUへの倍増も視野に入れています。液冷システムにより高負荷なAIワークロードに対応します。

韓国のLG CNSも同様のアプローチで、576基のNvidia GPU搭載モジュールを開発しました。年内に4,600GPU超対応の拡張版を投入予定で、釜山では最大50基を展開し合計2万8,000GPU超の大規模拠点を計画しています。

コスト面でも優位性があり、Duosの5メガワット規模のモジュール展開は約2,500万ドルで構築可能です。メガワットあたりのコストは大規模施設の約半額とされ、許認可が簡易な小規模展開では地域の反対も受けにくいとされています。

HPE、Vertiv、Schneider Electricも同分野に参入しており、Grand View Researchの調査では2030年までにモジュール型データセンター市場は倍増すると予測されています。AI需要の急拡大に対し、迅速かつ柔軟なインフラ供給手段として注目が高まっています。

出典：spectrum.ieee.org

Cohere、オープンウェイト音声認識モデルを公開

2026年03月30日 OpenAI Qwen ワークフローエンジニアオープンウェイトリスク GPU インフラ音声中国日本ドイツ韓国エージェント Hugging Face ElevenLabs Cohere RAG

モデルの性能

WER 5.42%で業界最高精度

Whisper Large v3の7.44%を大幅に上回る

14言語対応（日本語含む）

20億パラメータ、Apache-2.0ライセンス

企業導入の優位性

自社GPUでのローカル運用が可能

データ残留リスクなしの音声処理

RAGやエージェント構築に即戦力

商用利用を前提とした設計

詳細を見る

Cohereは、オープンウェイトの自動音声認識モデル「Transcribe」を公開しました。20億パラメータのこのモデルは、平均単語誤り率（WER）5.42%を達成し、企業の音声パイプラインに直接組み込める精度を実現しています。

TranscribeはHugging FaceのASRリーダーボードで首位を獲得しました。OpenAIのWhisper Large v3（WER 7.44%）、ElevenLabs Scribe v2（5.83%）、Qwen3-ASR（5.76%）をいずれも上回り、商用レベルの音声認識における新たな基準を打ち立てています。

最大の特徴は、Apache-2.0ライセンスによる商用利用と自社インフラでのローカル運用が可能な点です。従来のクローズドAPIではデータの外部送信が避けられず、オープンモデルでは精度が不十分という課題がありましたが、Transcribeはその両方を解決しています。

対応言語は英語、フランス語、ドイツ語、日本語、中国語、韓国語など14言語です。会議理解を測るAMIデータセットで8.15%、多様なアクセントを評価するVoxpopuliで5.87%と、幅広い音声タスクで高い性能を示しています。

企業のエンジニアリングチームにとって、RAGパイプラインやエージェントワークフローに音声入力を組み込む際、データ残留リスクやレイテンシの問題なく本番運用できる選択肢が加わりました。早期導入企業からは、精度とローカル展開の両立が高く評価されています。

出典：VentureBeat

Cohereが音声認識モデルをオープンソースで公開

2026年03月26日 Flow 推論 GPU 音声中国日本ドイツ韓国 IPO エージェント Hugging Face ElevenLabs Cohere

モデルの特徴

20億パラメータの軽量設計

消費者向けGPUで自己運用可能

14言語対応（日本語含む）

1分間で525分の音声処理

性能と展開

WER 5.42で業界最高精度

人間評価で勝率61%達成

企業向け基盤Northに統合予定

API無料提供を開始

詳細を見る

エンタープライズAI企業のCohereは2026年3月26日、同社初の音声モデル「Transcribe」をオープンソースで公開しました。議事録作成や音声分析などの用途を想定した自動音声認識モデルで、APIを通じて無料で利用できます。

Transcribeは20億パラメータと比較的軽量に設計されており、消費者向けGPUでの自己ホスティングが可能です。英語、日本語、中国語、韓国語など14言語に対応し、1分間で525分の音声を処理できる高いスループットを実現しています。

Hugging FaceのOpen ASRリーダーボードでは、平均単語誤り率（WER）5.42を達成し、Zoom Scribe v1やIBM Granite 4.0、ElevenLabs Scribe v2などの競合モデルを上回りました。人間評価者による精度・一貫性・実用性の評価でも平均勝率61%を記録しています。

一方で、ポルトガル語、ドイツ語、スペイン語の文字起こしでは競合に後れを取る課題も残っています。Cohereは今後、同モデルを企業向けエージェント統合基盤「North」やマネージド推論プラットフォーム「Model Vault」にも展開する計画です。

音声認識モデル市場は、GranolaやWispr Flowなどの議事録・ディクテーションアプリの需要拡大に伴い急成長しています。Cohereは2025年の年間経常収益が2億4000万ドルに達したとされ、IPOの可能性も示唆されており、今回の音声モデル投入で事業領域の拡大を図ります。

出典：TechCrunch

NVIDIA連携のAI工場が電力網の安定化に成功

2026年03月25日 NVIDIA シミュレーション GPU インフラデータセンターエネルギー電力需要イギリス投資

柔軟な電力制御の実証

96基のBlackwell Ultra GPUで検証

ピーク時に30%電力削減を40秒以内で実現

200超の電力目標に100%準拠

高優先度ワークロードの性能維持を確認

電力網への貢献

接続待ち時間の大幅短縮が可能に

インフラ過剰投資の抑制に寄与

一般消費者の電気料金抑制に貢献

バージニアで実運用開始予定

詳細を見る

Emerald AIはNVIDIA、EPRI、National Grid、Nebiusと連携し、AIデータセンターが電力需要のピーク時に自律的に消費電力を調整する「電力柔軟型AIファクトリー」の実証実験をロンドンで実施しました。英国初の本格的な取り組みとして注目されています。

実験ではNVIDIA Blackwell Ultra GPU96基を搭載したクラスターで本番レベルのAIワークロードを稼働させ、EPRIとNational Gridが落雷や風力発電低下などの電力網ストレスシナリオをシミュレーションしました。Emerald AIのConductorプラットフォームが電力削減指示を受けて自動制御を行います。

象徴的なテストとして、EURO 2020のハーフタイムに英国全土で約1ギガワットの需要急増を引き起こした「TVピックアップ現象」を再現しました。AIクラスターは瞬時に電力消費を抑制し、電力網の衝撃吸収装置として機能することが実証されました。

結果として200以上の電力目標に対し100%の準拠率を達成し、高優先度のAIワークロードはピークスループットを維持しました。National Gridのスティーブ・スミス氏は、GPUだけでなくCPUやIT機器全体の総消費電力を含む包括的なテストに成功したと評価しています。

この技術により、AIデータセンターは大規模なインフラ増強を待たずに既存の電力網へ迅速に接続できるようになります。Emerald AIとNVIDIAは今年中にバージニア州のAurora AIファクトリーで実運用を開始する予定であり、英国でも経済成長を後押しする基盤として期待が高まっています。

出典：NVIDIA公式

Google、AI推論メモリを6分の1に圧縮するTurboQuantを公開

2026年03月25日 Google DeepSeek Cloudflare 数学 Llama 推論半導体 GPU コンテキストベンチマーク Mistral RAG

TurboQuantの技術

KVキャッシュを6分の1に圧縮

演算性能は8倍に向上

極座標変換のPolarQuantが基盤

1ビットQJLで誤差を補正

企業への影響

推論コスト50%以上削減の可能性

再学習不要で既存モデルに即適用

メモリ半導体株に下落圧力

ローカル実行の民主化が加速

詳細を見る

Google Researchは2026年3月25日、大規模言語モデルの推論時に肥大化するKVキャッシュを極限まで圧縮するアルゴリズム群「TurboQuant」を公開しました。メモリ使用量を平均6分の1に削減し、注意計算の性能を8倍に高めることで、企業の推論コストを50%以上削減できる可能性があります。

TurboQuantは二段階の数学的手法で構成されています。第一段階のPolarQuantはベクトルを極座標に変換し、ランダム回転後の角度分布が予測可能になる性質を利用して、従来必要だった正規化定数のオーバーヘッドを排除します。第二段階では1ビットのQJL変換が残留誤差をゼロバイアスで補正し、圧縮後も統計的に同等の注意スコアを維持します。

10万トークンの「Needle-in-a-Haystack」ベンチマークでは、Llama-3.1-8BやMistral-7Bで非圧縮モデルと同等の完全な再現率を達成しました。コミュニティでも即座に検証が進み、MLXへの移植テストでは2.5ビット量子化でKVキャッシュを約5分の1に削減しつつ精度劣化ゼロが確認されています。

発表後、MicronやWestern Digitalなどメモリ半導体大手の株価に下落傾向が見られました。ソフトウェアだけでメモリ需要を6分の1にできるとの見方が市場に広がった形ですが、効率化が利用拡大を招くジェヴォンズのパラドックスを指摘する声もあります。Cloudflare CEOは「GoogleのDeepSeekモーメント」と評しました。

企業にとっての最大の利点は、再学習なしで既存の微調整済みモデルにそのまま適用できる点です。推論サーバーのGPU台数削減、長文コンテキストのRAG活用拡大、オンプレミスでの大規模モデル運用が現実的になります。ただし現時点では研究段階であり、トレーニング時のメモリ問題は対象外である点には留意が必要です。

出典：VentureBeat | Ars Technica | TechCrunch

GM、自動運転AIを実時間の5万倍速で訓練する技術を公開

2026年03月25日シミュレーション気象強化学習 GPU 画像

シミュレーション基盤

毎日数百万回の高精度シミュレーション実行

実時間の5万倍速で訓練可能

毎秒1000kmの走行をGPU上で再現

拡散モデルで天候・時間帯を自在に変換

VLAモデルと安全性

二重周波数VLAで判断と制御を両立

敵対的テストでニアミス30%削減

認識論的不確実性で未知シナリオを自動検出

詳細を見る

ゼネラルモーターズ（GM）は、自動運転AIの訓練において、実時間の5万倍の速度でシミュレーションを行う独自技術「GM Gym」と抽象環境「Boxworld」を開発したことを公表しました。毎秒1000kmの走行データを生成し、安全性と走行性能を検証しています。

自動運転における最大の課題は、道路上のマットレスや突然の停電など、極めてまれな「ロングテール」シナリオへの対応です。GMはこれらの予測困難な状況を大規模シミュレーションで体系的に再現し、AIの対処能力を鍛えるアプローチを採用しています。

GMが開発したVision Language Action（VLA）モデルは、インターネット規模の知識を活用して画像を理解し、警察官の手信号が赤信号より優先されるといった高度な状況判断を可能にします。さらに「二重周波数VLA」により、高レベルの意味理解と瞬時の車両制御を両立させています。

合成データ生成では、拡散モデルを用いた「Seed-to-Seed Translation」技術により、晴天の走行データを雨天や霧の夜間に変換できます。また敵対的テストツール「SHIFT3D」で知覚システムの弱点を事前に発見し、再訓練によりニアミス衝突を30%以上削減する成果を上げています。

GMは強化学習で獲得した抽象的な運転方策を、「On Policy Distillation」技術で実車モデルに効率的に転移させています。わずか30分の蒸留で12時間分の強化学習に相当する知識を移植でき、シミュレーションと実世界の橋渡しを実現しています。

出典：spectrum.ieee.org

Armが自社初のデータセンター向けCPUを発表、Metaが初期顧客に

自社チップ参入の衝撃

Arm AGI CPUを正式発表

初の自社シリコン製品で歴史的転換

Metaが最初の顧客に決定

SK Hynix・Cisco・SAP等も採用予定

技術と市場戦略

世界最高の電力効率を実現

エージェントAI処理に最適化

TSMCで製造、サーバー参照設計も提供

Intel・AMDのx86市場を直接侵食

詳細を見る

Armは、同社初となる自社設計・製造のデータセンター向けCPU「Arm AGI CPU」を発表しました。これまで設計ライセンス事業に徹してきた同社にとって、自社シリコンへの参入は創業以来最大の戦略転換となります。初期顧客としてMetaが採用を決定しています。

CEO のルネ・ハース氏は、ArmがIP企業から「コンピュートプラットフォーム企業」に進化したと説明しました。MicrosoftがSurfaceでWindows エコシステムを強化し、GoogleがPixelでAndroidを推進するのと同様に、Armも自社チップでエコシステム全体を底上げする狙いがあると述べています。

新CPUの最大の強みは電力効率です。モバイルチップで培った省電力設計のDNAを活かし、AI時代のデータセンターが直面するエネルギー問題に対応します。さらに、エージェントAIの実行にはGPUではなくCPUが不可欠であり、この需要拡大がArm参入の追い風となっています。

製造はTSMCが担当し、Super MicroやFoxconnと協力してサーバー参照設計も提供します。ハース氏は約2,000人のエンジニアを関連部門に増員したと明かしました。既存のコンピュートサブシステムで実績があるため、初号機から高い完成度を自信を持って見込んでいます。

この動きはIntelとAMDのx86勢にとって直接的な脅威となります。一方、NvidiaのVera CPUもArm ベースであるため、Arm エコシステムの拡大はNvidiaにもプラスに働くとハース氏は主張。ソフトバンクの孫正義会長とは日常的に連携しており、今回の決断もパートナーとしての議論を経て進めたと語りました。

出典：WIRED

NVIDIA、GPU動的割当ドライバをKubernetesコミュニティに寄贈

2026年03月24日 Google NVIDIA マイクロソフト AWS エコシステム推論 GPU クラウド

DRAドライバ寄贈の概要

CNCFへの寄贈でコミュニティ主導に移行

KubeCon Europeで正式発表

GPU資源の動的再構成が可能に

MIG・MPS技術による効率的共有を実現

業界連携と今後の展開

AWS・Google・Red Hat等主要企業が協力

KAIスケジューラがCNCFサンドボックス入り

Kata ContainersでGPU機密計算に対応

Grove発表で推論ワークロード管理を強化

詳細を見る

NVIDIAは、KubeCon Europe 2026において、GPU向け動的リソース割当（DRA）ドライバをCloud Native Computing Foundation（CNCF）に寄贈すると発表しました。これにより同ドライバはベンダー管理からKubernetesプロジェクト配下のコミュニティ主導へと移行します。

DRAドライバは、Kubernetes上でAIワークロードを実行する企業にとって重要な基盤ソフトウェアです。Multi-Instance GPUやMulti-Process Serviceに対応し、GPUリソースの効率的な共有と動的な再構成を可能にします。大規模AIモデルの学習に不可欠なマルチノードNVLinkもネイティブサポートしています。

AWS、Google Cloud、Red Hat、Broadcom、Canonical、Microsoft、SUSE等の主要クラウド企業がこの取り組みに協力しています。Red HatのCTOクリス・ライト氏は、オープンソースが企業AI戦略の中核になると述べ、標準化の意義を強調しました。CERNも科学計算における貢献を評価しています。

NVIDIAはさらに、CNCFのConfidential Containersコミュニティと連携し、Kata ContainersへのGPUサポートを導入しました。これにより、ワークロードの分離による機密計算が可能となり、データ保護を強化したAI処理を実現します。

加えて、高性能AIワークロードスケジューラ「KAI Scheduler」がCNCFサンドボックスプロジェクトに採用されました。NVIDIA Dynamo 1.0に続き、Kubernetes上でGPUクラスタの推論ワークロードを宣言的に管理できるオープンソースツール「Grove」も発表され、エコシステムの拡充が進んでいます。

出典：NVIDIA公式

元Appleデザイナー、AI新興企業Harkで次世代インターフェース開発

2026年03月24日 NVIDIA Meta Apple デザインエンジニア創業者デザイナー GPU ハードウェアウェアラブルロボット Tesla

Harkの構想と戦略

モデル・HW・UIを一体開発

常時記憶型の個人知能製品

創業者が1億ドル自己出資

今夏にAIモデル初公開予定

デザイン思想と差別化

ウェアラブルAIには懐疑的

知能を基盤層に組み込む設計

万人向けから個人最適のUXへ

日常の煩雑作業を自動化

詳細を見る

連続起業家Brett Adcock氏が設立したAIラボ「Hark」が、マルチモーダルなエンドツーエンドモデルとハードウェア、インターフェースを一体設計し、常時記憶を持つパーソナル知能製品を開発していることを明らかにしました。

デザイン責任者には元Apple工業デザイナーのAbidur Chowdhury氏を招聘しています。同氏はiPhone Airなどのデザインチームを率いた実績を持ち、Adcock氏のビジョンに共感して昨秋Appleを退社しました。今夏にAIモデルの初回リリースを予定しています。

Chowdhury氏は既存デバイスがAI以前の設計に留まっていると指摘し、知能をアプリやウェブサイトではなく「すべてのものの基盤層」に据えるべきだと主張しています。フォーム記入や旅行予約など日常の煩雑な作業の自動化を目指します。

同氏はウェアラブルAIやカメラ付きピンなどのデバイスには懐疑的な立場を示し、「人間とインターフェースの間にレイヤーを置くのは適切ではない」と述べています。従来の「万人向けの最適解」から個人ごとの最適体験へのUX転換を提唱しています。

Harkには45名のエンジニアとデザイナーが在籍し、Meta AIの研究者やApple・Tesla出身者が含まれます。4月には数千基のNVIDIA GPUクラスターの運用を開始予定です。Adcock氏のロボット企業Figureとのモデル共有も進んでおり、1億ドルの自己資金を元手にAI消費者製品の競争に参入します。

出典：TechCrunch

AI専用ワークステーション競争が本格化、液冷技術が鍵に

2026年03月24日 NVIDIA Meta エコシステム Llama 半導体 GPU インフラエネルギー

デスクトップAI競争の構図

Tenstorrentが約1万ドルのQuietBox 2発表

独自Blackholeチップ4基で384GB搭載

Nvidia DGX Stationは748GBで約8.5万ドル

消費電力と価格で明確な差別化戦略

液冷がAIインフラの必須要件に

空冷と液冷のハイブリッドは構造的負債

ストレージも液冷ネイティブ設計が必要

SolidigmがNvidiaと液冷SSD共同開発

業界標準化がOCPとSNIA主導で進行

詳細を見る

Tenstorrentは、独自開発のBlackhole AIアクセラレータ4基を搭載したワークステーション「QuietBox 2」を発表しました。価格は約9,999ドルで、2026年第2四半期に発売予定です。

QuietBox 2は合計384GBのメモリを備え、MetaのLlama 3.1 70Bを毎秒約500トークンで実行できます。消費電力は最大1,400Wで、一般家庭のコンセントでも使用可能な設計となっています。

対するNvidiaのDGX Stationは最大748GBのメモリを搭載し、MSI製モデルは約8万5,000ドルで販売されます。消費電力は1,600Wと、家庭用ブレーカーの上限に近い水準です。

Tenstorrentはオープンソースのソフトウェアスタックとx86互換のAMDプラットフォームを採用し、Nvidiaの独自CUDAエコシステムとは異なるアプローチで差別化を図っています。

一方、AI基盤の液冷化も急速に進んでいます。Solidigmは、空冷と液冷の混在が二重コスト構造と熱設計の矛盾を生む「構造的負債」だと指摘しています。

SolidigmはNvidiaと協力し、液冷環境でホットスワップ可能なSSDの開発を進めています。ストレージがGPUの冷却資源を圧迫しない設計が、AI基盤の性能最大化に不可欠とされています。

業界ではOCPやSNIAが主導し、液冷AIシステムの相互運用性を確保する標準化が進行中です。カスタム冷却から標準準拠の設計への移行が加速しています。

出典：VentureBeat | spectrum.ieee.org

NVIDIA RTX PRO 6000がデータサイエンス業務を最大50倍高速化

2026年03月23日 NVIDIA ワークフローエンジニア GPU クラウドデータセンターセキュリティベンチマーク

主要な性能優位

CPU比最大50倍の処理速度

結合処理が5分から14秒に短縮

グループ集計が4分から4秒に

最大4基のGPU搭載に対応

企業導入の利点

ゼロコード変更でPython高速化

100超のAIアプリに最適化対応

オンプレミスでデータ保護強化

クラウド依存低減でコスト削減

詳細を見る

PNY Technologiesは、NVIDIAの最新ワークステーション向けGPU「RTX PRO 6000 Blackwell Workstation Edition」を発表しました。データサイエンスとAIワークフロー向けに設計され、デスクトップ環境でデータセンター級の性能を実現します。

データサイエンティストの業務時間の大半を占めるデータ準備工程において、NVIDIA CUDA-Xのオープンソースライブラリ「cuDF」を活用することで、従来のCPUベースツールと比較して最大50倍の高速化を達成します。データクレンジングや特徴量エンジニアリングが数時間から数秒に短縮されます。

具体的なベンチマークでは、結合操作がCPUの約5分からGPUでわずか14秒に、高度なグループ集計処理は約4分から4秒へと劇的に改善されました。GPU加速のXGBoostによりモデル訓練も数週間から数分に短縮されます。

セキュリティとコスト面では、計算処理をデータセンターやクラウドからオフロードすることで、機密データをオンプレミスに保持しながら運用コストを削減できます。最大4基のGPUを搭載可能で、大規模データセットの処理や高度な可視化にも対応します。

企業向けにはNVIDIA AI Workbenchを通じて、デスクトップ・クラウド・データセンター間でのシームレスな共同作業環境を提供します。CUDA-XやNVIDIA Enterpriseソフトウェアスタックにより、Pythonワークフローのゼロコード変更での高速化と100以上のAI対応アプリケーションをサポートします。

出典：spectrum.ieee.org

MS Research が問う「AIは本当に知的か」脳との根本的差異

2026年03月23日マイクロソフト GPU エネルギートランスフォーマー

トランスフォーマーの本質

注意機構がトークン間関係を学習

フィードフォワード層に知識を蓄積

LLMは無損失圧縮器として機能

入力の複雑さに関わらず一定計算量を消費

脳の分散アーキテクチャ

10万個の皮質コラムが並列処理

4日でシナプスの30%が入れ替わる

12ワットで70兆シナプスを駆動

感覚運動ループで常時予測・学習を実行

知能の定義と今後の展望

LLMは凸凹な知能を持つと評価

3歳児の継続学習能力はLLMに欠如

分散型コラムの大規模化が超知能への道筋

詳細を見る

Microsoft ResearchのDoug Burger氏が新ポッドキャスト「The Shape of Things to Come」を開始し、第1回では同社研究員のNicolò Fusi氏とNumentaのSubutai Ahmad氏を招き、現在のAIシステムが本当に知的かを議論しました。

トランスフォーマーの仕組みについてFusi氏は、注意層がトークン間の関係性を把握し、フィードフォワード層が知識を格納する二層構造だと説明しました。さらにLLMを情報理論的な無損失圧縮器と捉える見方を示し、より良い生成モデルの構築は最適な圧縮器の探索と等価であると主張しました。

Ahmad氏は脳の千脳理論を解説し、大脳新皮質には約10万個の皮質コラムが存在し、それぞれが独立した感覚運動処理システムとして完全な世界モデルを構築していると述べました。成体マウスの研究では4日ごとにシナプスの30%が入れ替わることが判明しており、脳は投機的に新しい接続を形成し不要なものを刈り込む継続学習を行っています。

効率性の面では、脳はわずか約12ワットで70兆のシナプスを動かしている一方、同規模のパラメータを持つモデルをGPUで動かすとメガワット級の電力が必要になるとAhmad氏は指摘しました。ニューロンの活動は常時わずか1%で、接続も1%しか使われておらず、極めてスパースな表現が省エネの鍵となっています。

Fusi氏はLLMを「既に知的だが凸凹な知能」と評価する一方、Ahmad氏は3歳児が持つ好奇心と継続学習能力がLLMには欠けていると反論しました。Burger氏は小型の「デジタル皮質コラム」を大量に配置し感覚運動ループで結合する構想を提示し、Ahmad氏はそれこそが超知能システム構築の道筋だが、現在のアプローチとは根本的に異なると結論づけました。

出典：Microsoft公式

Gimlet Labs、マルチシリコン推論基盤で8000万ドル調達

2026年03月23日 NVIDIA Cerebras 創業者投資家推論半導体 GPU ハードウェアクラウドデータセンタースタートアップスタンフォード投資提携資金調達エージェント Intel Sequoia

資金調達と事業概要

Series Aで8000万ドル調達

Menlo Venturesが主導

累計調達額9200万ドル

従業員数30名体制

技術と市場展開

異種チップ横断の推論分散

推論速度を3〜10倍高速化

NVIDIA・AMD等6社と提携

8桁ドルの売上で公開開始

詳細を見る

Gimlet Labsは、AI推論のボトルネックを解消する「マルチシリコン推論クラウド」を開発するスタートアップです。スタンフォード大学の非常勤教授でもあるZain Asgar氏が率い、Menlo Ventures主導で8000万ドルのシリーズAラウンドを完了しました。

同社の技術は、AIワークロードをCPU・GPU・高メモリシステムなど異なる種類のハードウェアに同時分散させるオーケストレーションソフトウェアです。エージェント型AIの各処理ステップが求める計算資源の特性に応じて、最適なチップに自動的に割り振ります。

マッキンゼーの試算では、2030年までにデータセンター投資は約7兆ドルに達する見通しです。一方でAsgar氏は、既存ハードウェアの稼働率がわずか15〜30%にとどまると指摘し、「数千億ドル規模の遊休資源が無駄になっている」と述べています。

Gimlet Labsは2025年10月に8桁ドル規模の売上を伴って正式ローンチしました。その後4カ月で顧客基盤は倍増し、大手モデルメーカーや超大規模クラウド事業者も含まれています。NVIDIA、AMD、Intel、ARM、Cerebras、d-Matrixとも提携済みです。

共同創業者チームは以前、Kubernetes向け可観測性ツールPixieを開発し、2020年にNew Relicに売却した実績があります。今回のラウンドにはSequoiaのBill Coughran氏やIntel CEOLip-Bu Tan氏ら著名エンジェル投資家も参加しています。

出典：TechCrunch

ByteDance、AIエージェント基盤DeerFlow 2.0をOSS公開

2026年03月23日 OpenAI Anthropic GitHub LangChain DeepSeek Slack Flow Llama GPU セキュリティ医療 MIT エージェント ByteDance Ollama SaaS

DeerFlow 2.0の特徴

MIT Licenseで商用利用可

Docker sandbox内で安全に実行

複数サブエージェントの並列処理

長時間タスクの自律実行に対応

企業導入の論点

完全ローカル運用が可能

GPU・VRAMの大量確保が必要

ByteDance製で規制審査の対象に

独立セキュリティ監査は未実施

詳細を見る

ByteDanceは2026年2月、AIエージェント・オーケストレーション基盤「DeerFlow 2.0」をMITライセンスでオープンソース公開しました。複数のAIサブエージェントを統合し、数時間に及ぶ複雑なタスクを自律的に実行できる「SuperAgent」フレームワークです。

DeerFlow 2.0はDockerベースのサンドボックス環境を採用し、エージェントの実行をホストシステムから完全に分離しています。ブラウザ、シェル、永続ファイルシステムを備えた独立環境で、bashコマンドの実行やファイル操作を安全に行えます。

技術的にはLangGraph 1.0とLangChainで全面的に書き直された新設計です。OpenAI、Anthropic、DeepSeek、Ollamaなどモデル非依存で動作し、Kubernetes上での分散実行やSlack・Telegram連携にも対応しています。

公開後わずか数週間でGitHub上で3万9千スターを獲得し、ML研究者やインフルエンサーの間で急速に注目が高まっています。SaaS型エージェントサービスの価格破壊につながるとの見方も広がっています。

一方、企業導入には課題も残ります。セットアップにはDocker・YAML・CLIの知識が必要で、独立したセキュリティ監査は未実施です。またByteDanceが開発元であるため、金融・医療・防衛など規制業種ではソフトウェアの出自に関する審査が求められる可能性があります。

出典：VentureBeat

Amazon独自AIチップTrainium、OpenAIやAnthropicが採用拡大

2026年03月22日 OpenAI Anthropic NVIDIA Amazon Cerebras Claude エンジニア推論半導体 GPU クラウド提携買収 TSMC

Trainiumの競争力

Nvidia比で最大50%低コスト

全世代合計140万チップ出荷済

Anthropic Claudeが100万チップ利用

PyTorch対応で移行障壁を低減

技術革新と戦略

3nmプロセスでTSMC製造

液冷技術で省エネ実現

OpenAIに2GWの計算容量提供

Cerebrasとの推論連携も発表

詳細を見る

Amazonは自社開発AIチップ「Trainium」の開発拠点であるオースティンのチップラボを報道陣に初公開しました。同チップはOpenAIとの500億ドル規模の提携やAnthropicのClaude運用を支える中核技術として注目を集めています。

Trainiumは当初モデル学習向けに開発されましたが、現在は推論処理にも最適化されています。Amazon Bedrockサービスの推論トラフィックの大半をTrainium2が処理しており、全世代で140万チップが稼働中です。Anthropicは100万チップ以上を利用しています。

最新のTrainium3はTSMC製の3ナノメートルプロセスで製造され、独自設計のNeuronスイッチによりチップ間をメッシュ接続し遅延を大幅に削減します。新型Trn3 UltraServerは従来のクラウドサーバーと比較して最大50%のコスト削減を実現するとAmazonは説明しています。

NvidiaのGPUからの移行障壁を下げるため、TrainiumはPyTorchに対応しており「1行の変更と再コンパイルで動作する」とエンジニアは説明します。さらにAmazonはCerebras Systemsとの提携も発表し、推論チップの連携による低遅延AI処理を目指しています。

開発チームは2015年にAmazonが約3.5億ドルで買収したイスラエルのAnnapurna Labsを母体とし、10年以上の設計実績があります。CEOのAndy Jassy氏はTrainiumを「数十億ドル規模のビジネス」と公言しており、次世代のTrainium4の開発も進行中です。

出典：TechCrunch

Nvidia株価、GTC基調講演中に下落ウォール街はAIバブル懸念

2026年03月21日 NVIDIA Amazon Groq AWS AI導入ネットワーク専門家投資家推論半導体 GPU インフラロボットシリコンバレー投資バブルエージェント

市場の反応と背景

GTC基調講演中に株価下落

AI市場の不確実性を投資家が警戒

シリコンバレーと温度差鮮明

前四半期の売上高は前年比73%増

Huangの強気見通し

Blackwell等で1兆ドルの受注見込み

AIエージェント市場を35兆ドルと予測

Amazonが100万GPU購入計画

物理AI・ロボット市場は50兆ドル規模

専門家の見解

イノベーション速度が新たな不確実性を創出

企業AI導入は変曲点に近づく

詳細を見る

Nvidiaのジェンセン・ファンCEOが2026年3月のGTC基調講演で2時間半にわたり新技術を発表しましたが、講演開始とともに時価総額4兆ドルの同社株価は下落しました。ウォール街の投資家はAIの将来に対する不確実性とバブル懸念を重視した形です。

ファンCEOは講演で、ゲーム用グラフィックス技術、ネットワークインフラ、自動運転契約、Groqと共同設計した推論高速化チップなど多数の新製品を披露しました。AIエージェント市場を35兆ドル、物理AI・ロボット市場を50兆ドルと見積もり、BlackwellとVera Rubinチップだけで2027年末までに1兆ドルの受注を見込むと述べました。

調査会社Futurumのダニエル・ニューマンCEOは、AIの技術革新の速度が市場に「新たな不確実性」をもたらしていると分析します。企業のAI導入に関する否定的な報道は半年前のデータに基づいており、実際には急速に普及が進んでいると指摘しました。

Nvidiaの業績はこの見方を裏付けています。前四半期の売上高は前年比73%増と目標を大幅に上回り、AmazonがAWS向けに2027年末までに100万GPUを購入する計画も今週確認されました。Zacks Investment Researchのケビン・クック氏は「経済全体がNvidiaを中心に回っている」と評しています。

バブルの可能性は否定できないものの、GTCで示された不確実性はNvidia固有の問題ではなくAI市場全体の課題です。同社はプラットフォーム企業として世界経済を牽引し続けており、ファンCEOは「100兆ドル規模の産業がすべてここにある」と自信を示しました。

出典：TechCrunch

NVIDIA、多言語・マルチモーダル対応のAI安全モデルを公開

2026年03月20日 NVIDIA アシスタント推論 GPU コンテンツ画像中国日本韓国エージェントベンチマーク基盤モデル Hugging Face Gemma LoRA

モデルの特徴

140以上の言語に対応

画像とテキストの複合判定

Gemma-3 4B基盤で軽量高速

文化的文脈を考慮した安全判定

性能と実用性

有害コンテンツ検出精度84%

競合モデルの約半分の遅延

12言語で安定した精度を維持

8GB VRAMのGPUで動作可能

詳細を見る

NVIDIAは2026年3月20日、マルチモーダル・多言語対応のコンテンツ安全モデル「Nemotron 3 Content Safety 4B」をHugging Faceで公開しました。従来の英語中心・テキストのみの安全モデルが抱えていた文化的ニュアンスの見落としを解消することを目指しています。

同モデルはGemma-3 4B-ITビジョン言語基盤モデル上に構築され、LoRAアダプターで安全分類機能を追加しています。テキスト・画像またはその両方を入力として受け取り、安全・危険の判定を出力します。アシスタント応答が含まれる場合はやり取り全体の文脈を評価し、複合的に生じる違反も検出できます。

訓練データにはNemotron Safety Guard Dataset v3の文化的に適応された多言語データ、人手でアノテーションされたマルチモーダルデータ、合成データなどが含まれます。英語データは日本語・中国語・韓国語を含む12言語に翻訳され、実運用環境を反映した多言語カバレッジを実現しています。

ベンチマーク評価では、Polyguard・VLGuard・MM SafetyBenchなど主要テストで平均84%の精度を達成し、同規模のオープン安全モデルを上回りました。さらにポルトガル語やロシア語など訓練外言語でも強力なゼロショット汎化性能を示しています。推論遅延は大型モデルの約半分で、エージェントループやリアルタイム用途にも適しています。

4月にはNVIDIA NIMとしても提供予定で、GPU最適化された推論マイクロサービスとして本番環境への迅速な導入が可能になります。企業のAIエージェントやグローバルサービスにおけるコンテンツモデレーション基盤として、実用性の高い選択肢となりそうです。

出典：Hugging Face

NVIDIA、次世代AI基盤Vera Rubinと1兆ドル売上見通しを発表

Vera Rubin全貌

7チップ統合の新プラットフォーム

専用CPU「Vera」とBlueField-4搭載

次世代Feynmanアーキテクチャも予告

宇宙データセンター構想を公開

エージェントAI戦略

OpenClaw対応を全社に要求

NemoClawでエージェント安全運用

Nemotron Coalitionで6モデル群展開

産業・医療への展開

BYD・日産ら自動運転新提携

IGX Thorで手術ロボット本格化

AWS・Microsoftと大規模GPU展開

詳細を見る

NVIDIAは2026年3月16日、サンノゼで開催したGTC 2026の基調講演で、創業者兼CEOのジェンスン・ファン氏が次世代フルスタックAIプラットフォーム「Vera Rubin」を発表し、2025年から2027年にかけて少なくとも1兆ドルの売上を見込むと宣言しました。

Vera Rubinは7つのチップ、5つのラックスケールシステム、1台のスーパーコンピュータで構成されるエージェントAI向け統合プラットフォームです。専用CPU「Vera」と新ストレージ基盤「BlueField-4 STX」を搭載し、さらに次世代アーキテクチャ「Feynman」や宇宙AI「Space-1」構想も予告されました。

エージェントAI分野では、オープンソースのOpenClawを全企業が戦略として持つべきだと強調し、エンタープライズ向けにポリシー制御やガードレールを備えた「NemoClaw」スタックとOpenShellランタイムを発表しました。DGX SparkやDGX Stationと組み合わせ、デスクトップで自律エージェントを安全に構築・運用できる環境を提供します。

クラウド基盤ではAWSが100万台超のNVIDIA GPUを展開する大型提携を発表し、MicrosoftもAzureデータセンターにVera Rubin NVL72を世界初導入しました。物理AI領域ではBYD、日産、現代、吉利が自動運転プラットフォームに参画し、Uberとのロボタクシー配車連携も明らかになりました。

医療分野では初のヘルスケア特化型物理AIプラットフォームを公開し、外科手術ロボット向けにCosmos-HやGR00T-Hなどのモデル群を整備しました。Johnson & JohnsonやCMR Surgicalが早期採用を表明しています。さらにAlphaFoldタンパク質構造データベースの大規模拡張や、Nemotronモデルによるデジタルヘルスエージェントの構築支援など、ライフサイエンス領域でも多数の発表がありました。

オープンモデル戦略では「Nemotron Coalition」を立ち上げ、言語・推論、ワールドモデル、ロボティクス、自動運転、バイオ、気象の6つのフロンティアモデル群でパートナーを結集しました。基調講演ではディズニーのオラフが物理AIで自律歩行するデモで締めくくり、シミュレーションから現実世界への移行を印象づけました。

出典：NVIDIA公式 | TechCrunch | TechCrunch

NvidiaのDLSS 5、ゲーマーと開発者から猛反発

2026年03月20日 NVIDIA デザインエンジニア GPU DLSS

生成AIの暴走

顔の自動変更に批判殺到

開発者の意図を無視する仕様

「Snapchatフィルター」と揶揄

アーティファクト問題も発覚

業界の反応

Capcom・Ubisoftも事前把握なし

CEO黄氏「ゲーマーは完全に間違い」

弱いGPUでの動作こそ本来の価値

数年後には標準機能化の見方も

詳細を見る

Nvidiaは2026年3月のGTC（GPU Technology Conference）で、ゲーム内キャラクターの顔を生成AIで写実的に変換する新技術「DLSS 5」を発表しました。従来のDLSSがフレームレート向上を目的としていたのに対し、今回は視覚的な変更を自動で加える点が大きな転換点となっています。

デモでは『バイオハザード』『アサシンクリード』『スターフィールド』などの人気タイトルが使用されましたが、SNS上では「ポルノ顔」「yassified（過度に美化）」などと酷評が相次ぎました。キャラクターの目が大きくなり、唇がふっくらし、鼻の形まで変わるなど、原作のデザイン意図を逸脱した変化が問題視されています。

ゲーム開発者からも懸念の声が上がっています。『Call of Duty』シリーズに携わったアーティストのジェームズ・ブレイディ氏は「アーティストの創造性と意図を根本から損なう」と批判しました。さらにCapcomやUbisoftの開発者は、デモの内容を事前に知らされておらず、一般公開と同時に初めて見たと報じられています。

批判に対しNvidiaのCEOジェンスン・ファン氏は「ゲーマーは完全に間違っている」と反論しました。しかしデモはNvidia最上位のGeForce RTX 5090を2枚使用しており、旧世代GPUの性能底上げという実用的な訴求がなかった点も失望を招いています。

オープンソースゲーム機Arduboyの開発者ケビン・ベイツ氏は、技術的偉業と認めつつも「現時点ではAI企業としての力を誇示するためにやらざるを得ないもの」と分析しています。一方で「数年後にはデフォルト機能になり、誰も気にしなくなる」とも予測しており、不気味の谷を越えた先の社会的受容が今後の焦点となりそうです。

出典：WIRED

NVIDIA、1日で専用埋め込みモデルを構築するレシピ公開

2026年03月20日 OpenAI NVIDIA 検索推論ファインチューニング GPU RAG

手法と成果

GPU1台・1日未満で完結

ラベル不要の合成データ生成

ハードネガティブマイニング採用

Recall・NDCG@10が10%以上改善

企業実績と展開

AtlassianがJiraで検証済み

Recall@60が0.751→0.951に向上

NIMでOpenAI互換API展開

6コマンドで全工程実行可能

詳細を見る

NVIDIAは2026年3月20日、汎用埋め込みモデルを特定ドメインに最適化するファインチューニングレシピを公開しました。GPU1台と1日未満の学習時間で、手動ラベリング不要で高品質なドメイン特化型埋め込みモデルを構築できます。

本レシピの核心は、LLMを使った合成データ生成パイプラインです。ドメイン文書をLLMに読み込ませ、複雑さの異なる質問・回答ペアを自動生成します。マルチホップクエリにも対応し、複数文書にまたがる推論を学習データに反映できます。

学習効果を高めるため、ハードネガティブマイニングを導入しています。正解に近いが誤りである文書を特定し、モデルが微妙な違いを学習できるようにします。正解スコアの95%以上の候補は偽陰性の可能性があるため自動除外されます。

Atlassianは本レシピをJiraデータセットに適用し、Recall@60が0.751から0.951へと26.7%向上する成果を確認しました。数百万のRovoユーザーの検索精度が直接的に改善されています。

完成したモデルはONNXやTensorRTに変換後、NVIDIA NIMコンテナでOpenAI互換APIとして本番展開できます。既存のRAGパイプラインにコード変更なしで組み込める点が実用上の大きな利点です。

出典：Hugging Face

Nvidia開発者会議でAI推論チップ発表、MetaはVRメタバース縮小

2026年03月19日 NVIDIA Meta Groq OpenClaw エンジニア投資家推論半導体 GPU データセンター投資買収エージェント Tesla Jensen Huang

Nvidia GTC最新動向

Groqとの推論専用チップ発表

AI半導体収益1兆ドル予測

NemoClawエージェント基盤公開

宇宙データセンター構想も発表

Tesla・Meta の岐路

TeslaFSD移行条件変更で炎上

熱狂的ファン層にも離反の兆し

Meta Horizon WorldsVR版縮小

Reality Labs累計770億ドル損失

詳細を見る

Nvidiaは年次開発者会議GTCにおいて、Groqとの200億ドル規模のライセンス契約に基づくAI推論専用チップを発表しました。CEOジェンスン・フアン氏はAI半導体の収益機会が2027年までに少なくとも1兆ドルに達するとの見通しを示しています。

注目すべきは、これまでAI業界が汎用GPUを転用してきたのに対し、今年初めてAI専用設計チップが登場する点です。Groqのチップと組み合わせることで推論の速度向上とコスト削減が実現し、Nvidia顧客にとって大きな効率改善が期待されます。

Nvidiaはさらに企業向けAIエージェント基盤「NemoClaw」を発表しました。OpenClaw等のオープンソースエージェント技術が急速に普及するなか、各社がエージェント分野の主導権を競っており、MetaもAIエージェントSNS「Moltbook」を買収するなど動きが加速しています。

一方Teslaでは、生涯利用可能とされた完全自動運転（FSD）の新車移行条件が突然変更され、3月31日までの納車が必要とされたことで忠実なファン層から強い反発が起きています。インフルエンサーを含む熱狂的支持者の離反も報じられ、株価を支えてきた個人投資家基盤への影響が懸念されます。

MetaはVRメタバースの象徴であったHorizon WorldsのQuest版を段階的に縮小すると発表しました。Reality Labs部門は4年間で推定770億ドルの損失を計上しており、社名変更からわずか4年半での事実上の撤退となります。同社は今後AIへの投資を本格化させる方針です。

出典：WIRED

透明マント技術がAIデータセンターを革新へ

2026年03月19日 NVIDIA 半導体 GPU データセンターエネルギースタートアップ

光メタマテリアルの実用化

Lumotiveが液晶メタマテリアルチップ発表

可動部なしで光ビームを精密制御

標準半導体プロセスで商用化を実現

1万×1万ポートへの拡張が可能

光コンピューティングへの応用

Neurophosが光変調器を1万分の1に小型化

NVIDIA Blackwell比50倍の演算密度

2028年中頃の量産開始を計画

詳細を見る

約20年前に開発された光メタマテリアル技術を応用し、米スタートアップ2社がAI向けデータセンターの高速化と光コンピューティングの実用化に挑んでいます。従来「透明マント」として知られた技術が、いよいよ産業応用の段階に入りました。

ワシントン州のLumotiveは、銅構造と液晶素子を組み合わせたメタマテリアルチップを3月19日に発表しました。標準的な半導体製造技術で作られたこのチップは、可動部なしで光ビームの方向・形状・分割をリアルタイムに制御できます。

同社のチップは業界標準の256×256ポートに対応するだけでなく、1万×1万ポートへの拡張も可能とされています。既存の光スイッチ技術が抱えるシリコンフォトニクスのエネルギー効率問題やMEMSの信頼性問題を解決する手段として注目されています。

テキサス州のNeurophosは、メタマテリアルを用いて従来の1万分の1サイズの光変調器を開発しました。5×5ミリのチップ上に1000×1000の光変調器アレイを搭載し、完全にCMOSプロセスで製造できる点が強みです。

Neurophosは自社チップがNVIDIAのBlackwell世代GPUと比べ演算密度・電力効率ともに50倍を達成すると主張しています。2026年中にハイパースケーラー各社が概念実証チップを評価予定で、2028年前半のシステム投入、同年中頃の量産開始を目指しています。

出典：spectrum.ieee.org

DataRobotとNebiusがAIエージェント基盤で提携

2026年03月19日 NVIDIA LangChain AI導入 Llama 推論プロンプトインジェクション GPU クラウド認証コンプライアンスデプロイ提携エージェントプロンプト MCP LlamaIndex RAG

共同基盤の特徴

AI Factoryで数日で本番化

Nebius GPU基盤で低遅延推論実現

トークン従量課金で実験コスト削減

50以上のNIMモデルをワンクリック展開

ガバナンスと運用

OpenTelemetry準拠の監視体制

OAuth 2.0とRBACによる統合認証

Workload APIで任意コンテナ展開

コンプライアンス自動レポート生成

詳細を見る

DataRobotとNebiusは、企業向けAIエージェントの開発・運用・ガバナンスを加速する共同ソリューション「AI Factory for Enterprises」を発表しました。従来数カ月かかっていたエージェントの本番化を数日に短縮することを目指します。

NebiusはAI専用設計のGPU クラウド基盤を提供し、H100からGB300 NVL72まで最新のNVIDIA GPUを搭載しています。汎用クラウドで課題となる「ノイジーネイバー問題」を排除し、ベアメタル性能と予測可能なスループットを実現します。

DataRobotのAgent Workforce Platformは、LangChain・CrewAI・LlamaIndexなど主要フレームワークに対応し、MCPやマネージドRAGも標準搭載しています。独自のノードアーキテクチャツール（NAT）により、YAMLベースでエージェントを構造的に定義・テストできます。

ガバナンス面では、OpenTelemetry準拠のトレーシングによりエージェント実行パスの可視化を実現します。PII検出・プロンプトインジェクション防御・毒性検知などのガードレールを標準装備し、監視データから規制対応文書を自動生成する機能も備えています。

両社は2026年3月16〜19日にサンノゼで開催されるNVIDIA GTC 2026で本ソリューションを展示予定です。NebiusのToken Factoryによる従量課金モデルで実験段階のコストを抑え、本番移行時にはNIM専用デプロイへシームレスに切り替えられる点が、企業の段階的AI導入を後押しします。

出典：datarobot.com

Nvidiaのネットワーク事業が四半期110億ドル規模に急成長

2026年03月18日 NVIDIA ネットワーク推論半導体 GPU データセンター買収コンテキスト

急成長の全体像

四半期売上110億ドル達成

前年同期比267%増の急拡大

通年で310億ドル超の売上

Ciscoの年間売上を1四半期で上回る規模

技術と戦略の要

2020年のMellanox買収が起点

NVLink・InfiniBand等を統合

フルスタック一括提供が差別化要因

次世代への布石

Rubinプラットフォームで新チップ6種発表

詳細を見る

Nvidiaのネットワーキング事業が急成長を遂げ、2026年度第4四半期に110億ドルの売上を計上しました。前年同期比267%増という驚異的な伸びで、GPU事業に次ぐ同社第2の収益柱に成長しています。

この事業の起源は、Nvidiaが2020年に70億ドルで買収したイスラエルのネットワーキング企業Mellanoxにあります。CEOのジェンスン・ファン氏は当時から「データセンターが新たなコンピューティングの単位になる」と見据え、GPU事業の欠けたピースとしてネットワーク技術を取り込みました。

同事業はGPU間通信を担うNVLink、インネットワークコンピューティング基盤のInfiniBandスイッチ、AI向けイーサネットSpectrum-Xなど、AIファクトリー構築に必要な技術群を網羅しています。フルスタックで提供できる点が他社にない強みです。

Zacks Investment Researchのアナリストは、Nvidiaのネットワーク事業がCiscoのネットワーク事業の年間売上をわずか1四半期で上回る規模だと指摘しています。にもかかわらず、チップ事業やゲーム事業ほどの注目を集めていない「隠れた巨人」となっています。

2026年3月のGTC基調講演では、新たにRubinプラットフォームを発表し、AIスーパーコンピュータ向け新チップ6種を公開しました。推論コンテキストメモリストレージや高効率なSpectrum-X Ethernet Photonicsスイッチなど、次世代製品の投入でさらなる成長を目指しています。

出典：TechCrunch

SnapがNVIDIA GPU活用でA/Bテスト処理を4倍高速化

2026年03月17日 Google NVIDIA ワークフローエンジニア専門家 GPU

GPU移行の成果

処理速度4倍に向上

日次コスト76%削減達成

必要GPU数5500→2100台に圧縮

毎朝3時間で10PB超を処理

実験基盤の拡張

月間数千件のA/Bテスト実施

約6000指標を自動測定

コード変更なしでGPU移行完了

全社的なパイプライン展開を計画

詳細を見る

Snapは、月間9.4億人超のアクティブユーザーを抱えるSnapchatの機能開発において、NVIDIA cuDFによるGPUアクセラレーションをGoogle Cloud上で導入し、A/Bテストのデータ処理速度を4倍に高速化したことを発表しました。

同社は毎月数千件のA/Bテストを実施しており、毎朝3時間の処理ウィンドウで10ペタバイト超のデータをApache Sparkフレームワークで処理しています。cuDFの採用により、既存のSparkアプリケーションをコード変更なしでGPU上に移行することが可能になりました。

2026年1月から2月の内部データによると、Google Kubernetes Engine上のNVIDIA GPUを活用することで、CPUのみのワークフローと比較して日次コストを76%削減することに成功しています。これにより、実験規模の拡大に伴うコスト増大の課題を解決しました。

NVIDIAの専門家と連携し、Google CloudのG2仮想マシン上でNVIDIA L4 GPUを用いたパイプライン最適化を実施した結果、当初見込みの約5500台からわずか2100台の同時稼働GPUで処理を完了できるようになりました。

Snap社のシニアエンジニアリングマネージャーであるPrudhvi Vatala氏は、今後A/Bテストチーム以外の幅広い本番ワークロードにもSparkアクセラレーターを展開する計画を示しており、GPU活用によるデータ基盤の全社的な変革を進める方針です。

出典：NVIDIA公式

Mamba 3がTransformerを約4%上回る新アーキテクチャとして公開

2026年03月17日 NVIDIA エコシステムワークフロー推論 GPU ハードウェアエージェントコンテキストベンチマークトランスフォーマー

技術的な3つの革新

状態サイズ半減で同等精度を実現

複素数値SSMで推論能力向上

MIMO方式でGPU稼働率を最大化

Apache 2.0で商用利用可能

企業への影響

推論スループットが実質2倍に

エージェント型ワークフローに最適化

ハイブリッド構成が主流へ

量子化やICLに課題も残存

詳細を見る

カーネギーメロン大学のAlbert Gu氏とプリンストン大学のTri Dao氏らの研究チームが、新たなAIアーキテクチャ「Mamba 3」をApache 2.0ライセンスのオープンソースとして公開しました。Transformer対比で約4%の言語モデリング性能向上を達成しています。

Mamba 3は状態空間モデル（SSM）の最新版で、従来のTransformerが抱える二次計算量と線形メモリ要求の課題を解決します。前世代のMamba 2が学習速度の最適化に注力したのに対し、Mamba 3は「推論ファースト」の設計哲学を採用し、GPUの遊休時間を最小化する構造となっています。

技術面では3つの革新が柱です。第一に指数台形離散化により2次精度の近似を実現。第二に複素数値SSMと「RoPEトリック」で、従来不可能だったパリティ判定などの論理推論タスクを解決。第三にMIMO方式により演算強度を最大4倍に引き上げ、メモリ律速の推論フェーズでもGPUの計算コアをフル活用します。

企業にとっての最大の利点は総保有コストの削減です。15億パラメータ規模でベンチマーク平均精度57.6%を達成し、Transformerを2.2ポイント上回りました。状態サイズを半減しながら同等の予測品質を維持するため、同一ハードウェアで推論スループットが実質2倍になります。リアルタイムエージェントや長文コンテキスト処理に特に有効です。

ただし課題も残ります。Transformer エコシステムの成熟度には及ばず、量子化では標準的な4ビット手法で精度が大幅低下する問題があります。またインコンテキスト学習ではAttention機構に劣る面もあり、業界はNvidiaのNemotron-3のようなMambaとAttentionを組み合わせたハイブリッドアーキテクチャへ収束しつつあります。

出典：VentureBeat

NVIDIA、40億パラメータの軽量AI「Nemotron 3 Nano 4B」公開

2026年03月17日 NVIDIA Llama 推論強化学習ハルシネーション GPU プライバシーデプロイトランスフォーマー教師 Hugging Face

モデルの特徴

Mamba-Transformer混合構造採用

40億パラメータでエッジ動作対応

指示追従性能で同クラス最高水準

VRAM使用量が同クラス最小

圧縮と学習手法

9BモデルからNemotron Elasticで圧縮

2段階蒸留で精度回復を実現

3段階強化学習でツール使用を強化

FP8・Q4_K_M量子化で効率向上

詳細を見る

NVIDIAは2026年3月17日、40億パラメータの軽量言語モデル「Nemotron 3 Nano 4B」をオープンソースで公開しました。Mamba-Transformer混合アーキテクチャを採用し、エッジデバイスでの高効率な推論を実現するモデルです。

同モデルはJetson ThorやJetson Orin Nano、DGX Spark、RTX GPUなど幅広いNVIDIAプラットフォームで動作します。低VRAM環境でも高速な応答が可能で、データプライバシーの確保と柔軟なデプロイを両立しています。

開発にはNemotron Elasticフレームワークが用いられ、9Bパラメータの親モデルから構造化プルーニングと知識蒸留により4Bモデルへ圧縮されました。ルーターが自動的に最適な枝刈り構成を決定し、従来手法より低コストで高精度なモデルを実現しています。

学習では教師あり微調整に続き、指示追従とツール呼び出しに特化した3段階の強化学習パイプラインを適用しました。推論時の思考なしでもタスク解決に優れ、ハルシネーション回避性能も高い水準を達成しています。

量子化ではFP8版で最大1.8倍のレイテンシ改善を達成し、Q4_K_M GGUF版はJetson Orin Nano 8GBで毎秒18トークンを出力します。Transformers、vLLM、TRT-LLM、Llama.cppなど主要推論エンジンに対応し、Hugging Faceで公開中です。

出典：Hugging Face

NVIDIA、GTC 2026でローカルAI向け新モデルと開発基盤を発表

2026年03月17日 NVIDIA Qwen OpenClaw アシスタントクリエイティブ画像編集推論ファインチューニング GPU クラウドプライバシー画像エージェントコンテキストベンチマーク Mistral

新オープンモデル群

Nemotron 3 Super、1200億パラメータ

Mistral Small 4がDGX Sparkに対応

Nemotron 3 Nano 4B、軽量PC向け

Qwen 3.5最適化も同時発表

エージェント基盤整備

NemoClaw、OpenClaw向けOSS公開

ローカル推論でプライバシー確保

Unsloth Studioでファインチューニング簡易化

クリエイティブAI強化

LTX 2.3が2.1倍高速化

FLUX.2 Klein 9Bの画像編集2倍速

詳細を見る

NVIDIAは2026年3月のGTC 2026において、ローカル環境で動作するAIエージェント向けの新しいオープンモデル群と開発基盤を発表しました。DGX SparkやRTX PCでクラウド級の性能を実現することを目指しています。

Nemotron 3 Superは1200億パラメータのオープンモデルで、アクティブパラメータは120億に抑えられています。エージェントAI向けベンチマークPinchBenchで85.6%を記録し、同クラスのオープンモデルで最高スコアを達成しました。

小型モデルとしてはNemotron 3 Nano 4Bが発表され、GeForce RTX搭載PCでもエージェントやアシスタントの構築が可能になります。AlibabaのQwen 3.5シリーズ向けの最適化も同時に提供され、26万2000トークンの大規模コンテキストウィンドウに対応します。

エージェント実行基盤としてNemoClawがオープンソースで公開されました。OpenClaw向けの最適化スタックで、ローカルモデルによる推論でトークンコストを削減し、OpenShellランタイムによるセキュアな実行環境を提供します。

ファインチューニングの分野では、Unsloth StudioがウェブベースのUIで公開され、500以上のAIモデルに対応します。従来は高度な技術知識が必要だったカスタマイズ作業を、ドラッグ＆ドロップの直感的な操作で完結できるようになりました。

クリエイティブAI分野では、LightricksのLTX 2.3がNVFP4・FP8対応で2.1倍の高速化を実現し、Black Forest LabsのFLUX.2 Klein 9Bも画像編集が最大2倍に高速化されました。RTX GPU向けに最適化されたモデルが続々と登場しています。

出典：NVIDIA公式

Nvidia、LLMメモリを20分の1に圧縮する新技術KVTCを発表

2026年03月17日 NVIDIA Qwen アシスタントワークフロー Llama 推論 GPU コーディングエージェント RAG

KVTCの技術概要

JPEG由来の変換符号化を応用

PCAでKVキャッシュの冗長性を除去

動的計画法で次元別にビット配分を最適化

GPU上でエントロピー符号化を並列実行

性能と導入効果

20倍圧縮で精度低下1%未満

最初のトークン生成を最大8倍高速化

モデル重み変更不要で既存環境に導入可能

適用と今後の展望

長文脈・マルチターン用途に最適

vLLM互換のDynamoフレームワークに統合予定

詳細を見る

Nvidiaの研究チームは、大規模言語モデルの会話履歴管理に必要なメモリを最大20分の1に圧縮する新技術「KVTC（KV Cache Transform Coding）」を発表しました。モデルの重みを一切変更せずに適用でき、最初のトークン生成までの遅延も最大8倍短縮されます。

LLMがマルチターン会話を処理する際、過去のトークンの数値表現を保持するKVキャッシュが不可欠ですが、長文脈タスクでは数ギガバイトに膨張します。これがGPUメモリを圧迫し、同時ユーザー数やレイテンシの深刻なボトルネックとなっていました。

KVTCはJPEGなどのメディア圧縮で実績のある変換符号化の手法をAIに応用しています。まず主成分分析（PCA）でKVキャッシュの特徴量を重要度順に整列し、動的計画法で各次元に最適なビット数を割り当てた後、NvidiaのnvCOMPライブラリを用いてGPU上で高速にエントロピー符号化を実行します。

Llama 3やQwen 2.5など1.5Bから70Bパラメータの多様なモデルで検証した結果、20倍圧縮時でも精度低下は1ポイント未満にとどまりました。一方、既存手法のKIVIやGEARは5倍圧縮で大幅な精度劣化が発生し、KVTCの優位性が明確に示されています。

NvidiaのAdrian Lancucki氏は、コーディングアシスタントやエージェント推論ワークフロー、反復的RAGが理想的な適用先と述べています。今後KVTCはDynamoフレームワークのKV Block Managerに統合され、vLLMなど主要な推論エンジンとの互換性が確保される予定です。

出典：VentureBeat

NVIDIAと通信大手6社がAIグリッド構築へ

2026年03月17日 NVIDIA エコシステムネットワークデザイン推論 GPU クラウドデータセンターエネルギーロボットインド提携エージェント Arm

通信網のAI基盤化

AT&T;がIoT向けAIグリッド構築

Comcastが低遅延ブロードバンド活用

Spectrumが1000超のエッジ拠点展開

T-MobileがエッジAI応用を検証

分散推論の実用化

Personal AIが500ms以下の遅延実現

Linker Visionが都市運営を変革

Decartが12ms以下のリアルタイム映像生成

エコシステム拡大

Cisco・HPEがフルスタック提供

Blackwell GPU搭載システムで展開

詳細を見る

NVIDIAは GTC 2026において、AT&T;、Comcast、Spectrum、Akamai、Indosat、T-Mobileの通信大手6社と連携し、地理的に分散したAI推論基盤「AIグリッド」の構築を発表しました。通信網をAI配信の中核に据える構造的転換が進んでいます。

世界の通信事業者は約10万カ所の分散データセンターを運営しており、余剰電力は100ギガワット超に達します。AIグリッドはこの既存資産を活用し、ユーザーやデバイスの近くでAI推論を実行することで、応答速度の向上とトークンあたりコストの最適化を同時に実現します。

AT&T;はCiscoおよびNVIDIAと提携し、IoT向けAIグリッドを構築します。公共安全などミッションクリティカルな用途で、リアルタイムのAI推論をネットワークエッジで処理し、機密データの顧客管理を維持しながら検知・警報・対応を高速化します。

ComcastはNVIDIAやHPEと連携し、会話エージェントやクラウドゲーミングの需要急増時でも高スループットと低コストを維持できることを実証しました。Akamaiは4400超のエッジ拠点に数千基のBlackwell GPUを配備し、リクエストごとに最適な計算層へ振り分けるオーケストレーション基盤を構築しています。

インドネシアのIndosatは国内にソブリンAI基盤を整備し、現地語対応のAIプラットフォーム「Sahabat-AI」を展開します。T-Mobileはスマートシティや配送ロボットなど物理AIの実証を進めており、セルサイトが5G通信と分散AI処理を両立できることを示しています。

NVIDIAはAIグリッドリファレンスデザインを公開し、分散拠点でのAI展開に必要なコンピューティング・ネットワーキング・ソフトウェアの構成要素を定義しました。Cisco、HPE、Armada、Rafayなどのパートナーがフルスタックソリューションの市場投入を進めており、通信事業者がAIバリューチェーンで新たな収益源を確保する動きが加速しています。

出典：NVIDIA公式

GPU電力最適化の新興Niv-AIが1200万ドル調達しステルスから登場

2026年03月17日 NVIDIA 半導体 GPU データセンターエネルギー米国スタートアップ投資

電力浪費の実態

GPUの電力サージで最大30%性能低下

ミリ秒単位の需要変動が制御困難

余剰電力確保やスロットリングで投資効率悪化

Niv-AIの技術戦略

ラックレベルのミリ秒センサー配備

AIモデルで電力負荷を予測・同期

データセンターと送電網の知能層構築

事業展開の見通し

シードで1200万ドル調達

6〜8カ月以内に米国DCで稼働予定

詳細を見る

イスラエル・テルアビブ発のスタートアップNiv-AIが、GPU 電力消費を最適化する技術で1200万ドルのシード資金を調達し、ステルスモードから正式に登場しました。CEOのTomer Timor氏とCTOのEdward Kizis氏が昨年設立した同社です。

AIデータセンターでは、GPUが計算タスクと通信を切り替える際にミリ秒単位の電力サージが頻発しています。NVIDIAのジェンスン・ファンCEOも「AI工場では膨大な電力が浪費されている」と指摘しており、業界全体の深刻な課題となっています。

データセンター事業者はサージに対応するため、一時的な蓄電設備の導入やGPU使用率のスロットリングを余儀なくされています。いずれの対策も高価なチップへの投資効率を最大30%低下させ、収益機会の損失につながっています。

Niv-AIはまずラックレベルの高精度センサーを設置し、ミリ秒単位でGPUの電力プロファイルを把握します。収集データをもとにAIモデルを構築し、データセンター全体の電力負荷を予測・同期する「コパイロット」の開発を目指しています。

同社は6〜8カ月以内に米国の複数のデータセンターで運用を開始する予定です。Glilot CapitalやGrove Venturesなどが出資しており、新規DC建設が用地確保やサプライチェーンの問題で難航するなか、既存施設の容量を最大限に引き出す「知能レイヤー」として注目を集めています。

出典：TechCrunch

Mistral AI、独自モデル構築基盤「Forge」を発表

2026年03月17日 NVIDIA 強化学習ファインチューニング事前学習事後学習 GPU クラウドポリシーデプロイ欧州提携 ARR エージェント基盤モデル教師 Mistral Palantir

Forgeの主要機能

フルサイクルのモデル訓練を支援

事前学習から強化学習まで対応

オンプレミス環境での完全運用が可能

データ非公開のまま独自モデル構築

競合との差別化戦略

組込み型AIサイエンティストを派遣

クラウド大手のAPI微調整を超える深度

Apache 2.0のオープンソース基盤

Nvidia連合で基盤モデル共同開発

詳細を見る

仏Mistral AIは2026年3月17日、企業が自社の独自データを使ってAIモデルを構築・カスタマイズできるエンタープライズ向けモデル訓練基盤「Forge」を発表しました。NvidiaのGTCカンファレンスで披露され、クラウド大手への対抗姿勢を鮮明にしています。

Forgeは従来のファインチューニングAPIを大幅に超え、大規模内部データでの事前学習、教師ありファインチューニング、DPO、ODPOによるポストトレーニング、さらに社内ポリシーや評価基準に沿った強化学習パイプラインまでフルサイクルで対応します。製品責任者のサラマンカ氏は「AIサイエンティストはもはやファインチューニングAPIを使っていない」と述べています。

早期導入企業の事例では、Ericssonがレガシーコードの現代化に活用し、年単位の手作業を大幅に短縮しました。また古文書の欠損テキスト復元や、ヘッジファンドの独自定量言語への対応など、汎用モデルでは解決できない高度な専門領域での成果が報告されています。

ビジネスモデルは顧客が自社GPU上で訓練する場合、ライセンス料とデータパイプラインサービス料を課金し、計算資源は非課金とします。最大の特徴は「フォワードデプロイド・サイエンティスト」と呼ばれる組込み型AI研究者の派遣で、Palantir型の伴走支援モデルを採用しています。

同週にはMistral Small 4、オープンソースコードエージェントLeanstral、NvidiaとのNemotron Coalition参画も発表されました。ARRは2026年中に10億ドル突破を見込んでおり、ASMLや欧州宇宙機関など機密性の高い組織との提携を通じ、「AIを借りるのではなく所有する」という戦略を加速させています。

出典：VentureBeat | TechCrunch

H Company、高スループット型PC操作AIモデルHolotron-12Bを公開

2026年03月17日 NVIDIA 推論 GPU 画像エージェントコンテキストベンチマークトランスフォーマー教師 Hugging Face Computer Use

推論性能の飛躍

SSMハイブリッド構造を採用

H100単体で8.9kトークン/秒達成

Holo2-8B比で2倍超のスループット

KVキャッシュ不要でメモリ効率向上

エージェント性能

WebVoyagerスコア35.1%→80.5%に向上

UI操作・画面理解の精度大幅改善

NVIDIA Nemotronベースを微調整

次世代Nemotron 3 Omniも予告

詳細を見る

H Companyは2026年3月17日、NVIDIAのNemotron-Nano-2 VLモデルをベースにしたマルチモーダルコンピュータ操作エージェントモデル「Holotron-12B」をHugging Faceで公開しました。本モデルは画面認識・操作に特化し、量産環境での高スループット推論を目指して開発されたものです。

Holotron-12Bの推論効率を支えるのは、状態空間モデル（SSM）とアテンション機構のハイブリッドアーキテクチャです。従来のTransformerが抱える二次計算コストを回避し、長いコンテキストや複数画像を含むエージェント的ワークロードで優れたスケーラビリティを実現しています。

ベンチマーク評価では、WebVoyagerスコアがベースモデルの35.1%から80.5%へと大幅に向上しました。H100 GPU1枚でvLLMを使用した実験では、同時接続100の条件下で8.9kトークン/秒のスループットを記録し、前モデルHolo2-8Bの5.1kトークン/秒を大きく上回りました。

学習は2段階で実施されました。NVIDIAのNemotron-Nano-12B-v2-VLを起点に、H Company独自の画面理解・ナビゲーションデータで教師あり微調整を行い、約140億トークンで最終チェックポイントを構築しています。ライセンスはNVIDIA Open Model Licenseで公開されています。

今後の展開として、NVIDIAが同日発表したNemotron 3 Omniをベースとした次世代モデルの開発も予告されました。SSM-AttentionとMoEアーキテクチャを活用し、企業向けの大規模自律型コンピュータ操作への展開を目指すとしています。

出典：Hugging Face

ロシュがNVIDIA Blackwell GPU3500基超を導入し創薬加速

2026年03月16日 NVIDIA AI活用デジタルツイン GPU インフラクラウド品質保証画像米国欧州医療創薬基盤モデル

創薬へのAI活用

Blackwell GPU3500基超導入

ハイブリッドクラウド環境を構築

低分子プログラムの90%にAI統合

創薬期間を25%短縮した事例

製造・診断への展開

Omniverseで工場デジタルツイン構築

ノースカロライナ新工場で先行導入

デジタル病理で疾患パターン検出

AIを全社基盤能力として定着

詳細を見る

スイス製薬大手ロシュは、NVIDIA GTC 2026において、NVIDIA Blackwell GPUを3500基以上導入し、米国と欧州のハイブリッドクラウド環境でAI基盤を大幅に拡張すると発表しました。製薬企業として公表ベースで最大規模のGPU インフラとなります。

創薬部門では、傘下のジェネンテックが推進する「Lab-in-the-Loop」戦略の中核にAIを据えています。対象となる低分子プログラムの約90%にAIが統合されており、あるオンコロジー向け分解誘導剤の設計では開発期間を25%短縮する成果を上げています。

別のプログラムでは、従来2年以上かかっていたバックアップ分子の開発をわずか7カ月で完了しました。NVIDIA BioNeMoプラットフォームを活用し、生物学的・分子的基盤モデルの学習と微調整を自社データで行う体制を整えます。

NVIDIA Omniverseを用いた製造施設のデジタルツイン構築にも着手しています。ノースカロライナ州の新しいGLP-1製造工場では、稼働前に仮想環境でシステムの最適化を進めており、規制文書作成や品質保証、生産スケジューリングにもAI活用を拡大しています。

診断事業では、デジタル病理分野で大量の画像から微細な疾患パターンを検出する技術を開発中です。NVIDIA NeMo Guardrailsを用いて医療グレードのAI安全性を確保しつつ、ラボ運営の効率化や臨床意思決定支援にもAIを展開し、創薬から診断・製造まで一貫したAI活用体制の構築を目指しています。

出典：NVIDIA公式

NvidiaがOpenClaw企業版NemoClawを発表、安全性が最大課題に

2026年03月16日 NVIDIA OpenClaw エンジニアリスク脆弱性データ漏洩 GPU ハードウェアセキュリティ認証コーディングエージェントプロンプト

NemoClaw概要

Nvidiaが企業向けNemoClawを発表

OpenClawにセキュリティ機能を統合

ハードウェア非依存でオープンソース公開

現段階はアルファ版リリース

深刻な脆弱性

企業の22%で無許可運用が判明

公開インスタンスが3万件超に急増

3つの攻撃面は既存防御で検知不能

悪意あるスキルが824件に拡大

防御と今後

14日間で6つの防御ツールが登場

スキル仕様の標準化提案が進行中

詳細を見る

Nvidiaのジェンスン・ファンCEOは2026年3月のGTC基調講演で、オープンソースAIエージェント基盤OpenClawに企業向けセキュリティ機能を組み込んだNemoClawを発表しました。すべての企業にOpenClaw戦略が必要だと訴えています。

NemoClawはOpenClaw 開発者ピーター・シュタインベルガー氏と共同開発され、任意のコーディングエージェントやオープンソースAIモデルを活用できます。Nvidia製GPUに限定されずハードウェア非依存で動作する点が特徴ですが、現時点ではアルファ版の位置づけです。

一方でOpenClawのセキュリティリスクは深刻です。Token Securityの調査では企業顧客の22%がIT部門の承認なくOpenClawを運用しており、Bitsightは2週間で3万件超の公開インスタンスを確認しました。ClawHubスキルの36%にセキュリティ欠陥が含まれるとの報告もあります。

特に危険な攻撃面は3つあります。第一にランタイム意味的データ抽出で、エージェントが正規APIを通じて悪意ある指示に従います。第二にクロスエージェント文脈漏洩で、1つのプロンプト注入が全エージェントチェーンを汚染します。第三に相互認証なしの信頼チェーンで、侵害されたエージェントが他の全エージェントの権限を継承します。

緊急対応としてClawSecやIronClawなど6つの防御ツールが14日間で開発されましたが、いずれも上記3つの根本的脆弱性は解消できていません。セキュリティ顧問のオライリー氏はスキルを実行ファイルとして扱う能力仕様の標準化を提案しており、企業はOpenClawが既に社内環境に存在する前提でリスク対策を講じる必要があります。

出典：TechCrunch | VentureBeat

NvidiaがGTC 2026で次世代AI基盤「Vera Rubin」と企業向けエージェント戦略を発表

Vera Rubin基盤の全容

7チップ構成の新プラットフォーム量産開始

推論スループットBlackwell比10倍、トークン単価10分の1

Blackwell・Rubin合計で受注1兆ドル見通し

OpenAI・Anthropic・Meta等が採用表明

エージェントAI戦略

Agent ToolkitをOSSで公開

Adobe・Salesforce・SAP等17社が採用

NemoClawでローカルAIエージェント実行

ハード・ソフトの垂直統合

DGX Stationで1兆パラメータモデルをデスクトップ実行

Dynamo 1.0が推論OS として主要クラウド採用

詳細を見る

Nvidiaは2026年3月16日、サンノゼで開催した年次カンファレンスGTC 2026において、次世代AIコンピューティング基盤「Vera Rubin」プラットフォームを発表しました。CEOのジェンスン・フアン氏は基調講演で、BlackwellとRubinチップの受注見通しが1兆ドルに達すると宣言しています。

Vera RubinはVera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9、BlueField-4 DPU、Spectrum-6、Groq 3 LPUの7チップで構成されます。旗艦モデルのNVL72ラックは72基のRubin GPUを搭載し、Blackwell比で推論スループットがワットあたり最大10倍、トークン単価は10分の1を実現するとしています。

Anthropicのダリオ・アモデイCEO、OpenAIのサム・アルトマンCEO、Metaらがプラットフォーム採用を表明しました。AWS、Google Cloud、Microsoft Azure、Oracle Cloudの4大クラウドがすべて提供を予定しており、80社超の製造パートナーがシステムを構築します。Microsoftはハイパースケールクラウドとして初めてVera Rubin NVL72を稼働させたと発表しました。

ソフトウェア面では、企業向けAIエージェント構築基盤「Agent Toolkit」をオープンソースで公開しました。Adobe、Salesforce、SAP、ServiceNow、CrowdStrikeなど17社が採用を表明し、セキュリティランタイム「OpenShell」やコスト最適化のAI-Qを統合した包括的な開発環境を提供します。推論OS「Dynamo 1.0」も主要クラウドに採用されています。

ハードウェアでは、GB300チップ搭載のデスクトップ型スーパーコンピュータ「DGX Station」を発表しました。748GBの統合メモリと20ペタフロップスの演算能力で、1兆パラメータモデルをクラウド不要でローカル実行できます。NemoClawと組み合わせ、常時稼働型AIエージェントの個人運用を可能にします。

さらにNvidiaは、Mistral AIら8組織とNemotron Coalitionを結成し、オープンフロンティアモデルの共同開発を開始します。自動運転分野ではBYD・日産らがLevel 4対応車両を開発中で、Uberとは2028年までに28都市でロボタクシー展開を計画しています。製薬大手ロシュは3,500基超のBlackwell GPUを導入し、AI創薬を加速させます。

今回のGTC 2026は、NvidiaがチップメーカーからAIプラットフォーム企業への転換を鮮明にした大会となりました。ハードウェア、ソフトウェア、モデル、エージェント基盤を垂直統合し、宇宙からデスクトップまであらゆるスケールのAIインフラを一社で提供する戦略は、競合であるAMDやGoogle TPU、Amazon Trainiumとの差別化を図るものです。

Nvidia、推論特化チップGroq 3 LPUを発表

2026年03月16日 NVIDIA Groq Cerebras AWS 推論半導体 GPU LPU データセンタースタートアップ買収 Jensen Huang

Groq 3の技術的特徴

SRAM内蔵で超低遅延実現

メモリ帯域150TB/sでGPUの7倍

線形データフローで処理を簡素化

推論時代の到来

Groqを200億ドルで買収し技術統合

推論特化チップのスタートアップが急増

AWSもCerebrasと推論システム構築

推論分離アーキテクチャ

プリフィルとデコードの分離処理

Groq 3 LPXトレイでGPUとLPU統合

詳細を見る

Nvidiaは米サンノゼで開催されたGTC 2026において、AI推論に特化した新チップGroq 3 LPUを発表しました。同社がスタートアップ Groqから200億ドルで技術ライセンスを取得し、わずか2カ月半で製品化したものです。

Jensen Huang CEOは「AIがついに生産的な仕事をできるようになり、推論の転換点が到来した」と宣言しました。学習と推論では計算要件が根本的に異なり、推論では低遅延が最も重要とされています。思考型・推論型モデルでは出力前に何度も推論が実行されるためです。

Groq 3 LPUの核心技術は、プロセッサ内部にSRAMメモリを直接統合した設計にあります。従来のGPUがチップ外のHBMにアクセスする必要があるのに対し、データがSRAMを直線的に通過するため、推論に必要な極めて低いレイテンシを実現します。メモリ帯域は150TB/sで、Rubin GPUの22TB/sの約7倍です。

推論特化チップ市場ではD-matrix、Etched、Cerebrasなど多数のスタートアップが独自アプローチを展開しています。AWSはCerebrasの第3世代チップと自社Traniumを組み合わせた推論システムのデータセンター展開を発表しました。推論を「プリフィル」と「デコード」に分離する技術が注目されています。

Nvidiaも推論分離を活用する新コンピュートトレイGroq 3 LPXを発表しました。8基のGroq 3 LPUとVera Rubin GPUを搭載し、計算集約的な処理はGPUが、最終段階の高速デコードはLPUが担います。Huang氏は「すでに量産段階にある」と述べ、推論市場の急速な拡大を示しました。

出典：spectrum.ieee.org

NVIDIA、AIファクトリー仮想検証基盤DSX Airを発表

2026年03月16日 NVIDIA エコシステムシミュレーションデジタルツイン GPU ハードウェアインフラクラウドセキュリティポリシー SaaS

DSX Airの機能

AIファクトリー全体のデジタルツイン構築

GPU・NIC・DPU等を高精度シミュレーション

稼働開始を数カ月から数日に短縮

ストレージ・セキュリティ等パートナー連携対応

エコシステムへの影響

CoreWeaveが導入済みで事前検証を実施

サーバー製造元が物理ラボ不要で検証可能

マルチテナント環境のセキュリティ検証に対応

変更管理・アップグレードの事前テストにも活用

詳細を見る

NVIDIAは2026年3月のGTC 2026において、AIファクトリーを論理的にシミュレーションするSaaS型プラットフォーム「DSX Air」を発表しました。CEOジェンスン・ファン氏が紹介したこの製品は、DSXプラットフォームの一部として提供されます。

DSX Airは、GPU、SuperNIC、DPU、スイッチなどのNVIDIA ハードウェアインフラを高精度にデジタルシミュレーションします。ストレージやルーティング、セキュリティ、オーケストレーションなどのパートナーソリューションともAPIベースで連携できます。

大規模AIインフラを構築するCoreWeaveをはじめとする企業がすでにDSX Airを活用しており、ハードウェア到着前に環境のシミュレーションと検証を完了させています。導入までの時間を数週間〜数カ月から数日〜数時間へと大幅に短縮できます。

GTC会場のデモでは、Check Pointの分散ファイアウォールやTrendAI Vision Oneによる脅威検知、Keysight AI Inference Builderなど、セキュリティ分野の検証事例も披露されました。マルチテナントポリシーやDPUベースの分離機能もシミュレーション環境で検証可能です。

タイ最大のAIクラウド事業者Siam.AIやベアメタルGPUプロビジョニングを手がけるHydra Hostも導入を開始しています。AIファクトリーの大規模化・複雑化が進む中、ハードウェア到着前にフルスタック環境を検証できる能力がイノベーションの速度を左右すると同社は強調しています。

出典：NVIDIA公式

Nvidia、AIエージェント向け新ストレージ基盤STXを発表

2026年03月16日 NVIDIA オラクルエコシステムエンジニア推論 GPU クラウドエネルギーエージェントコンテキスト

STXの技術概要

KVキャッシュ専用メモリ層を新設

トークン処理量5倍を実現

エネルギー効率4倍向上

データ取込速度2倍に

エコシステム展開

Dell・HPEなど12社が共同設計

CoreWeave・Oracleなど8社が採用表明

2026年下半期にパートナーから提供開始

企業AI基盤への影響

ストレージがGPU調達と同格の意思決定対象に

詳細を見る

Nvidiaは2026年のGTCにおいて、AIエージェント向けの新たなモジュラー型リファレンスアーキテクチャ「BlueField-4 STX」を発表しました。GPUと従来型ストレージの間に専用のコンテキストメモリ層を挿入し、推論時のボトルネックを解消する設計です。

STXが解決を目指すのは、KVキャッシュデータの処理遅延です。KVキャッシュとは、LLMが推論時に保存する中間計算結果であり、エージェントがセッションやツール呼び出しを跨いで文脈を維持するために不可欠です。コンテキストウィンドウの拡大に伴いキャッシュも肥大化し、従来のストレージ経由ではGPU利用率が低下していました。

STXはNvidia自身が直接販売する製品ではなく、ストレージパートナー向けのリファレンスアーキテクチャです。新型BlueField-4プロセッサにVera CPUとConnectX-9 SuperNICを統合し、Spectrum-X Ethernet上で動作します。ソフトウェア面ではDOCAプラットフォームに「DOCA Memo」を追加し、プログラマブルな最適化基盤を提供します。

パートナーにはDell、HPE、NetApp、VAST Dataなどストレージ大手12社が共同設計に参加し、CoreWeave、Oracle Cloud、LambdaなどAIネイティブクラウド8社も採用を表明しています。IBMはSTX共同設計者であると同時に、Nvidia自身がIBM Storage Scale System 6000をGPU分析基盤に採用したことも発表されました。

STXの登場は、エンタープライズAI基盤においてストレージ層がGPU調達と同等の重要な意思決定対象になることを示唆しています。ただし、性能値の比較ベースラインは未公開であり、導入判断には詳細な検証が必要です。2026年下半期にパートナー各社からSTXベースの製品が提供開始される見通しで、今後12カ月以内にストレージ更新を検討する企業は選択肢として考慮すべきです。

出典：VentureBeat

LinkedIn、5つの検索基盤をLLM統合し13億人のフィード刷新

2026年03月16日検索ネットワークエンジニア推論 GPU インフラプロンプト

統合アーキテクチャ

5つの検索パイプラインを1つに統合

LLMで投稿内容をリッチに理解

プロンプトライブラリでテキスト変換自動化

エンゲージメント数値をパーセンタイル化

GPU最適化

CPU処理とGPU 推論を分離設計

C++データローダーで負荷削減

詳細を見る

LinkedInは13億人以上が利用するフィード基盤を全面刷新し、従来の5つの独立した検索パイプラインを1つのLLMベースシステムに統合したことを発表しました。エンジニアリング担当副社長のTim Jurka氏によると、1年間で数百回のテストを実施したとのことです。

従来のフィードは、ネットワークの時系列インデックス、地域トレンド、興味ベースのフィルタリングなど、異なるインフラと最適化戦略を持つ複数のソースから構成されていました。これにより保守コストが増大し、統一的な改善が困難になっていたことが刷新の背景にあります。

新システムでは投稿のフォーマット、著者情報、エンゲージメント数、メタデータをテキスト化するプロンプトライブラリを構築しました。特にエンゲージメント数値をそのままプロンプトに入れるとモデルが重要性を認識できない問題を発見し、パーセンタイルバケットと特殊トークンで解決しています。

ランキング層では独自の生成的推薦モデル（GR）を開発し、ユーザーの過去1000件以上のインタラクション履歴を時系列として処理します。個々の投稿を独立にスコアリングするのではなく、職業的な関心の変遷をシーケンスとして理解する設計です。

GPU コスト削減のため、CPU処理とGPU 推論を分離するアーキテクチャを採用しました。Pythonマルチプロセスの代わりにC++データローダーを開発し、独自のFlash Attention変種やチェックポイントの並列化により、GPU メモリの効率的な活用を実現しています。

出典：VentureBeat

LangChainとNVIDIAがエージェントAI開発基盤で包括提携

2026年03月16日 NVIDIA LangChain 推論 GPU インフラデプロイ医療提携エージェント LangSmith

統合プラットフォームの全容

LangGraphとNIM統合で本番運用

NeMo Agent Toolkitとの連携

推論レイテンシの自動最適化機能

NIMで最大2.6倍のスループット向上

評価・監視と今後の展開

LangSmithで150億トレース処理実績

Nemotronモデル群での横断評価

LangChainがNemotron Coalition参加

GPU環境でのDeep Agents実行構想

詳細を見る

LangChainは2026年3月16日、NVIDIAとの包括的な統合を発表し、企業向けエージェントAI開発プラットフォームを提供すると明らかにしました。累計ダウンロード数10億回を超える同社のオープンソースフレームワーク群と、NVIDIAのAIツールキットを組み合わせた構成です。

プラットフォームはLangGraphによるマルチエージェントのオーケストレーション、Deep Agentsによるタスク計画とサブエージェント生成、そしてNVIDIA AI-Q Blueprintによるディープリサーチ機能を備えます。NeMo Agent Toolkitにより既存のLangGraphエージェントを最小限のコード変更で導入できます。

実行面ではNIMマイクロサービスが標準デプロイ比で最大2.6倍のスループットを実現します。Nemotron 3 SuperのMoEアーキテクチャにより単一GPUでのコスト効率の高い展開が可能です。並列実行や投機的実行によるレイテンシ削減も自動的に適用されます。

監視面ではLangSmithが150億トレース・100兆トークンの処理実績を持ち、分散トレーシングやコスト監視を提供します。NeMo Agent Toolkitのテレメトリと統合することで、インフラレベルとアプリケーションレベルの可観測性を一元化できます。

さらにLangChainはNVIDIAのNemotron Coalitionに参画し、オープンなフロンティアモデルの共同開発に取り組みます。将来的にはDeep AgentsがCUDA-Xライブラリを活用したGPUアクセラレーション環境で動作し、金融や医療分野での大規模データ処理を可能にする構想も示されました。

出典：blog.langchain.com

DataRobotがNVIDIAと協業しAIエージェント基盤を強化

2026年03月16日 NVIDIA 推論 GPU ハードウェア認証エージェントコンテキストベンチマークトランスフォーマー RAG

統合プラットフォーム

Nemotron 3 Superをワンクリック展開

GPU自動最適化で推論環境を構築

思考予算調整でコスト14倍削減も可能

マルチテナント制御で複数チーム同時利用

ガバナンスと認証

Okta連携でエージェントにID付与

静的APIキーから短命トークンへ移行

EU AI Act等の規制準拠を自動化

ハードウェア基盤

RTX PRO 4500を推論エンジンとして検証済み

32GB VRAMでオンプレミス展開にも対応

詳細を見る

DataRobotは2026年3月、NVIDIAと共同開発したAgent Workforce Platformにおいて、大規模言語モデル「Nemotron 3 Super」のワンクリック展開機能を発表しました。企業がAIエージェントを本番環境で安全に運用するための統合基盤を提供します。

Nemotron 3 Superは1200億パラメータのハイブリッドMamba-Transformerモデルで、100万トークンのコンテキストウィンドウを備えています。DataRobotのプラットフォームでは、GPU構成の自動推奨、監視・アクセス制御の即時有効化、チーム別クォータ管理が標準で組み込まれており、展開直後から運用可能な状態になります。

コスト管理面では、思考予算の調整により同一モデルで精度とコストのトレードオフを制御できます。金融推論ベンチマークでは、最高設定で約86%の精度に対し、最低設定でも約74%を維持しつつトークン消費を14分の1に抑えられることが実証されました。

ガバナンス面では、Oktaとの統合により、AIエージェントを企業ディレクトリ上の独立したIDとして管理する仕組みを実現しました。従来の共有APIキーによる認証では、非決定的なエージェントの行動追跡や即時無効化が困難でしたが、ID基盤型ガバナンスにより人間と同一の管理体系でエージェントを統制できます。

ハードウェア面では、NVIDIA RTX PRO 4500をDataRobotプラットフォームの推論エンジンとして技術検証済みであることを発表しました。32GBのGDDR7メモリとBlackwellアーキテクチャを搭載し、リアルタイム物流最適化やRAGパイプラインなど、エージェント型ワークロードに最適化された性能を提供します。

出典：datarobot.com | datarobot.com | datarobot.com

Tower半導体とScintil、AI向け初の単チップ光エンジン量産開始

2026年03月16日ネットワーク半導体 GPU データセンターエネルギー

光通信チップの革新

世界初の単チップDWDM光エンジン

8～16波長を1本のファイバーで伝送

1.6Tbpsの高速データ転送を実現

300mmシリコンウェハー上にレーザー統合

GPU性能への効果

低遅延でGPU利用率が倍増

スケールアップ網の光接続を実現

2026年末に数万個出荷予定

2028年の本格展開に向け量産体制構築

詳細を見る

Tower SemiconductorとScintil Photonicsは2026年3月、AIデータセンター向けとして世界初となる単チップDWDM（高密度波長分割多重）光エンジンの量産を発表しました。この技術により、1本の光ファイバーで複数の光信号を同時に伝送でき、消費電力と遅延を大幅に削減します。

AIデータセンターでは、数十基のGPUとメモリを一体的に動作させるスケールアップネットワークが求められています。従来の銅線接続では帯域幅と遅延の限界があり、光接続への移行が急務となっていますが、レーザーそのものをシリコンチップに統合する技術が欠けていました。

ScintilのSHIP技術は、標準的な300mmシリコンフォトニクスウェハー上にレーザー、フォトダイオード、変調器を統合します。InP系半導体ダイをウェハーの必要箇所にのみ接合することで、高価な材料の使用量を最小限に抑えつつ、フォトリソグラフィで高精度な波長安定性を実現しています。

完成品のLEAF Lightチップは、1ファイバーあたり8または16波長を出力し、最大1.6Tbpsのデータ速度を達成します。従来の単一チャネル400Gbps伝送に対し、50Gbpsを8チャネルに分散する「遅く広く」のアーキテクチャにより、電力効率とファイバーあたりのデータ容量が飛躍的に向上します。

最大の利点はGPU利用率の改善です。高帯域チャネルでの誤り訂正処理が遅延を増大させるのに対し、低帯域DWDMで複数GPUを接続すれば利用率を倍増できます。Scintilは2026年末までに数万個を出荷し、翌年には生産量を10倍に引き上げる計画で、2028年の本格導入に向けサプライチェーンを整備しています。

出典：spectrum.ieee.org

NVIDIA、AI検索と表データ分析で世界首位を獲得

2026年03月13日 Google NVIDIA 検索ネットワーク Opus 推論 GPU デプロイエージェントベンチマーク MCP

エージェント型検索

NeMo RetrieverがViDoRe v3で1位

BRIGHTベンチマークでも2位獲得

ReACTアーキテクチャで反復検索

MCPサーバーからシングルトン方式へ移行

データ分析エージェント

DABStepベンチマークで1位

3フェーズ構成で30倍高速化

学習・推論・振り返りの分離設計

小型モデルが大型モデルを上回る精度

詳細を見る

NVIDIAは2026年3月13日、エージェント型AI検索パイプライン「NeMo Retriever」と自律データ分析エージェント「KGMON Data Explorer」の2つの成果を発表しました。いずれも主要ベンチマークで世界トップの性能を達成しています。

NeMo Retrieverは、従来の意味的類似度検索の限界を超えるため、ReACTアーキテクチャに基づくエージェントループを採用しました。LLMが検索クエリを動的に生成・修正し、複雑な質問を分解して反復的に情報を探索します。この設計により、視覚的に複雑な文書検索のViDoRe v3で1位、推論重視のBRIGHTで2位を達成しました。

技術面では、当初採用したMCPサーバー方式をスレッドセーフなシングルトン方式に置き換えることで、ネットワーク遅延やデプロイエラーを排除しました。GPU利用効率と実験スループットが大幅に改善され、同一パイプラインが異なるベンチマークに無変更で適用できる汎用性が最大の強みです。

一方、KGMON Data Explorerは表形式データの多段推論に特化したエージェントです。学習フェーズでOpus 4.5が再利用可能な関数ライブラリを構築し、推論フェーズでは軽量なHaiku 4.5がそのライブラリを活用して高速に回答します。DABStepベンチマークの難問で89.95点を記録し、Google AIやAntGroupを上回り1位となりました。

エージェント型検索は1クエリあたり約136秒と従来の密ベクトル検索より大幅に遅い課題があります。NVIDIAは蒸留技術による小型化で高速・低コスト化を目指す方針です。Data Explorerも20秒でタスクを完了し、従来の10分から30倍の高速化を実証しており、両プロジェクトとも実用化に向けた効率改善が進んでいます。

出典：Hugging Face | Hugging Face

FriendliAI、遊休GPUで推論実行し収益化する新基盤を発表

2026年03月12日 DeepSeek Qwen エンジニア創業者推論機械学習 GPU クラウド

InferenceSenseの仕組み

遊休GPUで推論ワークロード実行

Kubernetes上で自動検知・即時返却

オペレーター優先のスケジューリング

初期費用・最低契約なしの収益分配モデル

技術的優位性

vLLM基盤の連続バッチング技術

C++実装で標準比2〜3倍のスループット

DeepSeek・Qwen等主要OSSモデル対応

スポット市場との差別化はトークン単位収益化

詳細を見る

FriendliAIは、GPUクラスターの遊休時間を推論ワークロードで収益化する新プラットフォーム「InferenceSense」を発表しました。ネオクラウド事業者の未使用GPUで推論を実行し、トークン収益を分配する仕組みです。

同社の創業者Byung-Gon Chun氏は、ソウル大学で機械学習の効率的実行を研究し、連続バッチング技術を提案した論文「Orca」の著者です。この技術はオープンソース推論エンジンvLLMの中核として業界標準となっています。

InferenceSenseはKubernetes上で動作し、オペレーターが指定したGPUプールの遊休状態を自動検知します。未使用時に推論コンテナを起動し、オペレーターのジョブが必要になれば数秒以内にGPUを返却する設計です。需要は直接クライアントやOpenRouter等の推論アグリゲーターから集約されます。

従来のスポットGPU市場がクラウド事業者による生の計算資源の貸し出しであるのに対し、InferenceSenseはトークンスループットで収益化する点が異なります。FriendliAIのエンジンはC++で記述され、独自GPUカーネルを使用することで標準的なvLLMの2〜3倍のスループットを実現するとしています。

AIエンジニアにとっての注目点は、ネオクラウドが遊休容量を推論で収益化できれば、API価格の引き下げ圧力が生まれる可能性がある点です。Chun氏は「より効率的な供給者が増えれば全体コストは下がる」と述べ、DeepSeekやQwen等のモデルの低価格化に貢献する意向を示しました。

出典：VentureBeat

NVIDIA、1200億パラメータの新モデルNemotron 3 Superを公開

2026年03月11日 Google NVIDIA Perplexity オラクル AWS Coderabbit 検索専門家推論オープンウェイト GPU クラウドセキュリティエージェントコンテキストトランスフォーマー Palantir

モデルの技術革新

MambaとTransformerのハイブリッド構造採用

120Bパラメータ中12Bのみ稼働するMoE方式

100万トークンのコンテキストウィンドウ実現

前世代比最大5倍のスループット向上

企業導入と展開

PerplexityやCodeRabbitなどが即日統合

Siemens・Palantirが製造・サイバー防衛に活用

オープンウェイトで商用利用可能なライセンス

Google Cloud・OCI・AWS等主要クラウドで提供

詳細を見る

NVIDIAは2026年3月11日、エージェントAI向け新モデル「Nemotron 3 Super」を公開しました。1200億パラメータのうち推論時に稼働するのは120億のみで、前世代比最大5倍のスループットと2倍の精度向上を実現しています。

本モデルはMamba-2層とTransformer層を組み合わせたハイブリッド構造を採用しています。Mamba層が線形計算量で高速処理を担い、Transformer層が高精度な情報検索を補完することで、100万トークンのコンテキストウィンドウを効率的に実現しました。

新技術「Latent MoE」は、トークンを圧縮空間に射影してからエキスパートに振り分けることで、同じ計算コストで4倍の専門家を活用できます。さらにマルチトークン予測により推論速度を最大3倍に高速化しています。

Blackwell GPUプラットフォームではNVFP4精度で動作し、Hopper世代のFP8比で最大4倍高速な推論を精度損失なく達成しました。DeepResearch Benchのリーダーボードでは1位を獲得しています。

Perplexity、CodeRabbit、Greptileなどの企業が即日統合を開始し、Siemens、Palantir、Cadenceなどの大手企業も製造・サイバーセキュリティ分野での活用を進めています。モデルはオープンウェイトで公開され、10兆トークン超の学習データとレシピも併せて提供されました。

Google Cloud、Oracle Cloud、AWS、Azureなど主要クラウドに加え、Dell AI FactoryやHPEによるオンプレミス展開にも対応します。NVIDIA NIMマイクロサービスとしてパッケージ化されており、企業は柔軟な環境で商用利用が可能です。

出典：NVIDIA公式 | VentureBeat

NVIDIAがComfyUI連携強化、ローカルAI動画生成を大幅高速化

2026年03月10日 NVIDIA 動画生成画像生成エンジニアクリエイター GPU 画像動画プロンプト Hugging Face

ComfyUI刷新

App Viewで初心者も利用可能に

ノード不要の簡易UIを追加

RTX最適化で40%高速化達成

性能と4K対応

NVFP4で2.5倍高速・VRAM60%削減

RTX Videoで4Kアップスケール対応

Python開発者向け無償パッケージ公開

対応モデル拡大

FLUX.2 KleinのNVFP4/FP8版公開

LTX-2.3のNVFP4対応も近日予定

詳細を見る

NVIDIAは米サンフランシスコで開催中のGame Developers Conference（GDC）において、ComfyUIとの連携強化を含むAI動画生成の高速化アップデートを発表しました。RTX GPUおよびDGX Sparkデスクトップ向けに、コンセプト開発やストーリーボード制作の効率を大幅に向上させます。

ComfyUIに新たに追加されたApp Viewは、ノードグラフに不慣れなアーティスト向けの簡易インターフェースです。プロンプト入力とパラメータ調整だけで画像生成が可能になり、従来のNode Viewとの切り替えもシームレスに行えます。AI創作ツールの利用障壁を大きく引き下げる取り組みです。

性能面では、RTX GPUへの最適化により9月比で40%の高速化を実現しました。さらにGeForce RTX 50シリーズのNVFP4フォーマットを活用することで、パフォーマンスは2.5倍に向上し、VRAMの使用量は60%削減されます。FP8でも1.7倍の高速化と40%のVRAM削減を達成しています。

RTX Video Super ResolutionがComfyUIのノードとして利用可能になり、生成した動画をリアルタイムで4Kにアップスケールできるようになりました。従来の手法と比較して30倍高速で、VRAM消費も大幅に抑えられます。AI開発者向けにはPyPIから無償のPythonパッケージも公開されています。

対応モデルも拡充され、FLUX.2 Kleinの4Bおよび9BモデルのNVFP4・FP8版がHugging Faceで公開されました。LTX-2.3のFP8版も利用可能で、NVFP4対応も近日中に予定されています。ゲーム開発者やクリエイターがローカル環境で高品質なAI動画を生成できる基盤が着実に整いつつあります。

出典：NVIDIA公式

HuggingFace、非同期RL訓練の設計指針を16ライブラリ調査から導出

2026年03月10日推論強化学習 GPU エージェント Hugging Face GRPO TRL

同期RL訓練の課題

推論待ちでGPU稼働率40%以下

32Bモデルの1バッチ生成に数時間

ストラグラー問題が遅延を増幅

非同期化の共通設計

推論と訓練を別GPUプールに分離

ロールアウトバッファで両者を接続

8/16ライブラリがRayを採用

NCCLブロードキャストが重み同期の標準

TRL新設計と今後の課題

トークン単位のバージョン管理を採用

MoE対応が次世代の差別化要因

詳細を見る

Hugging Faceは、大規模言語モデルの強化学習（RL）訓練における非同期アーキテクチャの設計指針を、16のオープンソースライブラリを7軸で比較調査した結果として公開しました。

同期型RL訓練では、推論フェーズがウォールクロック時間の大半を占め、訓練用GPUが長時間アイドル状態になります。32Bモデルで32Kトークンのロールアウトを生成すると、1GPU当たり約3.7時間を要し、GRPOのグループ生成では最も遅い完了に全体が律速されます。

調査対象の全ライブラリが共通して採用した解決策は、推論と訓練を別々のGPUプールに分離し、ロールアウトバッファで接続して非同期に重みを転送する構成です。これにより推論は継続的にデータを生成し、訓練側は待機なく勾配計算を進められます。

比較7軸のうち特に重要なのは、重み同期プロトコルと陳腐化管理です。重み同期ではNCCLブロードキャストが主流で、verlのバケット化により20ミリ秒まで短縮可能です。陳腐化対策はバージョン棄却・深度制限・重要度サンプリング補正の3戦略があり、本番環境では複合的に組み合わせる傾向にあります。

Hugging FaceはTRLの新しい非同期トレーナーに向け、トークン単位のバージョンタグ付きバウンデッドキュー、NCCLバケット転送、エージェント型ワークロード向けの部分ロールアウト対応を設計方針として示しました。今後はMoEモデルのエキスパート並列対応や、蒸留との統合が差別化の鍵になると分析しています。

出典：Hugging Face

Hugging FaceがUlyssesシーケンス並列でミリオントークン学習を実現

2026年03月09日 Qwen エコシステム GPU ベンチマークトランスフォーマー Hugging Face TRL Snowflake

技術の仕組み

アテンションヘッドを複数GPUに分散

All-to-All通信で通信量を1/Nに削減

Ring Attentionより低レイテンシで効率的

FlashAttention 2/3と完全互換

エコシステム統合

AccelerateでParallelismConfig設定のみ

Transformers Trainerが損失集計を自動処理

TRL SFTTrainerでSFT最適化に対応

Liger-Kernelと組み合わせてメモリ節約

ベンチマーク結果

96Kトークンを4枚のH100で学習可能

64K時にスループットが3.7倍向上

8K時はDP=4と同等メモリ消費

詳細を見る

Hugging Faceは2026年3月、Snowflake AI Researchが開発したArctic Long Sequence Training (ALST)プロトコルの一部であるUlyssesシーケンス並列（SP）をAccelerate・Transformers Trainer・TRL SFTTrainerに統合したことを発表した。

Ulyssesは、トランスフォーマーのアテンション機構が系列長の2乗でメモリ・計算量が増大する課題を解決する手法で、系列をGPU間で分割したうえでアテンションヘッドも並列化し、All-to-All通信を1アテンション層あたり2回行うことで通信量をO(S×H/N)に抑えている。

Ring Attentionと比較すると、Ulyssesの通信量はGPUあたりRing Attentionの1/N倍で済み、全帯域幅を1ステップで活用できるAll-to-All集合通信により低レイテンシを実現している。ただし、ヘッド数がsp_size以上である必要があるという制約がある。

ベンチマークではQwen3-4BをH100 80GB×4枚で学習し、SP=4の構成で最大96Kトークン（66GB）まで安定して学習できることを確認した。64Kトークン時のスループットは1GPU比で3.7倍の13,396トークン/秒を記録し、通信オーバーヘッドは最小限であることが示された。

利用にはdeepspeed>=0.18.1・accelerate>=1.12が必要で、HopperアーキテクチャにはFlashAttention 3、BlackwellにはFlashAttention 4（リリース待ち）の使用が推奨されている。ZeRO Stage 3やLiger-Kernelとの組み合わせでさらなるメモリ削減も可能だ。

出典：Hugging Face

英NscaleがシリーズCで約2兆円調達、サンドバーグら著名人が取締役に就任

2026年03月09日 OpenAI NVIDIA マイクロソフト Meta GPU インフラデータセンターエネルギー米国欧州イギリス提携資金調達評価額 IPO スターゲイト・プロジェクト

巨額資金調達の詳細

評価額146億ドルに到達

シリーズCは欧州史上最大規模

Goldman Sachs・JPMorganが支援

IPO準備の観測強まる

事業拡張の戦略

Stargate Norwayを完全管理下に

OpenAIが初期顧客として契約

Microsoftと20万GPU供給契約

再生可能エネルギー活用を推進

詳細を見る

英国のAIインフラ企業Nscaleは2026年3月、シリーズCラウンドで20億ドルを調達し、企業評価額が146億ドルに達したと発表した。同社の元Meta COOシェリル・サンドバーグ、元英国副首相ニック・クレッグらが新たに取締役会に加わった。

今回の調達はNvidiaやDell、Blue Owlなどが参加するプレシリーズCのSAFE4億3300万ドルを含む総額であり、Goldman SachsとJPMorganが支援に関与していることからIPO準備との見方が広がっている。CEOのジョシュ・ペイン氏は「今年中にも上場を検討」と述べた。

Nscaleはノルウェーの上場企業Akerとの合弁事業「Stargate Norway」を完全管理下に移行することで合意した。同プロジェクトは2026年末までにNvidiaのGPU10万基稼働を目指し、OpenAIが初期顧客として名を連ねている。

事業提携面ではMicrosoftとの契約拡大により、欧州3拠点と米国1拠点のデータセンターに約20万基のNvidia GPUを展開することが決まっている。DellやNvidiaも今回のシリーズCに出資しており、戦略的連携が一段と深まっている。

Nscaleはエネルギーからデータセンター、コンピューティング、オーケストレーションソフトウェアまでの垂直統合モデルを採用し、低コストの再生可能エネルギーを活用しながら欧州・北米・アジアでのインフラ拡充を加速させる方針だ。

出典：TechCrunch

カーパシー氏の「autoresearch」が一晩で126実験を自律実行

2026年03月09日 OpenAI GitHub 広告ネットワーク創業者リスク GPU 倫理エージェント Tesla

自律研究ループの仕組み

630行のシンプルなスクリプト

GPU5分の固定計算予算で実験

仮説→実装→検証の自動サイクル

損失値改善時のみ変更を保持

ビジネスへの応用と課題

マーケティング実験を年3万6500回に拡張

ピアツーピアで35エージェントが並列稼働

過学習リスクへの懸念も浮上

人間の役割は「実験設計者」へ転換

詳細を見る

元テスラAIリードでOpenAI共同創業者のAndrej Karpathy氏は2026年3月8日、GitHubにオープンソースプロジェクト「autoresearch」を公開した。630行のPythonスクリプトがAIエージェントに科学的手法を自律実行させ、人間が眠っている間に研究を進める仕組みだ。

システムはAIエージェントにトレーニングスクリプトとGPU5分相当の計算予算を与え、自らコードを読んで仮説を立て、実装・実行・評価を繰り返す自律最適化ループとして機能する。一晩の稼働で126実験を完了し、検証損失を0.9979から0.9697へ改善した。

2日間の連続稼働では約700の自律的変更を処理し、大規模モデルにも転用可能な改善を約20件発見。「GPT-2到達時間」指標を2.02時間から1.80時間へ11%短縮し、カーパシー氏自身が20年間の手動作業で見落としていた注意機構のスケーリング欠陥も検出した。

コミュニティへの影響は即座かつ広範で、投稿は2日間で860万回以上閲覧された。Hyperspace AIのCEO Varun Mathur氏はこのループをP2Pネットワークに分散させ、35エージェントが一夜で333実験を実施。Kaiming初期化による損失21%削減をGossipSubプロトコルで共有し、23エージェントが即座に採用した。

広告代理店Single GrainのEric Siu氏はマーケティングへの応用を提唱し、現在年間30件程度の実験を3万6500件以上に拡大できると主張した。一方でGitHub上では検証セットの「汚染」リスクや改善の実質的意義への疑問も提起されており、自動化研究の倫理と手法をめぐる議論が活発化している。

出典：VentureBeat

HuggingFace、LeRobot v0.5.0でヒューマノイド対応と6つの新ポリシーを追加

2026年03月09日 NVIDIA エコシステムシミュレーション推論 GPU ハードウェアポリシー画像ロボットヒューマノイドコーディングデプロイロボティクストランスフォーマー Hugging Face Gemma Arm LoRA

ハードウェア拡張

Unitree G1ヒューマノイド初対応

全身協調制御（WBC）の実現

OpenArm ロボットアームの統合

CANバスモーター対応で高性能化

AIポリシーと高速化

Pi0-FAST自己回帰VLAの導入

Real-Time Chunkingで推論の応答性向上

LoRA/PEFTで大規模VLAの効率微調整

画像学習10倍高速化を実現

エコシステム整備

EnvHubでHub上のシミュレーション環境を直接利用

NVIDIA IsaacLabとのGPU並列学習統合

サードパーティポリシープラグイン対応

ICLR 2026採択で学術的評価を獲得

詳細を見る

Hugging Faceは2026年3月にオープンソースロボット学習フレームワーク「LeRobot」のv0.5.0をリリースした。同バージョンでは初のヒューマノイドロボット対応や6つの新ポリシー追加、データパイプラインの大幅な高速化など、あらゆる次元でのスケールアップが実現されています。

最大のハードウェア追加はUnitree G1ヒューマノイドの全面サポートです。歩行・ナビゲーション・物体操作・遠隔操作に加え、全身協調制御（WBC）により移動と操作を同時実行できる。これはLeRobotが卓上アームを超えた汎用ロボティクスへ踏み出す重要な一歩となっています。

ポリシー面ではPi0-FASTが注目されます。Gemma 300Mベースの自己回帰型アクションエキスパートを採用し、FASToトークン化によって離散化されたアクション列を生成します。また推論技術のReal-Time Chunking（RTC）は、フローマッチングポリシーの応答性を劇的に改善し、実世界デプロイでのレイテンシ問題を解消します。

データセットパイプラインではストリーミングビデオエンコーディングの導入により、エピソード記録後のエンコード待ち時間がゼロになりました。さらに画像学習が最大10倍、エンコードが3倍高速化されており、データ収集からモデル訓練までのサイクルが大幅に短縮されています。

コードベース面ではPython 3.12+とTransformers v5への移行が完了し、サードパーティポリシープラグインシステムの導入でエコシステムの拡張性が向上しました。EnvHubとNVIDIA IsaacLab-Arenaの統合により、シミュレーション環境の共有・活用も容易になっています。同論文はICLR 2026にも採択されており、学術コミュニティからの評価も高まっています。

出典：Hugging Face

MIT発、LLMメモリを50分の1に圧縮する新手法が登場

2026年03月06日 Qwen 数学 Llama 推論オープンウェイト GPU コーディング医療 MIT エージェントコンテキストベンチマーク

KVキャッシュの課題

KVキャッシュが長文処理の最大障壁

従来の圧縮は高圧縮率で精度急落

テキスト要約は重要情報を喪失

勾配ベース手法は数時間のGPU計算が必要

Attention Matchingの革新

50倍圧縮でも精度維持を実現

代数的手法で数秒の高速処理

参照クエリで圧縮品質を担保

オープンウェイトモデルが利用条件

詳細を見る

MITの研究チームが、大規模言語モデル（LLM）の推論時メモリであるKVキャッシュを最大50分の1に圧縮する新手法「Attention Matching」を発表しました。精度をほぼ維持したまま数秒で処理が完了する点が最大の特徴です。

LLMはトークンを逐次生成する際、過去の全トークンのキー・バリュー対をKVキャッシュに保持します。長文の法務文書分析や自律型コーディングエージェントなどの企業用途では、1リクエストで数GBに膨張し、同時処理数やバッチサイズを大幅に制限する深刻なボトルネックとなっていました。

従来の対処法には、重要度の低いトークンの削除やトークン統合がありますが、高圧縮率では精度が急激に低下します。テキスト要約による代替も、医療記録のような情報密度の高い文書ではコンテキストなしと同等の精度まで劣化することが実験で確認されました。勾配ベースの「Cartridges」手法は高品質ですが、1コンテキストの圧縮に数時間を要し実用性に欠けていました。

Attention Matchingは、圧縮後のメモリが元のメモリと同じ「注意出力」と「注意質量」を再現するよう設計されています。事前に生成した参照クエリを用いて保持すべきキーを選択し、通常最小二乗法などの代数的手法で値を算出します。勾配降下を完全に回避することで、処理速度が桁違いに高速化されました。チャンク単位の分割処理により長文への対応も実現しています。

Llama 3.1やQwen-3を用いた実験では、読解ベンチマーク「QuALITY」と6万トークンの医療記録データセット「LongHealth」の両方で有効性が確認されました。テキスト要約との組み合わせでは200倍圧縮も達成しています。数学推論テスト「AIME」では、メモリ上限に達するたびに50%圧縮を最大6回繰り返しても、無制限メモリと同等の性能を維持しました。

ただし、この手法の導入にはモデルの重みへのアクセスが必要であり、クローズドAPIのみを利用する企業は自社実装ができません。また、既存の推論エンジンへの統合にはプレフィックスキャッシュや可変長メモリパッキングとの調整が必要です。研究チームはコードを公開済みで、大規模なツール出力や長文文書の取り込み直後の圧縮が有望なユースケースだと述べています。

出典：VentureBeat

Hugging Face、画像生成パイプラインを自在に組み替える新基盤を公開

2026年03月05日エコシステムワークフロー動画生成画像生成 GPU 画像動画 Hugging Face

モジュラー設計の核心

ブロック単位で自由に着脱

既存APIと互換性を維持

カスタムブロックをHub共有可能

コンポーネントの遅延読み込み対応

エコシステムの広がり

Kreaがリアルタイム動画生成に採用

ノードUIMellonと統合

モジュラーリポジトリで量子化モデル参照

コミュニティパイプラインがHub上で増加

詳細を見る

Hugging Faceは、画像生成ライブラリDiffusersの新機能「Modular Diffusers」を公開しました。従来の固定的なDiffusionPipelineクラスに代わり、テキストエンコード・デノイズ・デコードなどの処理を独立したブロックとして組み合わせる設計を導入しています。

各ブロックは入出力が明確に定義されており、パイプラインから任意のブロックを抜き出して単独実行したり、別のブロックと差し替えたりすることが可能です。たとえば深度推定ブロックを作成し、ControlNetワークフローの先頭に挿入するといった柔軟な構成が数行のコードで実現できます。

カスタムブロックはHugging Face Hubに公開でき、他のユーザーがtrust_remote_codeオプションで即座に読み込めます。公式テンプレートも用意されており、コンポーネント定義・入出力宣言・処理ロジックの3要素を記述するだけでブロックを作成できます。

すでにコミュニティでの活用が始まっており、KreaはB200 GPU1枚で11fpsのリアルタイム動画生成パイプラインを構築しました。またOverworldのWaypoint-1はインタラクティブなワールド生成をモジュラーブロックで実装しています。

ノードベースのビジュアルインターフェース「Mellon」との統合も進んでおり、ブロックのAPI定義からUIを自動生成する仕組みを備えています。ComfyUIに似た操作感ながら、モデルに応じてノードが動的に変化する点や、パイプライン全体を1ノードに集約できる点が特徴です。

出典：Hugging Face

Databricks、強化学習で万能型RAGエージェント「KARL」を開発

2026年03月05日 Claude 検索 Opus 強化学習 GPU ポリシーエージェントコンテキストベンチマーク Databricks GRPO RAG

KARLの技術的革新

6種の検索行動を同時学習

合成データのみで人手ラベル不要

OAPLアルゴリズムで学習効率3倍

コスト33%減・遅延47%減を達成

企業RAGへの示唆

単一タスク最適化は他タスクで破綻

マルチタスクRLで未知タスクにも汎化

文脈圧縮をエンド・ツー・エンドで学習

SQL・ファイル検索は今後の課題

詳細を見る

Databricksは、強化学習を活用した企業向けRAG エージェント「KARL（Knowledge Agents via Reinforcement Learning）」を発表しました。6種類の企業検索行動を同時に学習させることで、単一タスク特化型の限界を克服するモデルです。

従来の企業向けRAGパイプラインは、特定の検索パターンに最適化されており、複数文書の横断的な統合や制約付きエンティティ検索など、異なるタスクには対応できませんでした。KARLは独自ベンチマーク「KARLBench」でClaude Opus 4.6と同等の性能を、クエリあたりコスト33%減・遅延47%減で達成したと同社は主張しています。

学習には新アルゴリズム「OAPL」を採用しています。従来のGRPOが前提とするオンポリシー同期の制約を撤廃し、400勾配ステップ以上のポリシー遅延でも安定動作します。サンプル効率が約3倍向上し、数千GPU時間で全学習を完了できるため、企業チームでも現実的に取り組める規模です。

注目すべきは、KARLが文脈圧縮をエンド・ツー・エンドで自己学習する点です。一部のタスクでは200回の連続ベクトルDB検索が必要となり、コンテキストウィンドウを何度も超過します。圧縮機能を除去すると精度が57%から39%に低下しており、この自律的な圧縮能力が性能の鍵となっています。

一方で課題も明確です。曖昧な質問への対応や途中で回答を断念するケースが残り、SQL検索やPython計算には未対応です。それでも、汎用フロンティアAPIにすべてを委ねるのではなく、目的特化型の検索エージェントを強化学習で育てるアプローチは、企業のRAG戦略に再考を迫る重要な成果といえます。

出典：VentureBeat

ByteDance動画AI「Seedance 2.0」に計算資源と著作権の壁

2026年03月05日 Claude Claude Code Codex 動画生成エンジニアクリエイターリスク GPU 著作権動画コーディング米国中国米中 ByteDance

技術と普及の現状

Seedance 2.0が業界に衝撃

映画監督級の映像生成能力

GPU不足で数時間待ちの状態

中国国内アプリ限定で提供中

著作権問題の深刻化

Disney等が差止め書簡送付

ユーザーが著名キャラ映像を大量生成

中国のIP保護制度の未整備が背景

米中AI格差の構図

動画AIでは中国が米国に先行

コーディングAIでは米国が優位

詳細を見る

ByteDanceは2025年2月、動画生成AI「Seedance 2.0」を発表しました。中国のゲーム開発者や映像クリエイターから「監督のように考える」と高い評価を受け、AI動画の品質に懐疑的だった層にも衝撃を与えています。

しかし現時点では計算資源の深刻な不足が普及の障壁となっています。利用者によると、5秒の動画生成に約9万人待ちの行列が発生し、数時間の待機が必要です。月額70ドル超の有料会員でも長時間待たされる状況で、深夜に生成リクエストを送るなどの裏技が共有されています。

Disney、Netflix、Paramountなど大手映画スタジオがByteDanceに著作権侵害を主張する差止め書簡を送付しました。ユーザーがウルヴァリンやトム・クルーズなど著名キャラクターの映像を生成・拡散しており、グローバル展開時の法的リスクが急速に高まっています。

中国のエンタメ業界はハリウッドとは対照的にAI動画を積極的に受容しています。カンヌ受賞の賈樟柯監督がSeedance 2.0で作品を制作し公開するなど、著名クリエイターの参入が相次いでいます。春節晩会の背景映像にも採用され、政府の後押しも見られます。

米中AI分野の棲み分けも鮮明になっています。動画AIではKling AIを含む中国勢が世界をリードする一方、コーディングAIでは中国の開発者もClaude CodeやCodexに依存しています。Seedance 2.0のAPI価格は15秒動画で約2ドルと公表されており、今後のサードパーティ開放が注目されます。

出典：WIRED

DataRobot、自社環境でのAIエージェント運用に不可欠な観測基盤を提唱

2026年03月04日 GPU インフラクラウドエージェント

自己管理型の観測課題

自社運用でテレメトリ責任が内部に移行

導入時の可視性欠如が本番まで残存

エージェントAI障害は複数レイヤー横断で発生

GPU等の高額資産の最適化が不可視に

成熟度と将来展望

構造化テレメトリで既存監視に統合

閾値ベース警報は分散AIに非対応

自己修復システムへの段階的進化

プロアクティブ検知が運用自律性の前提

詳細を見る

DataRobotは、エージェント型AIを自社インフラ内で運用する企業向けに、自己管理型オブザーバビリティの重要性を提唱しました。自社管理環境ではテレメトリの設計・統合・運用の全責任が企業内部に移行するため、構造化された観測基盤が不可欠となります。

エージェントAIの障害は単一のモデルエンドポイントではなく、リトライループやトークン期限切れ、オーケストレーションエラー、インフラ負荷など複数レイヤーにまたがって発生します。症状はエッジに現れますが、根本原因はスタックの深部に存在するため、層横断的な相関分析が求められます。

導入初期のテレメトリ欠如は本番環境まで持ち越される傾向があり、ワークロード拡大に伴い複雑性は非線形に増大します。GPUや高メモリノードなど高額な資産の利用効率を把握できなければ、ボトルネックの特定もコスト最適化も不可能になります。

効果的な自己管理型オブザーバビリティとは、AIプラットフォームのログ・メトリクス・トレースを既存の監視スタックに統合することです。DatadogやSplunk、クラウドネイティブの監視ツールなど、企業が既に運用する統合ダッシュボードにAIテレメトリを一元化する設計が求められます。

観測の成熟度は、事後対応型監視からプロアクティブな異常検知、さらにAI支援による自己修復システムへと段階的に進化します。自社環境でエージェントAIを安全に大規模運用するには、構造化テレメトリに基づく相関分析が出発点であり、これなしにはインテリジェントな自動対応は実現できないと同社は強調しています。

出典：datarobot.com

Photoroom、画像生成モデルを24時間・約22万円で訓練する手法を公開

2026年03月03日 GitHub Gemini 画像生成ファインチューニングパッチ GPU 画像プロンプトトランスフォーマー教師 Pixel

訓練レシピの全体像

H200 32台で24時間の速習訓練

総コスト約1500ドルに抑制

ピクセル空間で直接訓練しVAE不要に

TREADトークンルーティングで計算削減

品質向上の技術要素

LPIPSとDINOの知覚損失を併用

REPAでDINOv3と表現整合

オプティマイザにMuonを採用

コードとレシピをOSS公開

詳細を見る

Photoroomは2026年3月3日、テキストから画像を生成する拡散モデルを24時間・約1500ドル（約22万円）の計算予算で訓練する手法「PRX Part 3」を公開しました。H200 GPU 32台を使用し、コードもGitHubでオープンソース化しています。

最大の特徴はピクセル空間での直接訓練です。従来必要だったVAE（変分オートエンコーダ）を排除し、パッチサイズ32と256次元のボトルネック層で系列長を制御します。512pxで訓練を開始し、1024pxへファインチューニングする2段階方式を採用しています。

品質向上のため知覚損失を2種類導入しています。LPIPSは低レベルの知覚的類似性を、DINOv2ベースの損失は意味的な信号を捉えます。プール済み画像全体に適用し、全ノイズレベルで計算する独自の工夫が加えられています。

計算効率の面ではTREADによるトークンルーティングを採用し、50%のトークンをTransformerブロックの大部分でスキップさせます。またREPAでDINOv3教師モデルとの表現整合を行い、収束を加速させています。オプティマイザにはMuonを使用しAdamを上回る性能を確認しています。

訓練データは合成データセット3種（計約870万枚）を使用し、Gemini 1.5でキャプションを再生成しています。生成品質にはまだ改善余地があるものの、プロンプト追従性や美的一貫性は高く、構造的な欠陥ではなくデータ多様性の不足が主な課題と分析しています。

出典：Hugging Face

北欧が欧州AI データセンターの最前線に急浮上

2026年03月02日 OpenAI マイクロソフト GPU ハードウェアインフラクラウドデータセンターエネルギー欧州投資 Mistral

北極圏に集まるAI基盤

北欧で50超のDC建設が進行中

OpenAIがノルウェー北極圏に10万GPU配備

Microsoftも同地域に追随して進出

電力と立地の優位性

欧州で最も電力確保が容易な地域

水力・風力の再エネが豊富で低価格

冷涼気候で冷却コストを大幅削減

地域経済への波及効果

DC用地の地価が森林地の4〜9倍に高騰

鉱業・製紙業衰退地域の経済再生に期待

詳細を見る

北欧諸国（ノルウェー、スウェーデン、フィンランド、デンマーク、アイスランド）で、AI向けデータセンターの建設ラッシュが起きています。現在50以上の施設が建設中または計画段階にあり、欧州で最も急速にデータセンター容量が拡大している地域です。

この動きを牽引するのは大手AI企業の進出です。OpenAIはノルウェーの北極圏の小さなフィヨルド町に10万基のGPUを配備すると発表し、Microsoftも同地域に続きました。仏AI企業Mistralはスウェーデンのボーレンゲで14億ドル相当のインフラをリースすると表明しています。

北欧が選ばれる最大の理由は電力供給の豊富さです。欧州の主要都市圏では電力不足がデータセンター拡大の最大の制約要因となっていますが、北欧には豊富な水力・風力発電があり、価格も欧州最安水準です。冷涼な気候もハードウェア冷却の電力消費を抑え、EU排出規制への対応にも有利に働きます。

AIワークロード専門の「ネオクラウド」と呼ばれる新型クラウド事業者の台頭も背景にあります。AI処理はリアルタイム取引ほど遅延に敏感ではないため、都市部から離れた北極圏近くにも立地が可能です。北欧のDC容量拡大の大半をこのネオクラウドが占めているとCBREは分析しています。

データセンター誘致は地域経済にも大きな影響を与えています。DC用地に転用予定の森林地は通常の4〜9倍の価格に高騰しており、鉱業や製紙業が衰退した農村部の自治体は投資を熱望しています。一方で、一部の事業者が将来需要を見越して用地を確保するだけで開発に着手しないケースも指摘されています。

出典：WIRED

OpenAIが史上最大1100億ドルの調達を発表

2026年02月27日 OpenAI Anthropic NVIDIA マイクロソフト Amazon ソフトバンク AWS 投資家 GPU データセンター AGI 投資資金調達評価額

資金調達の規模と参加者

民間資金調達として史上最大の1,100億ドル

Amazon・NVIDIA・SoftBankが主要投資家

企業評価額がさらに桁違いの水準に上昇

AGI開発への長期資本コミットを示唆

AI覇権争いでの競争優位を確保

資金の戦略的意味

データセンター・GPU調達の加速

Amazon Bedrockとの深化が並走

SoftBankのAI投資家としての復活を象徴

詳細を見る

OpenAIは2026年2月27日、Amazon、NVIDIA、SoftBankを主要投資家とする1,100億ドル（約17兆円）の資金調達を発表しました。民間企業の資金調達として史上最大規模です。

TechCrunchとThe Vergeが報じたこの巨額調達は、OpenAIのAGI（汎用人工知能）開発への長期的なコミットメントを支える戦略的資本基盤を確立するものです。

投資家のAmazonはAWS/Bedrockとの統合深化、NVIDIAはGPU供給の確保、SoftBankはビジョンファンド以来のAI大型投資への復帰という、それぞれの戦略的利益が一致した取引です。

この調達はMicrosoftのOpenAI向け130億ドル投資を大きく超え、AIが今後10年の最重要テクノロジー投資対象であるという市場のコンセンサスを強化します。

競合のAnthropicがPentagon問題で揺れる中でのタイミングも注目で、OpenAIが資金力と政府関係両面で優位に立つ構図が鮮明になっています。

出典：TechCrunch | The Verge

NVIDIAが創薬向けAIファクトリーを稼働

2026年02月26日 NVIDIA エコシステム GPU インフラ医療創薬投資

AIファクトリーの概要

製薬業界特化の大規模AI計算環境

創薬から臨床試験まで全工程を加速

世界最大規模の医薬品AIインフラと自称

詳細を見る

NVIDIAは医薬品の発見・開発向けに「世界最強のAIファクトリー」が稼働を開始したと発表しました。大規模なGPU計算インフラを医薬品業界のAI研究・開発に特化させた設備です。

創薬の時間とコストを劇的に短縮するという目標のもと、製薬大手との連携でAI創薬エコシステムを構築する動きです。AIヘルスケア投資の大型事例として業界に影響を与えます。

出典：NVIDIA公式

NVIDIAが過去最高決算を更新

2026年02月25日 NVIDIA 半導体 GPU インフラ投資 Intel Jensen Huang

決算の概要

過去最高益を四半期連続で更新

AI計算需要が引き続き爆発的に増加

「トークン需要は飽くことを知らない」とCEO

市場への影響

設備投資の記録的規模が示す産業の巨大化

AMD・Intelとの差は依然大きい

H200・Blackwellの需要が逼迫継続

詳細を見る

NVIDIAは最新四半期の財務結果を発表し、AIコンピューティング需要の持続的な拡大を背景に過去最高の収益を更新しました。CEO Jensen Huang氏は「トークン需要は飽くことを知らない」と述べ、AIインフラへの設備投資が今後も加速すると見ています。

ビッグテック各社によるAI向け設備投資は記録的な規模に達しており、NVIDIAの製品需要は逼迫が続いています。H200やBlackwellアーキテクチャのGPUは依然として品薄状態であり、新製品への切り替えも課題です。

NVIDIAのAI半導体市場における独占的地位はMatXなどの挑戦者が台頭しているものの、短中期では揺るがない状況です。AI産業全体の成長が続く限り、NVIDIAの高成長も継続するとアナリストは見ています。

出典：TechCrunch

MatXが5億ドルでNVIDIA対抗チップへ

2026年02月24日 Google OpenAI NVIDIA エコシステムエンジニア半導体 GPU ハードウェアスタートアップ投資資金調達

MatXの技術優位性

NVIDIAの10倍の訓練効率を目指す

元Google ハードウェアエンジニアが設立

Jane Street・Situational Awarenessが主導

チップ業界への影響

AI訓練チップ市場の新たな競争者に

NVIDIA GPU独占に対抗する試みが加速

オープンソース派のLeopold Aschenbrennerが支持

詳細を見る

元GoogleのハードウェアエンジニアたちによるAIチップスタートアップMatXがJane Streetを主幹事とするシリーズBで5億ドルを調達しました。目標はNVIDIAのGPUより10倍優れた訓練性能を持つプロセッサの開発です。

AI訓練チップ市場でのNVIDIA独占に挑戦する企業が相次いで大型資金調達を行っており、代替AIチップエコシステムが形成されつつあります。MatXはOpenAI元研究員Leopold Aschenbrenner氏の投資ファンドからも資金を受けており、AI安全と技術革新の両立を目指す姿勢が評価されています。

出典：TechCrunch

India AIサミット総括、各社が相次ぎ投資表明

インドAIサミットの主要発表

4日間のサミットにグローバルAI大手の幹部が集結

インド政府がAI投資誘致のための政策・インセンティブを提示

NvidiaとMicrosoftがインドへの大規模インフラ投資を約束

OpenAI Sam AltmanがインドのAI活用の可能性を高く評価

Cloudflareなどインフラ企業もインド市場への参入を加速

インドのAI市場ポテンシャル

インドは14億人の潜在ユーザーと高い若年層採用率

IT産業・英語能力・数学教育がAI開発者輩出に強み

言語多様性（22の公用語）がローカライズのハードル

デジタル公共インフラAadhaar・UPIがAI展開基盤

中国との競争においてインドが民主主義的AIの旗手に

詳細を見る

インドはニューデリーで4日間にわたってAI Impact Summitを開催し、OpenAI、Anthropic、NVIDIA、Microsoft、Google、Cloudflareなど主要AIおよびテック企業の幹部が参加しました。このサミットはインドが2026年の世界AI経済における重要プレイヤーとしての地位を確立する上での重要な節目となりました。

各社の具体的なコミットメントが相次いで発表されました。G42とCerebrasの8エクサフロップス投資（別記）に加え、Nvidiaはインドのスタートアップと研究機関向けのGPUアクセスプログラムを、Microsoftはインドのデベロッパーエコシステムへの長期投資を、Cloudflareはインドのエッジインフラ拡充を発表しました。

Sam Altmanはインドを「ChatGPTの最も重要な市場の一つ」と表現し、インドの若年層が業務用途でAIを活用する速度と深度は他国を上回ると評価しました。OpenAIはインドでのローカル拠点強化に向けたロードマップを示しました。

インドにとってAIは単なる技術課題ではなく、経済発展戦略の中核です。ITサービス輸出大国として培った人材基盤と、デジタルインフラ（Aadhaar・UPIなど）の整備が、AI時代の競争力の源泉になっています。ローカル言語AIの整備が次の重点課題です。

地政学的にも、インドは民主主義国のAIエコシステムにおいて中国に対抗する重要なプレイヤーとして位置づけられています。米国政府もインドのAI開発への支援を外交政策の優先事項に掲げており、技術同盟としての枠組みが強化されています。

出典：TechCrunch

MSが超伝導体75億円投資でAI電力問題に挑む

2026年02月21日 Google NVIDIA マイクロソフト Amazon 半導体 GPU インフラクラウドデータセンターエネルギー電力需要投資 IEEE

超伝導体でデータセンター電力問題を解決

高温超伝導体（HTS）で電力伝送効率を飛躍的に改善

AIデータセンターの電力密度が従来インフラの限界を超える

Microsoftが7,500万ドルを超伝導電力技術に投資

電力ロスを大幅削減しGW規模のデータセンターを可能に

電力供給がGPU性能と並ぶAI競争の主戦場に

AIインフラ投資の新次元

データセンター電力問題が半導体並みの戦略課題に浮上

超伝導体はデータセンター配電インフラの根本的変革を目指す

HTS技術は既存の電力グリッドとの統合が最大の課題

Microsoft・Google・Amazonが物理インフラ競争を激化

核融合・SMRに続く電力革新の第三の道

詳細を見る

IEEE Spectrumの分析によると、AIデータセンターの急速な拡大により世界の電力インフラは限界を迎えつつあります。Microsoftは7,500万ドルを高温超伝導体（HTS）技術に投資することで、この電力伝送のボトルネックを根本から解決しようとしています。

超伝導体とは電気抵抗がゼロになる特殊な材料で、これを電力伝送に使用することで熱損失なくGW級の電力を運ぶことが可能になります。従来の銅線インフラでは達成できない電力密度でのデータセンター配電が実現します。AIの電力需要が爆発的に増加する中、これは電力インフラ革命の核心技術です。

技術的課題は材料と冷却システムです。高温超伝導体といっても液体窒素温度（-196℃）程度の冷却が必要で、大規模インフラへの実装には技術的ハードルが残ります。しかし、Microsoftの投資規模はこれが「研究フェーズ」を超えた実用化への本気のコミットメントであることを示しています。

AIインフラ競争が計算能力から電力へとシフトしています。NvidiaのGPU性能は向上し続けますが、電力供給がそれに追いつかなければ意味がありません。MicrosoftがHTSに賭けることは、電力インフラをコアコンピタンスとして内製化する戦略的意思決定です。

より広い視点では、AIデータセンターの電力問題は社会インフラ全体の問題です。核融合、小型モジュール炉（SMR）、超伝導体など、複数の技術アプローチが同時進行しており、どれが最初に実用規模に達するかがクラウドプロバイダーの長期競争優位を左右する可能性があります。

出典：spectrum.ieee.org

Unsloth×HFでLLM微調整が無料開放へ

2026年02月20日 AI活用エコシステムエンジニア推論ファインチューニング GPU インフラクラウドデプロイ医療中小企業提携基盤モデル Hugging Face LoRA

無料LLMファインチューニングの実現

Hugging Face JobsプラットフォームでUnslothを無料利用可能

高速かつ低メモリなLLMファインチューニングが一般開放

LoRA/QLoRAベースの効率的な訓練手法に対応

GPUアクセスのない研究者・開発者に訓練機会を提供

クラウドコストの民主化でドメイン特化モデルが普及

エコシステムへの影響

ファインチューニングの参入コストが実質ゼロに低下

企業・研究機関がカスタムモデルを低コストで構築可能

Unslothの速度最適化技術がHFのスケールで利用可能に

HFのモデルハブとの統合でデータセット→訓練→公開が一貫

オープンソースファインチューニングエコシステムが強化

詳細を見る

Hugging FaceとUnslothは、Hugging Face Jobsプラットフォームを通じてLLMのファインチューニングを無料で提供するパートナーシップを発表しました。Unslothはその高速化（通常の2〜5倍速）とメモリ効率（最大80%削減）で知られており、これをHFのクラウドインフラと組み合わせることで、GPUを持たない開発者や研究者に訓練機会を開放します。

ファインチューニングの民主化は、AI活用の次のフロンティアを拓きます。汎用的な基盤モデルをドメイン特化させる能力は、医療、法律、製造など特定業界でのAI活用精度を大幅に向上させます。これまでこの作業には高額なGPUクラスターが必要でしたが、今後は個人や中小企業でも実施可能になります。

HuggingFaceにとってこの提携は、モデルハブ（保管）からトレーニング基盤（構築）、さらにはデプロイメントまでをカバーするフルスタックMLプラットフォームとしての地位を強化します。Unslothのユーザーベースを取り込む獲得戦略でもあります。

Unslothの側では、有料の商用サービスへの入口としてHF経由の無料ティアを活用する戦略です。無料で試したユーザーが高度な機能や大規模訓練のために有料プランに移行するフリーミアムモデルを狙っています。

この動きはより広いトレンドの一部です。LLMの推論コストが下がり続ける中、次の競争軸は専用化・個別最適化にシフトしています。ファインチューニングの民主化が進むことで、汎用LLMよりもドメイン特化モデルが主流になる時代が近づいています。

出典：Hugging Face

インドAI投資急増でVCと大手が殺到

2026年02月19日 OpenAI Anthropic NVIDIA 検索エコシステム GPU インド米中スタートアップ投資ベンチャーキャピタル

インド巨額AI投資の全貌

Relianceが1100億ドルのAI計画

OpenAI-RelianceのJioHotstar連携

General Catalystが5年50億ドル約束

インドのAI戦略的重要性

NVIDIAがスタートアップ投資強化

インドが第3のAI大国へ

AI競争の地政学的再編

詳細を見る

インドのAI投資ブームが最高潮に達しました。Reliance Industriesが1100億ドルのAI投資計画を発表し、OpenAIとReliance JioHotstarへのAI検索機能統合を発表しました。

General Catalystは今後5年間でインドに50億ドルを投資すると表明。TechCrunchが報じたこのコミットメントは、インドへのVC 投資拡大の象徴的な出来事です。

NVIDIAもインドのAIスタートアップエコシステムへの早期投資を強化していることが明らかになりました。GPU供給と投資の両面からインドのAI発展を支援します。

AIインパクトサミットでAnthropicのAmodeiとOpenAIのAltmanが同席した際の気まずい場面も話題となり、インドを巡るAI巨人の競争が鮮明になっています。

インドは英語話者の豊富な人材と若年層の多い人口構造を強みに、米中に続く第3のAI大国を目指しています。

出典：TechCrunch | TechCrunch | TechCrunch | TechCrunch

MetaがNVIDIA GPUを数百万個大量確保

2026年02月18日 NVIDIA Meta Llama 半導体 GPU ハードウェアインフラ

史上最大規模のチップ調達

数百万個のNVIDIA GPU調達

MetaのAIインフラ大規模増強

コンピューティングパワーバランスの変化

業界への影響

GPU需給がさらに逼迫する可能性

AI競争のハードウェア化

ハイパースケーラーの囲い込み加速

詳細を見る

MetaがNVIDIAとの新たな大型取引を通じて数百万個のAIチップを確保したことが明らかになりました。この規模の調達は新たなコンピューティング時代の到来を示すものとしてVentureBeatは分析しています。

MetaはLlamaなどのオープンソースLLM開発と大規模AIサービスのために膨大な計算資源を必要としており、GPU確保競争がさらに激化する見込みです。

このディールはNVIDIAの市場支配力を再確認させるとともに、大手テック企業がAIハードウェアを戦略的資産として位置づけていることを示しています。

出典：The Verge | WIRED

インドがNVIDIAとAIインフラ連携を強化

2026年02月18日 NVIDIA GPU インフラインド提携

インド×NVIDIAの戦略提携

NVIDIAがインドのAI使命を支援

産業ソフト大手も参画

AI主権戦略の推進

詳細を見る

インドはNVIDIAや世界の主要産業ソフトウェア企業との大規模なAIパートナーシップを発表しました。インドのAIミッションを加速させるための重要な連携となります。

NVIDIAのGPUとソフトウェアスタックがインドのAIインフラ基盤として採用されることで、インドのAI計算能力が大幅に強化される見込みです。

出典：NVIDIA公式 | NVIDIA公式

AI需要でDRAM価格が7倍に高騰と判明

2026年02月17日 GPU インフラデータセンター投資

メモリコスト問題の深刻化

DRAM価格が7倍に急騰

HBMが最重要コンポーネントに

AIインフラのコスト構造が変化

詳細を見る

AIモデルの稼働に必要なメモリ（DRAM）の価格が過去1年で約7倍に急騰していることが明らかになりました。GPUに注目が集まりがちなAIインフラコスト議論において、メモリが新たなボトルネックとして浮上しています。

特にHBM（高帯域幅メモリ）の需要がハイパースケーラーの大規模データセンター投資と相まって急増しています。エンタープライズAI展開においてもメモリコストの管理が重要な課題となっています。

出典：TechCrunch

NvidiaとGroqがリアルタイムAI推論競争、企業の勝敗を決める速度戦

2026年02月16日 NVIDIA Groq エコシステム推論 GPU オンデバイス LPU インフラクラウド

リアルタイム推論の重要性

応答遅延が企業AIの競争力を左右

GroqのLPUアーキテクチャが高速推論をリード

NvidiaのH200・Blackwellが追撃

ミリ秒単位の差がユーザー体験を決定

企業への実装示唆

遅延予算を明確に定義することが重要

ストリーミング応答で知覚遅延を低減可能

推論インフラの選択がコア競争力に

エッジ展開と中央集権型の使い分けが鍵

詳細を見る

記事は古代ピラミッドの比喩を用いながら、AIリアルタイム推論の重要性と、NvidiaとGroqがこの分野でどのように企業向け市場を争っているかを分析しています。

GroqはLPU（Language Processing Unit）という専用アーキテクチャにより、汎用GPUよりも大幅に高速なテキスト生成を実現しています。1秒あたりのトークン生成数でNvidia GPUを凌駕するデモが注目を集めています。

NvidiaはH200やBlackwellシリーズで推論性能を向上させながら、CUDAエコシステムという強固な参入障壁を維持しています。エンタープライズ市場での信頼性・サポート体制でGroqを圧倒しています。

企業が推論インフラを選ぶ際には、ピーク遅延、スループット、コスト、信頼性を明確に定義した上で選択することが重要です。遅延バジェットを設定し、それに基づいてアーキテクチャを選ぶアプローチを推奨しています。

長期的には、エッジデバイス上での軽量モデル実行と、クラウド上の高性能モデルを使い分けるハイブリッド推論が主流になると見られており、企業はその両方に対応できる柔軟な設計が求められます。

出典：VentureBeat

インドAIインフラに巨額投資、Neysa12億ドル調達とC2i電力革新

2026年02月15日 GPU インフラクラウドデータセンターエネルギーインドスタートアップ投資 Sequoia

Neysa巨額調達

Blackstoneが最大1.2B USDを出資

TVS Capital等も共同出資者として参加

インド国内のGPUクラスター拡充に活用

国内AI基盤の自立強化が目標

C2i電力ソリューション

Peak XV（旧Sequoia India）が投資

データセンターの電力損失を削減する技術

AIインフラの電力が主要ボトルネック化

プラグアンドプレイ型電力変換システム

詳細を見る

インドAIインフラスタートアップ「Neysa」が米プライベートエクイティ大手Blackstoneから最大12億ドルの出資を確保しました。Teachers' Venture GrowthやTVS Capitalも共同出資者として加わり、インド国内のGPUコンピュート基盤拡充に投資されます。

同時に、インドのスタートアップC2i SemiconductorsがPeak XV Partners（旧Sequoia India）の支援を受けました。C2iはAIデータセンターの消費電力効率を劇的に改善するプラグアンドプレイ型電力管理システムを開発しています。

AIデータセンターにとって電力は今や計算資源以上の制約要因となっており、大規模施設での電力損失は重大な経済問題です。C2iは変換効率の向上でこのボトルネックに対処します。

両投資はインドが自国AIインフラの「自給自足」を目指す国家戦略と軌を一にしています。外国クラウドへの依存を減らし、データ主権を確保したい政府の意向とも合致しています。

インドのAIコンピュートへの民間投資はこの数ヶ月で急増しており、アジアの主要AI拠点としてのインドの地位が急速に確立されつつあります。

出典：TechCrunch | TechCrunch

CodexとClaudeがカスタムGPUカーネルを全ユーザーに解放

2026年02月13日 Claude Codex エンジニア専門家推論 GPU

GPU最適化の民主化

カスタムカーネル生成がAI支援で一般開発者に解放

CUDA専門知識なしでGPU最適化を実現

AI推論コストの削減を広く可能に

詳細を見る

CodexとClaudeのコード生成能力を組み合わせて、専門知識なしでカスタムGPUカーネルを生成できる機能が全ユーザーに開放されました。これまでCUDA専門家のみが担えたGPU最適化がAIの力で民主化されます。

カスタムGPUカーネルは特定の計算ワークロードに対してGPU使用効率を大幅に改善できますが、その開発には深い専門知識が必要でした。AIによる生成でこの技術的障壁が大幅に下がります。

この機能はMLエンジニアや研究者が推論効率を最大化する際の重要なツールとなります。自社AI推論のコスト削減に取り組む企業にとって実務的な価値があります。

出典：Hugging Face

OpenAIがCerebrasチップ採用、NVIDIAに依存しない即時コード生成

2026年02月12日 OpenAI NVIDIA GitHub Groq Cerebras Copilot GitHub Copilot エンジニア推論半導体 GPU コーディング Intel

Cerebras採用の意義

OpenAIが初めてNVIDIA以外のチップを本番採用

Cerebrasのウェーハスケール技術で超低レイテンシ推論

コーディングモデルで「ほぼ即時」の応答を実現

詳細を見る

OpenAIはAIチップメーカーCerebrasのウェーハスケールプロセッサを「ほぼ即時」のコード生成に使う初の本番展開を発表しました。これはOpenAIがNVIDIAへの独占的依存から脱却する動きの一環として注目されています。

Cerebrasのウェーハスケールエンジン（WSE）は、一枚のウェーハ全体に統合された巨大なチップで、メモリ帯域幅と並列処理能力において従来のGPUとは異なるアーキテクチャを持ちます。特にトークン生成の速度で優位性を発揮します。

この動きはAIチップ市場における競争多様化を示しています。NVIDIAの一極支配に対して、Cerebras、Groq、AMD、Intel Habanaなど複数のチップベンダーが特定ユースケースで食い込む余地を見せています。

開発者にとっては、コーディング支援ツールの応答速度が実際の開発体験を大きく左右します。「ほぼ即時」のコード補完は、GitHub Copilotなどとの競争において重要な差別化要素となります。

出典：VentureBeat | Ars Technica

NVIDIAブラックウェルでAI推論コストが最大10分の1に低下

2026年02月12日 NVIDIA AI活用 AI導入推論 GPU ハードウェアインフラ日本投資オープンソースモデル

コスト革命の実態

Blackwellで推論コストが最大10倍低下

オープンソースモデルとの組み合わせで効率最大化

ハードウェアだけでなくソフトウェア最適化も重要

詳細を見る

NVIDIA Blackwell GPUとオープンソースモデルの組み合わせにより、主要AI推論プロバイダーがコストを最大10倍削減できることが実証されました。この価格低下はAI活用の経済的障壁を大幅に引き下げます。

ただし記事はハードウェアのみが解決策ではないと警告しています。ソフトウェアスタック、モデルの最適化、そして推論最適化技術（量子化、蒸留など）を組み合わせて初めてコスト削減が実現します。

この価格低下は企業のAI導入コストを大幅に変化させます。これまでコスト面でAI活用を躊躇していた企業にとって、ROIの改善により積極的な導入が可能になる局面を迎えています。

日本企業のAIインフラ投資においても、Blackwellへの移行タイミングとコスト最適化戦略の検討が重要になっています。

出典：VentureBeat | NVIDIA公式

AI推論スタートアップModal Labsが25億ドル評価額で資金調達へ

2026年02月11日 Google AWS エンジニア推論 GPU インフラクラウドスタートアップ資金調達評価額ベンチャーキャピタル

Modal Labsの調達計画

評価額25億ドル（約3750億円）での新ラウンド交渉中

AI推論インフラ専門スタートアップとして急成長

開発者向けGPU クラウド市場の需要拡大を反映

詳細を見る

AI推論インフラ専門スタートアップのModal Labsが約25億ドル評価額での新規資金調達を複数のVCと交渉中であることが明らかになりました。同社は開発者がGPUリソースを従量課金で利用できるクラウドインフラを提供しています。

Modal Labsの成長は、AIモデルの推論（inference）需要が爆発的に拡大していることを背景としています。学習（training）だけでなく、本番環境での推論コストが企業にとって主要なAI支出項目となってきています。

同社はAWS、Google Cloud、Azureに次ぐ専門AI推論プラットフォームとして、特に開発者コミュニティでの支持を拡大しています。今回の評価額は同分野でのModal Labsの競争力を示しています。

出典：TechCrunch

AIのGPU問題はデータ転送速度の問題、RRAM記憶壁の解決策へ

2026年02月09日エンジニア半導体 GPU ハードウェアインフラ投資 IEEE

データ転送ボトルネック

GPUよりデータ転送層がAI性能の制約要因

高価なGPUが処理待ちで長時間アイドル状態に

F5がAIフレームワークとストレージ間の制御層を提案

プログラマブル制御ポイントの不在が非効率を招く

エンタープライズAIの真のボトルネックを解説

RRAM記憶壁の突破口

Bulk RRAMがDRAMの記憶密度を10倍超に向上

処理器近傍での大容量記憶でデータ転送距離を縮小

AIの記憶壁（Memory Wall）問題への有力ソリューション

従来フラッシュメモリより低レイテンシで高耐久

次世代AIチップ設計の標準候補技術に浮上

詳細を見る

AIインフラへの数十億ドル規模の投資が進む中、多くの企業が高価なGPUが予想外に長時間アイドル状態になると気づいています。F5のソリューションアーキテクト Mark Mengerは「GPUが制約要因であることはほぼない。問題はデータが届かないこと」と指摘しています。

根本的な課題は、AIフレームワークとオブジェクトストレージの間のデータ転送制御層が設計されていないことです。企業がAIインフラを拡張する際には、ストレージとコンピュートの間に独立したプログラマブル制御ポイントを構築することが重要です。

IEEE Spectrumの分析記事では、別の角度からAIのハードウェアボトルネックに迫っています。AIモデルが大規模化するにつれ、DRAMの記憶容量と帯域幅がネックになる「記憶壁」問題が深刻化しています。

Bulk RRAM（抵抗変化型メモリ）は、DRAM比で10倍以上の記憶密度を実現しつつ、フラッシュメモリより大幅に低いレイテンシを提供します。プロセッサの近傍に大容量のメモリを配置できるため、データ転送距離の短縮によるボトルネック解消が期待されます。

AIハードウェアの競争は、GPUの計算性能だけでなく、メモリ帯域幅・容量・転送効率という「隠れたボトルネック」への対処能力を問う新たな段階に入っています。次世代AIチップ設計ではこれらの要素が鍵を握ります。

出典：VentureBeat | spectrum.ieee.org

BenchmarkがCerebrasへの集中投資のため2.25億ドル特別ファンドを設立

2026年02月06日 NVIDIA Cerebras 推論半導体 GPU スタートアップ投資ベンチャーキャピタル IPO

ファンドと投資先

2.25億ドルの特別目的ファンド

Cerebrasに集中投資

AIチップ市場での賭け

Benchmarkの強い確信

TechCrunchが独自報道

Nvidia対抗チップへの本格支援

AI半導体投資の動向

VCの大型集中投資が増加

Cerebras WSEの技術的優位性

AI推論コスト削減への期待

詳細を見る

TechCrunchは2026年2月6日、大手VC Benchmarkが2億2500万ドルの特別目的ファンドを設立し、AI半導体スタートアップのCerebrasに集中投資すると報じた。

Cerebrasは「ウエハースケールエンジン（WSE）」という独自技術で、1枚のウエハーサイズのチップを製造するアーキテクチャを採用しており、LLM推論の速度で業界最速水準を誇る。

Benchmarkが通常の分散型ファンドではなく特別目的ファンドを組成したことは、Cerebrasへの並外れた確信を示しており、IPO前の大型支援として注目される。

NvidiaのGPUへの代替や補完として、推論特化チップの需要が高まる中、Cerebrasは独自アーキテクチャで差別化を図る。

AI半導体市場は今後5年で数千億ドル規模に成長すると予測されており、Benchmarkの集中投資戦略が吉と出るかは業界全体の注目点だ。

出典：TechCrunch

TTT-DiscoverがGPUカーネルを人間の2倍の速さで最適化

2026年02月05日専門家推論 GPU インフラデプロイ

技術の特徴

推論時学習（TTT）で性能向上

GPUカーネル最適化を自動化

人間エキスパートの2倍の速度

オンデマンドのカーネル生成

VentureBeatが技術詳細を解説

AI自己改善の新たな形態

産業・研究への波及

MLOpsコストの大幅削減

推論インフラ効率の向上

自律最適化AIの実現可能性

詳細を見る

VentureBeatは2026年2月5日、「TTT-Discover」が推論時学習（Test-Time Training）によりGPUカーネルを人間の専門家の2倍以上の速度で最適化できると報じた。

Test-Time Training（TTT）とは、モデルが推論中に入力データから自己適応的に学習する手法で、TTT-Discoverはこれをカーネル最適化に応用した。

従来は高度な専門家が数週間かけて行うGPUカーネルの最適化を、AIが自律的かつ高速に実行することで、AIシステム全体の効率が向上する。

この技術はMLOpsの自動化に直結し、モデルのデプロイコストと推論レイテンシーの削減という実用的な価値を持つ。

AIが自らの実行基盤を最適化するという「AI自己改善」の萌芽は、長期的にはAI開発の加速に繋がる重要な研究方向性だ。

出典：VentureBeat

NvidiaのRTX 50 Super遅延、RTX 60シリーズは2028年以降にずれ込む可能性

2026年02月05日 NVIDIA GPU データセンター Intel TSMC

製品ロードマップの変更

RTX 50 Super発売が遅延

RTX 60シリーズが2027年を逃す可能性

生産キャパシティの制約が原因

AI需要優先がコンシューマー供給を圧迫

The Vergeが内部情報を入手

ゲーマーへのアップグレード計画に影響

GPU市場と競争環境

AMD・Intelにとっての好機

中古GPU市場への影響

AI vs ゲーミングの製造リソース競合

詳細を見る

The Vergeは2026年2月5日、NvidiaのRTX 50シリーズのSuperリフレッシュモデルの発売が遅延し、RTX 60シリーズも2027年の発売を逃す可能性があると報じた。

遅延の背景にはAIデータセンター向けデータセンター GPUの旺盛な需要があり、TSMCの製造キャパシティがAI向けGPUに優先配分されているとされる。

コンシューマー向けGPUの供給不足はゲーマーのアップグレードサイクルを延ばし、中古GPU市場の価格高止まりが続く要因となっている。

AMDとIntelにとっては市場シェア拡大の機会となる可能性があるが、両社もTSMCへの依存度が高く、同様の制約を受ける。

AI普及に伴うGPU需要の急増はNvidiaのビジネスモデルを変え、コンシューマー市場からデータセンター市場へのリソース傾斜が加速している。

出典：The Verge

AmazonとGoogleがAIインフラ競争をリード、AWSクラウド収益も急伸

2026年02月05日 Google マイクロソフト Meta Amazon AWS リスク GPU インフラクラウドデータセンタークラウドサービス投資

CAPEX競争の実態

Amazon・GoogleがAI設備投資でトップ

AWS収益が高成長を継続

Google CloudもAI需要で加速

設備投資合戦の「賞品」は何かを分析

AIインフラへの数百億ドル規模投資

マイクロソフト・Metaも追随

クラウド業界の構造変化

AIトレーニング需要が需要を牽引

GPU供給不足への対策投資

中小クラウドとの競争力格差拡大

詳細を見る

TechCrunchは2026年2月5日、AmazonとGoogleがAI設備投資（CAPEX）競争を主導しているが、その「賞品」は何なのかを分析した。

AWSはAI関連クラウドサービスへの旺盛な需要を背景に高い収益成長を維持しており、Amazonの主要収益エンジンとしての地位を固めている。

GoogleのCloud部門も同様にAI需要により加速成長しており、データセンター建設への巨額投資が続く。

TechCrunchの分析では、CAPEXの「賞品」は単なるクラウド市場シェアではなく、AI時代の基盤インフラ支配権であるとされる。

MicrosoftとMetaも数百億ドル規模の設備投資を行っており、AIインフラ競争の敗者は将来のAIサービス競争力を失うリスクがある。

出典：TechCrunch | TechCrunch

NvidiaとOpenAIの1000億ドル投資計画が消えた理由が不明のまま

2026年02月03日 OpenAI NVIDIA xAI 投資家 GPU インフラ投資 SpaceX

消失の経緯

1000億ドルの投資計画が消滅

発表から半年で追跡不能

両社から説明なし

背景の推測

SpaceX-xAI合併との競合

優先順位の変化

投資家への情報開示問題

詳細を見る

2025年9月、NvidiaとOpenAIは最大1000億ドルのAI インフラ投資に向けた基本合意書（LOI）を発表しましたが、2026年2月時点でその後の進捗に関する公式情報が一切ありません。

Nvidia・OpenAIいずれからも計画の状況についての公式更新がなく、業界アナリストの間では事実上の計画撤回ではないかとの見方が広まっています。

消滅の可能性がある理由として、SpaceX-xAI合併によるAI計算インフラ戦略の変化、OpenAIの内部優先順位の変化、または交渉が難航している可能性が挙げられています。

このケースは、テック業界の巨額発表が実際の契約締結まで至らないことがいかに多いかを示すとともに、投資家や市場に対する情報開示の透明性問題を提起しています。

NvidiaとOpenAIの関係はGPU供給において依然重要ですが、大型協業の行方は業界再編の加速を象徴する一幕として記憶されるでしょう。

出典：Ars Technica

NvidiaのCEO Jensen Huangが「あらゆるものが仮想ツインで表現される」と予言

2026年02月03日 NVIDIA シミュレーションデジタルツイン GPU エネルギー医療 Jensen Huang

仮想ツインのビジョン

物理世界の仮想ツイン化

産業AI×世界モデル

Dassaultとの協業

技術的基盤

物理ベースシミュレーション

製造・都市設計への応用

NVIDIAの産業AI戦略

詳細を見る

NVIDIAのCEO Jensen Huangは3DEXPERIENCE Worldにて、あらゆる物理的存在が仮想ツインとして表現されると予言し、産業AIと物理ベースの世界モデルの融合を提唱しました。

物理ベースの世界モデルは、工場・都市・製品をデジタル空間で完全に再現し、AIが現実の代わりにシミュレーション環境で学習・検証できる仕組みです。

Dassault Systèmesとの連携は、製造・建設・エネルギーなどの産業設計にNVIDIAのグラフィクスとAI処理能力を統合し、デジタルツインの精度と実用性を高めます。

仮想ツインの普及は、製品設計・都市計画・医療診断など幅広い分野で、試作コストの削減と意思決定の迅速化をもたらすと期待されています。

NVIDIAがGPUビジネスを超えて産業AIプラットフォームとして成長しようとする戦略の核心が、この「万物の仮想ツイン化」というビジョンに集約されています。

出典：NVIDIA公式

IntelがGPU市場参入を宣言、Nvidiaが支配する高需要分野への挑戦

2026年02月03日 NVIDIA リスク GPU インフラ Intel

Intel参入の概要

CEO Lip-Bu TanがGPU参入を宣言

AI需要への対応が急務

Nvidia独占への挑戦

市場への影響

GPU供給の多様化

価格競争の激化

IntelのAI戦略再構築

詳細を見る

IntelのCEO Lip-Bu Tanは、Cisco AIサミットにおいてIntelがGPU製造に参入すると表明しました。AI需要で急成長するGPU市場でNvidiaが圧倒的なシェアを持つ中、Intelは競争に加わります。

Intelはこれまで独自のGaudi AIアクセラレータで対抗してきましたが、汎用GPU市場への本格参入はより広い顧客層を狙う戦略転換を意味します。

GPU不足が企業のAI開発を制約する中、Intelの参入は供給多様化につながり、NvidiaへのAI計算依存リスクを分散させる効果があります。

ただしIntelはCPU市場での競争力低下から回復途上にあり、新たなGPUを高品質・大規模に製造・出荷する能力には市場からの懐疑的な視点も存在します。

長期的にはIntelの参入がNvidiaへのプレッシャーとなり、GPU価格の安定化とAIインフラのコスト低下につながる可能性があります。

出典：TechCrunch

NvidiaのCEOがOpenAIへの1000億ドル投資に不満がないと否定

2026年01月31日 OpenAI NVIDIA DeepSeek AWS GPU クラウド投資 Jensen Huang

Jensen Huangの発言

「不満でない」と明確に否定

OpenAI投資を支持

報道との食い違い

Nvidia-OpenAI関係

GPU供給の継続

競合deepseekへの影響

戦略的パートナーシップ

詳細を見る

NvidiaのCEO Jensen Huangは、OpenAIへの1,000億ドル投資関与への「不満」を示唆する報道を否定し、OpenAIとの戦略的パートナーシップを引き続き支持すると明言しました。

NvidiaにとってOpenAIは最大のGPU購入顧客の一つであり、AWSやGCPなどのクラウドベンダーとの競合が強まる中でも、この関係は非常に重要な戦略的資産です。

出典：The Verge | TechCrunch

ClaudeがCUDAカーネルを構築しオープンモデルにGPUプログラミングを教える

2026年01月28日 Claude GPU オープンソースモデル

技術的成果

Claude製CUDAカーネル生成

オープンモデルへのGPU知識転移

低レベル最適化のAI化

研究的意義

AI自身がAI訓練を最適化

モデル蒸留への応用

GPUプログラミングの民主化

詳細を見る

研究者たちはClaudeを使ってCUDAカーネルを構築し、そのコードでオープンソースモデルのGPU処理最適化を教える実験に成功しました。

AIがGPUレベルの低レベル最適化コードを書けるようになったことは、AIシステムの自己改善における重要な一歩であり、将来的にはAIがAI訓練基盤を最適化する可能性を示しています。

出典：Hugging Face

熱力学的コンピューティングがAI画像生成のエネルギー効率を向上か

2026年01月27日画像生成 GPU エネルギー画像

技術の概要

熱力学的演算アーキテクチャ

AI画像生成のエネルギー削減

従来のGPUへの代替可能性

業界への影響

AI計算の炭素排出削減

グリーンAIへの新アプローチ

商業化への課題

詳細を見る

熱力学的コンピューティングという新しいアーキテクチャがAI画像生成において大幅なエネルギー効率向上をもたらすことが示されました。

AI計算の電力消費問題が深刻化する中、この技術はGPUに依存しない省エネルギーなAI演算の可能性を開くものとして研究者の注目を集めています。

出典：spectrum.ieee.org

NvidiaがCoreWeaveに20億ドルを投資し5GWのAI計算容量を追加

2026年01月26日 NVIDIA GPU インフラクラウド投資

投資の背景

CoreWeaveへの20億ドル投資決定

5GWのAI計算容量拡充

負債を抱えるCoreWeaveの財務支援

AI計算需要

AI需要急増に対応したインフラ拡張

Nvidia GPUの需要確保戦略

クラウド GPU市場での地位強化

詳細を見る

NvidiaはGPU クラウドプロバイダーのCoreWeaveに対して20億ドルの投資を行い、5GWものAI計算容量の追加を支援することを発表しました。

CoreWeaveは多額の負債を抱えているものの、Nvidiaからの投資支援によりAIインフラ拡張を継続できる体制が整います。

出典：TechCrunch

NeurophosTが光学AIプロセッサで1.1億ドルを調達

2026年01月22日 NVIDIA 推論半導体 GPU データセンターエネルギー投資資金調達

技術の概要

光学チップでAI推論を実現

透明なシリコン光集積回路

電力効率が桁違い

エッジ推論への応用期待

市場ポテンシャル

NVIDIAへの代替技術の芽

電力問題解決の切り札

半導体パラダイムの変化

大規模投資の正当性

詳細を見る

光学AIプロセッサを開発するNeurophosTが1.1億ドルの資金調達を完了した。「透明なシリコン」と呼ばれる光集積回路を使ってAI推論を電気信号の代わりに光で処理する革新的アプローチだ。

従来の電気ベースのGPUと比べて消費電力を大幅に削減できる可能性があり、データセンターの電力問題解決に貢献できるとしている。エッジデバイスへの展開も視野に入れている。

NVIDIAとの直接競合には時間がかかるが、AIチップ設計のパラダイム転換候補として注目される。実用化に向けた長期的な投資判断が問われる。

出典：TechCrunch

ジェンスン・フアンがダボスでAIインフラ最大規模建設を宣言

2026年01月21日 NVIDIA エコシステムネットワーク半導体 GPU インフラデータセンターエネルギー投資 Jensen Huang

ダボスでの発言内容

人類史上最大のインフラ整備

AI「5層ケーキ」アーキテクチャ

10兆ドル規模の投資が必要

各国のAI基盤整備を促進

産業への示唆

エネルギー需要の爆発的増加

データセンター建設ラッシュ

半導体サプライチェーンへの影響

地政学的競争の激化

詳細を見る

NVIDIAのジェンスン・フアンCEOはダボスでの講演で、現在進行中のAIインフラ整備を「人類史上最大のインフラ建設」と表現した。5層構造（データセンター・電力・冷却・ネットワーク・AI）で構成される巨大エコシステムの構築が必要だと述べた。

この発言は、AI競争が単なるモデル性能の争いを超え、物理インフラの争奪戦に移行していることを明示する。各国政府や大手テック企業はデータセンター建設と電力確保を急いでいる。

NVIDIAにとってはGPU需要の継続的拡大を裏付ける発言であり、半導体サプライチェーン全体への投資機会を示唆するものでもある。

出典：NVIDIA公式

a16zが「エージェント型動画編集」の時代が来たと論じる

2026年01月21日ワークフロークリエイター GPU ハードウェア動画スタートアップ投資エージェント Andreessen Horowitz Adobe

論文の主張

動画編集のエージェント化が熟した

ツールからAIエージェントへの転換

非線形編集ワークフローの自動化

クリエイター市場の構造変化

投資機会の示唆

大規模市場参入の好機

既存プレイヤーへの脅威

新興スタートアップの台頭

ハードウェアとの連携

詳細を見る

a16zのパートナーは、動画編集ワークフローへのAIエージェント導入が技術的に成熟したと論じるエッセイを発表した。クリエイターの労働集約的工程がAIに代替される時代が来たと指摘している。

具体的には、映像のカット・テロップ生成・カラーグレーディング・エフェクト適用などを自律型エージェントが行うことが現実的になったと示す。Adobe・DaVinciなど既存ツールへの脅威となる。

クリエイター経済全体のコスト構造を変える可能性があり、投資機会としても注目されている。ハードウェア（GPU）との連携もエージェント動画編集の実用化を支える。

出典：a16z.com

DeepSeekショックから1年、中国AIがグローバル競争をどう変えたか

2026年01月20日 Google OpenAI Anthropic NVIDIA DeepSeek エコシステム GPU 米国中国日本欧州インド米中

DeepSeekが与えたインパクト

低コスト高性能の証明

米国AI株の大暴落を引き起こした

オープンソース戦略が世界に衝撃

GPU規制への疑問符

AI開発コスト常識が覆った

1年後の変化

効率化競争が激化

各社がコスト削減を優先

欧州・インドがお手本に

中国AIエコシステムが成熟

地政学的AI分断が深まる

詳細を見る

中国のDeepSeekが低コストで高性能なAIモデルを公開してから1年が経過しました。この「DeepSeekショック」はNvidiaをはじめとするAI株に衝撃を与え、AI開発コストの常識を覆しました。

DeepSeekが証明したのは、計算効率の改善によって少ない計算資源でも最高水準のAIモデルを構築できるということです。この発見は業界全体のコスト意識を変えました。

1年後の現在、OpenAI・Anthropic・Googleを含む主要AI企業は効率化を重要な研究テーマとして取り上げています。また欧州や日本など多くの地域がDeepSeekを「自国モデル開発」の成功例として参照しています。

一方でAIの地政学的分断はむしろ深まっており、米中のAI技術が異なる生態系として発展するという見方が強まっています。

出典：Hugging Face

AnthropicのCEOがダボスでNvidiaを公開批判、AI競争の核心を突く発言

2026年01月20日 Anthropic NVIDIA 半導体 GPU 欧州投資 Intel Dario Amodei

批判の内容

Dario AmodeiがNvidiaを名指し批判

GPU独占がAI競争を歪める

ダボス会議という舞台での発言

H100価格の高騰が問題

競争阻害につながると主張

業界への影響

Nvidia株への心理的影響

AMD・Intelへの追い風

GPU代替技術への投資加速

規制当局の関心が高まる

カスタムチップ開発が活発化

詳細を見る

AnthropicのCEO Dario Amodei氏はダボス会議で、Nvidiaの市場支配力がAI産業の競争環境を損なっているという趣旨の発言を行い、会場を驚かせました。

NvidiaのGPU市場における支配力は圧倒的であり、AI企業はH100・B100などの高性能GPUなしにはLLMの学習ができません。この独占が価格設定力を与えていると批判されています。

Anthropicにとっては、カスタムシリコン開発や代替チップベンダーとの関係強化が長期的な戦略として見え隠れする発言でもあります。

独占規制の観点からもNvidiaへの注目が高まっており、AI半導体市場にDOJや欧州委員会が関心を持ち始めているという観測も出ています。

出典：TechCrunch

AIバブルは単一ではなく複数の独立したバブルの集合体という分析

2026年01月18日投資家経営者 GPU インフラデータセンターエネルギー中国投資バブル

複数バブル論の骨子

インフラバブルは規模が大きい

アプリケーションバブルは別物

中国AIバブルは独自サイクル

各バブルの崩壊時期が異なる

過度な一般化を戒める分析

実践的な見方

投資判断はカテゴリー別に必要

インフラ需要は実需が存在する

アプリ層は淘汰が進む可能性

企業採用は堅調で崩壊しにくい

見極めの精度が投資家を差別化

詳細を見る

AIバブル論について、「それは実際には複数の異なるバブルであり、それぞれ異なる崩壊タイミングを持つ」という新しい分析が注目されています。一括りに「AIバブル」と語ることへの警鐘です。

具体的には、AIインフラ投資（データセンター、GPU、電力）バブル、AIアプリケーションバブル、そして中国AI独自のバブルなどは、それぞれ異なる需要基盤と崩壊条件を持っています。

インフラ投資については実際のAI需要が存在しており「バブル」と呼ぶのは不正確だという意見もあります。一方AIアプリの多くはまだ収益化できておらず、淘汰が始まる可能性があります。

投資家・経営者にとっては、一括りの「AIバブル崩壊」を恐れるのではなく、カテゴリーごとに実態を精査した戦略立案が重要という示唆を与えています。

出典：VentureBeat

AIクラウドRunPodがARR1.2億ドル達成、Redditの投稿から4年で快挙

2026年01月16日 AWS 創業者投資家推論 GPU インフラクラウドクラウドサービススタートアップ投資資金調達 ARR Reddit

成長の軌跡

Redditの1投稿からスタート

設立4年でARR1.2億ドル達成

GPUクラウドサービスを提供

急拡大するAI需要を取り込む

スタートアップ向けに特化

市場における位置づけ

AWS・Azureとの差別化成功

低コストGPUで競争優位

AI企業のインフラ需要を満たす

次の資金調達への期待高まる

上場も視野に入る水準

詳細を見る

RunPodはAIアプリのホスティングプラットフォームで、わずか4年でARR(年換算売上高)1.2億ドルを達成しました。創業者のZhen LuとPardeep Singhが、Redditへの一投稿から事業を始めたという異色の創業ストーリーが話題を呼んでいます。

同社はGPU クラウドサービスを提供しており、AWS・Azureよりも低コストなGPUリソースを求めるAIスタートアップや研究者に支持されています。

生成AIブームによるGPU需要急増の恩恵を直接受けており、収益成長が急加速しています。同様のAIインフラビジネスへの投資家の関心も高まっています。

AIモデル学習・推論の需要が今後も継続すると見られる中、代替インフラプロバイダーとしてのRunPodの存在感は一層高まりそうです。

出典：TechCrunch

OpenAIがCerebrasと100億ドルの計算資源契約を締結、推論能力を大幅強化

2026年01月14日 Google OpenAI NVIDIA マイクロソフト Amazon Cerebras 推論リスク半導体 GPU TPU 投資評価額 Scale AI

契約の規模と意義

100億ドル規模の計算リソース調達契約

Cerebrasの高速AI推論チップを活用

Nvidiaへの依存度を分散

推論速度の大幅な向上を期待

AIサービスのスケールアップに対応

業界への影響

Nvidiaの独占的地位に楔

AI推論チップ市場に競争促進

Cerebrasの評価額が急上昇

AI計算資源調達の多様化が加速

他のAI企業も同様戦略を検討か

詳細を見る

OpenAIはCerebrasと推定100億ドル規模の計算資源契約を締結しました。CerebrasはウェハースケールAI チップで知られる企業で、その高速な推論能力はOpenAIのサービス拡張に重要な役割を果たします。このサイズの調達契約はAI業界史上でも有数の規模です。

Cerebrasのチップはトークン生成速度においてNvidiaのGPUを大幅に上回るとされており、OpenAIのリアルタイム応答品質と処理能力の向上に直結します。またNvidiaへの依存分散という戦略的意味も持ち、AI計算資源のサプライチェーンリスクを低減する狙いがあります。

この契約はAI計算資源の調達競争が新たな段階に入ったことを示しています。Googleの独自チップ（TPU）、AmazonのTrainium/Inferentia、Microsoftの独自AIチップと並んで、GPU代替技術への投資が加速しており、Nvidia一強時代の終わりが近づいている可能性があります。

出典：OpenAI公式 | TechCrunch

DeepSeekの条件付きメモリがLLMの静的コンテキストによるGPU無駄を解消

2026年01月13日 DeepSeek 推論 GPU プロンプトコンテキスト

技術の仕組みと効果

静的コンテキストの無用なGPU計算を排除

条件付きキャッシュで動的に再計算

メモリ帯域の効率を大幅に改善

推論コストの削減に直接貢献

長コンテキストモデルの課題を解決

詳細を見る

DeepSeekが開発した条件付きメモリ技術は、LLMが長いシステムプロンプトや静的コンテキストを処理する際に無駄に消費していたGPUサイクルを削減します。コンテキストが変化した場合のみ再計算を行うことで、特に長コンテキストを多用するエンタープライズアプリケーションでの推論コストを削減できます。

DeepSeekは低コスト・高効率のLLM開発において継続的に革新を示しています。推論効率化技術はLLMの運用コスト削減に直接貢献するため、多くのAIシステムに採用される可能性があります。

出典：VentureBeat

NvidiaのRubinがラックレベル暗号化を導入、エンタープライズAIセキュリティが転換点

2026年01月12日 NVIDIA エコシステム推論 GPU ハードウェアデータセンターセキュリティコンプライアンス医療

技術革新の概要

Rubin GPUでラックスケール暗号化実装

ハードウェアレベルのAIデータ保護

エンタープライズAIの機密データ対策

コンプライアンス対応を大幅に簡素化

データセンター全体の暗号化戦略

詳細を見る

NvidiaのRubinアーキテクチャがラックスケール暗号化機能を導入し、エンタープライズAIセキュリティにおいて重要な転換点をもたらしました。これにより機密性の高い企業データをGPUクラスター全体で安全に処理できるようになり、金融、医療、政府機関などの厳格なコンプライアンス要件に対応できます。

ハードウェアレベルのセキュリティ強化はソフトウェア層での対応と比較して根本的な保護を提供します。AI推論フレームワークのセキュリティ課題を解決する手段として、規制の厳しい業界でのNvidia エコシステムの採用を加速させる可能性があります。

出典：VentureBeat

NvidiaのVera RubinアーキテクチャとBlackwellの性能向上が迫る

2026年01月09日 Google NVIDIA AWS 推論 GPU インフラクラウドエネルギー

次世代GPUロードマップの詳細

Vera Rubin GPU アーキテクチャが数ヶ月以内に登場

Blackwellはソフトウェア最適化で性能を継続向上

Vera Rubinは前世代比で大幅な電力効率改善を達成

H100比較で推論スループットが数倍に

マルチノード学習の最適化でトレーニング効率も向上

NvidiaのAIインフラ支配を次の世代でも維持

詳細を見る

VentureBeatの記事は、Nvidia Vera Rubinアーキテクチャが数ヶ月以内に市場投入されることを伝え、一方で現行Blackwellアーキテクチャが継続的なソフトウェア最適化によって性能を伸ばしていることも報じています。

Vera Rubinはブラックウェルの後継として、AI推論スループットと電力効率の両面で大幅な改善を実現する予定です。特に大規模言語モデルの推論（inference）ワークロードにおけるバッチ処理効率が重視されています。

Nvidiaは複数世代のGPUを市場に並行展開しながら顧客の移行サイクルを管理する高度な製品戦略を取っています。AWSやGoogle CloudなどのクラウドプロバイダーがVera Rubinを採用するタイミングがAI計算コストに大きな影響を与えます。

出典：VentureBeat | NVIDIA公式

IntelスピンアウトArticul8が5億ドル評価で7000万ドルを調達

2026年01月07日 NVIDIA AI導入半導体 GPU クラウドコンプライアンスデプロイ医療資金調達評価額 Databricks Intel Snowflake

Articul8の位置付けと調達内容

Intelのスピンアウト企業Articul8が7000万ドル超を調達

調達後の企業評価額は5億ドルに達する

エンタープライズAIプラットフォームの構築に特化

Intel製チップの最適化で垂直統合の強みを発揮

Fortune 500企業向けに特化したAIデプロイ支援

Intel技術とエンタープライズAIの橋渡し役に

エンタープライズAI市場の競争

Databricks・Snowflakeなど既存大手との差別化が課題

Intel技術スタックへの深い理解が競争優位に

オンプレミスAIの需要増加をビジネス機会に

金融・医療・製造向けのコンプライアンス対応も重視

Intelの顧客基盤を活用した既存チャネル展開

エンタープライズAI市場の専門特化企業が台頭

詳細を見る

IntelからスピンアウトしたAI企業Articul8は、7000万ドル超の資金調達ラウンドを完了し、企業評価額5億ドルに達しました。エンタープライズAIプラットフォームに特化した独立企業として、Intel技術スタックを基盤とした差別化を図っています。

主な顧客ターゲットはFortune 500企業で、オンプレミスまたはプライベートクラウドでのAIデプロイメント支援に強みを持ちます。コンプライアンス要件が厳しい金融・医療・製造業界での採用が進んでいます。

IntelがGPU市場でNvidiaに遅れを取る中、Articul8のスピンアウトはIntelのAI収益化戦略の一環とも見られます。エンタープライズAI導入の専門支援市場は急成長しており、Articul8の独立した成長軌道に注目が集まっています。

出典：TechCrunch

xAI、シリーズEで2兆円超の資金調達を完了

2026年01月06日 OpenAI Anthropic xAI Grok チャットボット広告投資家リスク GPU インフラデータセンターイーロン・マスク中国欧州中小企業投資資金調達

調達規模と市場へのインパクト

xAIが200億ドルのシリーズE資金調達を発表

Elon MuskのAI企業として史上最大級の調達

Grok チャットボットとイーロン・マスクのXを傘下に持つ

調達後のバリュエーションは過去最高水準

AI軍拡競争における投資額の新たな基準を設定

OpenAIやAnthropicへの競争圧力が増大

資金の用途と今後の展開

データセンター拡張・GPU調達に充当予定

Grokモデルの性能強化を加速

エンタープライズ市場への本格参入を計画

次世代AI研究への投資を強化

X（旧Twitter）とのAI統合をさらに深化

中国・欧州市場への展開も視野に入る

詳細を見る

xAIは1月6日、200億ドル（約3兆円）のシリーズE資金調達を完了したと発表しました。イーロン・マスクが率いるAI企業として、Grok チャットボットとソーシャルメディアプラットフォームXを傘下に持つxAIにとって、史上最大規模の調達となります。

この調達はOpenAIやAnthropicといった主要AI企業との競争を激化させるもので、AIインフラ、モデル開発、エンタープライズ製品への大規模投資が見込まれます。投資家はxAIのXとのデータ連携や広告テクノロジーへの展開に期待を寄せています。

AI産業全体として見ると、このような巨額調達が相次ぐことで、資本力のない中小企業との格差が拡大しています。規制当局も資金集中と市場独占に関するリスク評価を強化しており、今後の競争環境に注目が集まっています。

出典：TechCrunch

ユニバーサルミュージックとNvidiaがAI音楽創作で提携

2026年01月06日 NVIDIA AI活用 GPU 著作権音楽提携

音楽業界のAI活用戦略

ユニバーサルミュージックとNvidiaがAI音楽モデルを共同開発

世界最大の音楽カタログへのAI適用を発表

アーティスト保護を前提とした権利処理モデル

楽曲制作・マスタリング支援AIの開発を計画

音楽業界初の大手レーベルとGPUメーカーの提携

生成AI音楽の著作権問題に先手を打つ姿勢

権利保護と収益モデルの設計

アーティストへの収益分配の仕組みを構築

無許可の学習データ問題を回避する枠組み

ライセンス収入の新たな流れを創出

レーベル・アーティスト・AI企業三者の合意形成

音楽版権管理とAI学習の両立を模索

業界標準となるモデル合意の先例になりうる

詳細を見る

ユニバーサルミュージックグループとNvidiaは、世界最大の音楽カタログにAIモデルを適用する包括的な提携を発表しました。単なる技術協力にとどまらず、アーティストの権利保護と収益分配を組み込んだ業界初の枠組みとして注目を集めています。

音楽業界においては、生成AIによる楽曲制作が著作権侵害につながるとして複数の訴訟が進行中です。この提携は許諾済みの楽曲データを用いたAI開発という正攻法を採用しており、業界標準となる可能性があります。

NvidiaのGPUとユニバーサルの膨大な音楽資産を組み合わせることで、作曲支援・マスタリング・音楽推薦など多岐にわたるAIアプリケーションの開発が見込まれます。音楽プロデューサーやアーティストの制作環境が大きく変わる可能性があります。

出典：The Verge

NvidiaがCESでDLSS 4.5・RTX AI動画・Siemens提携を発表

2026年01月06日 NVIDIA Amazon エコシステム動画生成シミュレーション半導体 GPU クラウド動画提携トランスフォーマー GeForce NOW DLSS

CES 2026のNvidia主要発表

DLSS 4.5でMulti Frame Generationを大幅強化

新トランスフォーマーモデルで映像品質と性能を向上

G-SYNC PulsarによるゲームディスプレイのAI制御

GeForce NOWをLinuxとAmazon Fire TVに対応

RTXがLTX-2とComfyUIで4K AI動画生成を加速

SiemensのEDAツールをNvidia GPUで高速化

産業への応用拡大

EDA（電子設計自動化）分野へのGPU活用が拡大

半導体設計シミュレーションを大幅に短縮

AIワークロードの多様化でGPU需要が増加

クラウドゲーミングのエコシステムが拡充

映像生成AIがプロ・コンシューマー両市場に展開

Nvidiaのプラットフォーム戦略が多方面に浸透

詳細を見る

Nvidiaは今年のCES 2026で複数の重要発表を行いました。DLSS 4.5は新しい動的マルチフレーム生成技術と6倍マルチフレームモードを導入し、ゲームのフレームレートと画質を同時に向上させます。第2世代のトランスフォーマーモデルを採用し、従来のCNNベースのDLSSから大きく進化しています。

GeForce NOWはLinux PCとAmazon Fire TVへの対応を新たに追加し、クラウドゲーミングのアクセス可能なデバイスを拡大しました。またRTX AI動画生成では、LTX-2モデルとComfyUIの連携により、PC上での4K品質の動画生成が可能になっています。

SiemensのEDAツールとNvidiaのGPUを組み合わせる提携は、半導体設計の電子シミュレーションを劇的に高速化することを目指しています。AIチップの需要拡大とともに、設計ツールの高速化が業界全体の競争力に直結する重要な取り組みです。

出典：NVIDIA公式 | NVIDIA公式 | NVIDIA公式 | TechCrunch

核融合スタートアップCFSが実機磁石を設置、Nvidiaとも提携

2026年01月06日 NVIDIA シミュレーションエンジニア機械学習 GPU エネルギースタートアップ提携

核融合開発の重要マイルストーン

Commonwealth Fusion Systemsが反応炉用磁石の設置完了

SPARC実証炉の建設が本格化へ

世界最強クラスの高温超電導磁石を採用

商用核融合炉への道筋が具体化

CES 2026で発表、AI企業との連携を強調

2030年代の商用化目標に向けた重要ステップ

NvidiaとのAI連携の意義

Nvidiaとのパートナーシップを同時発表

プラズマ制御にAI・機械学習を活用

核融合シミュレーションにGPUを大規模活用

AI支援によりエンジニアリングサイクルを短縮

エネルギー業界への生成AI応用の先進事例

気候変動対策と先端技術の交差点として注目

詳細を見る

Core Fusion Systems（CFS）はCES 2026において、核融合実証炉SPARCに搭載する高温超電導磁石の設置完了を発表しました。この磁石はプラズマを閉じ込めるために必要な世界最強クラスの磁場を発生させるもので、商用核融合炉への道を切り拓く重要なマイルストーンです。

同時にNvidiaとのパートナーシップも発表されました。プラズマの制御や核融合炉のシミュレーションにNvidiaのGPUとAI・機械学習技術を活用することで、開発サイクルを大幅に短縮する計画です。

核融合とAIという二つの最先端技術の融合は、気候変動対策の観点からも注目されています。CFSは2030年代の商用核融合発電を目指しており、Nvidiaとの連携はその実現加速のための戦略的な取り組みとなっています。

出典：TechCrunch

米国はAI競争で中国に敗れたのか——深刻な問い

2026年01月06日 OpenAI Anthropic DeepSeek エコシステム半導体 GPU 米国中国投資

DeepSeekが示す中国AI台頭

DeepSeek R1が米国モデルに匹敵する性能を発揮

開発コストが米国企業の数分の一と報告

中国企業の効率的なAI開発手法が注目

輸出規制にもかかわらず競争力を維持

米国のAIリードが崩れ始めているとの分析

エコシステム全体での競争力評価が必要に

米国が抱える構造的課題

規制・コスト・人材流出が競争力を削ぐ

GPU輸出規制が中国の自力開発を促進

教育・研究投資で中国が急速に追い上げ

AI人材の育成スピードに差が生じている

産学官連携の仕組みで中国が優位との指摘

戦略的AIロードマップの見直しを求める声

詳細を見る

The Vergeの分析記事は、2026年初頭の状況を踏まえ「米国はAI競争で中国に敗れたのか」という根本的な問いを提起しています。DeepSeek R1のような中国発の高性能モデルが、OpenAIやAnthropicのモデルと競争できる水準に達しているという事実が背景にあります。

輸出規制によって中国企業のGPU調達を制限しようとしてきた米国の戦略が、逆に中国企業の自国半導体開発を加速させるという逆効果を生んでいるとの指摘もあります。中国のAI開発が米国の規制の想定よりも速いペースで進んでいることが明らかになっています。

米国が技術リードを維持するためには、単なる規制強化ではなく、研究投資・人材育成・産学連携の強化が必要との見解が示されています。この議論は2026年の米国AI政策に大きな影響を与えるものとして注目されています。

出典：The Verge

キャッシュ対応ストリーミングASRでリアルタイム音声エージェントを大規模化

2026年01月05日 NVIDIA カスタマーサービス GPU 音声エージェント

ストリーミングASRのスケーリング課題

キャッシュ対応ASRで遅延を大幅削減

NVIDIAのGPUクラスターを活用した大規模展開

リアルタイム音声エージェントの品質が向上

部分的な音声認識結果の活用で即応性アップ

ストリーミングトークンの並列処理が鍵

コールセンター・翻訳・音声AIに直接応用

技術的アプローチの詳細

キャッシュ機構でモデルの再計算コストを削減

ウィンドウスライディングによる効率的な処理

話者交代・無音検出の精度が向上

モデルサイズと遅延トレードオフの最適化

Whisperベースアーキテクチャへの適用

本番環境での実証データを公開

詳細を見る

NVIDIAの研究チームがキャッシュ対応ストリーミングASR（自動音声認識）の大規模展開に関する技術解説を公開した。リアルタイム音声エージェントのボトルネックとなっていた転写レイテンシーを大幅に削減する手法で、コールセンター・音声翻訳・リアルタイム字幕などへの応用が見込まれる。

核心的な技術的革新はキャッシュ機構にある。ストリーミング音声を処理する際、前のフレームで計算したモデルの中間状態をキャッシュし再利用することで、フレームごとの処理コストを大幅に削減できる。

ウィンドウスライディング方式と組み合わせることで、音声のエンドポイント検出と転写精度のバランスを保ちながら低遅延を実現している。話者が発話を終えるまで待たずに部分的な転写結果を活用できるため、エージェントの応答性が向上する。

大規模展開の観点では、GPUクラスターでのスループットが重要だ。複数の音声ストリームを並列処理しながら、各ストリームの遅延を一定以下に保つためのバッチング戦略とメモリ管理の最適化が提示されている。

この技術はカスタマーサービスAIの品質向上に直接貢献する。人間のオペレーターと遜色ない速度でリアルタイムに応答できるAIエージェントの実現が近づいており、コールセンターのAI置き換えが技術的に可能な段階に達しつつある。

出典：Hugging Face

AMD、CES 2026でAI PC向け新プロセッサを発表

2026年01月05日マイクロソフト Copilot Windows エコシステム Llama 推論 GPU オンデバイスクラウドエネルギープライバシー Intel Qualcomm

Ryzen AI PC向け新アーキテクチャ

Lisa SuがCESキーノートでRyzen AI新世代を発表

NPU性能を大幅に向上させた最新アーキテクチャ

一般用途とゲーミング向けの2ラインを展開

Windows Copilot+との統合を最適化

ローカルAI処理でプライバシーとパフォーマンスを両立

Qualcomm・IntelとのAI PC競争が本格化

AI PCエコシステムの成熟

PC搭載NPUがAI処理の主役に

クラウド依存なしのオンデバイスAIが普及段階へ

ゲーミング向けでAIフレーム補間精度が向上

電力効率向上でノートPCのバッテリー寿命延長

AIモデルのローカル実行が一般ユーザーに開放

対応アプリの増加がエコシステムを拡大

詳細を見る

AMDのLisa Su CEOがCES 2026のキーノートでRyzen AIの新世代プロセッサを発表した。NPU（ニューラルプロセシングユニット）の性能を大幅に向上させ、一般用途とゲーミングの両カテゴリー向けに展開する。

新プロセッサはMicrosoftのWindows Copilot+認定要件を大幅に上回る性能を持ち、ローカルでのStable Diffusion・Phi-3・Llamaなどの推論を快適に実行できる。クラウドに頼らないプライベートなAI処理が一般ユーザーに開放される。

ゲーミング向けプロセッサでは、AIフレーム生成技術の精度とレスポンスが向上し、低スペックのGPUでも高品質なゲーム体験が可能になる。AMDのFSR（FidelityFX Super Resolution）とAIの組み合わせがさらに進化した。

AI PCの競争ではQualcomm（Snapdragon X）・Intel（Meteor Lake後継）との激しい競合が続いている。AMDは特にx86アーキテクチャの互換性と高い実行性能を武器に、既存のWindowsソフトウェア資産を活かした差別化を図る。

電力効率の向上も注目点で、同等のAI処理性能を前世代より低い消費電力で実現するとされる。ノートPCでの長時間AI処理が可能になることで、モバイルワーカーにとっての実用性が大幅に向上する見込みだ。

出典：TechCrunch

Nvidia、汎用GPU時代の終焉を認め戦略的転換を宣言

2026年01月02日 NVIDIA Groq Cerebras エコシステムネットワーク推論リスク半導体 GPU データセンター ASI Intel

GroqとのライセンスとAIスタック競争

NvidiaがGroqと200億ドルライセンス契約を締結

推論専用チップ市場での協調・競合の複雑化

AIスタック競争が2026年に表面化

GPU汎用モデルからASIC専用化へのシフト

Nvidiaが4正面（モデル/推論/ネットワーク/ソフト）で戦う

エンタープライズのAI基盤選択が複雑化

次世代AI計算基盤の方向性

汎用GPUの万能戦略が限界を迎える

推論・学習・エッジで最適なチップが異なる

Intelや新興勢力のASICが存在感を高める

ソフトウェアスタックの差別化が鍵に

CUDAエコシステムの優位性は維持されるか

データセンター設計が根本的に変わる転換期

詳細を見る

NvidiaがGroqと締結した約200億ドル規模の戦略的ライセンス契約は、AI半導体業界の地図を塗り替える動きとして注目される。従来の競合関係から協調・ライセンスモデルへの転換は、推論市場の急速な拡大に対応するための現実的判断と見られる。

2026年を境に、AI計算市場は4つの正面で競争が激化するとされる。モデル学習用のNVIDIA H-シリーズ、推論特化のGroqやCerebras、ネットワーク・インターコネクト、そしてソフトウェアオーケストレーションレイヤーが主な競争軸だ。

特に注目されるのはNvidiaが「汎用GPU時代の終焉」を事実上認めた点だ。これは同社がAI専用シリコンへの特化を認め、エコシステム全体でのポジション確保戦略に転換したことを意味する。

エンタープライズ側にとっては選択肢の増加が歓迎される一方、ベンダーロックのリスクも高まる。CUDAに最適化された既存コードベースを保持する企業は、代替アーキテクチャへの移行コストが高く、Nvidia エコシステムの維持を余儀なくされる面がある。

長期的にはAIのワークロード多様化が進むにつれ、学習・推論・エッジ・エンドポイントで最適なシリコンが異なるという「ベストオブブリード」アーキテクチャが普及すると予想される。Nvidiaの戦略的ライセンスはその先取りと言える。

出典：VentureBeat

MicrosoftとNVIDIAがAIスタック全体を再定義——Ignite 2025

2025年12月29日 NVIDIA マイクロソフト Copilot エンジニア推論 GPU インフラクラウドセキュリティコンプライアンスエージェント

共同AIインフラの全体像

Microsoft Ignite 2025でAIスタック刷新を発表

NVIDIA Blackwell GPUをAzureに大規模展開

NIM（NVIDIA 推論マイクロサービス）がAzureに統合

AIファクトリーの概念でクラウドを再設計

Copilot+とAzure AI Foundryが連携強化

エンタープライズ向け展開の標準化を推進

開発者・企業向け新機能

Azure AI Foundryでエージェント開発が一元化

NIM Blueprintで本番グレードのAIが即座に

マルチモデル対応のオーケストレーション強化

セキュリティとコンプライアンスを組み込み済み

コスト最適化オプションでスモールスタートも容易

グローバルリージョン展開で低レイテンシを確保

詳細を見る

Microsoft Ignite 2025でMicrosoftとNVIDIAは、企業がAIを本番展開するための包括的なスタックを共同で発表しました。Azureへの大規模なNVIDIA Blackwell GPU展開と、推論最適化済みのNIMサービスの統合が核心です。

NVIDIA Inference Microservices（NIM）をAzureに統合することで、企業は本番グレードのAI推論を標準化されたAPIで利用できるようになります。「AIファクトリー」の概念のもと、データ取り込みから推論、出力管理まで一貫したパイプラインが整備されます。

開発者向けにはAzure AI Foundryが進化し、エージェントのオーケストレーションとマルチモデル管理が一元化されました。セキュリティとコンプライアンスを設計段階から組み込んだエンタープライズグレードの開発体験を提供します。

この発表は、Microsoftが単なるクラウドプロバイダーを超え、AIインフラのフルスタックプロバイダーとして確立されつつあることを示しています。NVIDIAとの垂直統合が競合との差別化の柱となっています。

出典：VentureBeat

兆ドル規模のAIデータセンター建設ラッシュ、光と影

2025年12月28日 OpenAI NVIDIA マイクロソフト Meta オラクル ChatGPT GPU データセンターエネルギー電力需要サム・アルトマン投資バブルスターゲイト・プロジェクト

未曾有の投資規模

Stargateプロジェクトが5000億ドル規模に

OpenAI・Microsoft・Oracle・NVIDIAが共同推進

Metaも数兆円規模のデータセンター計画を発表

NVIDIAが最大1000億ドルのOpenAI 投資を発表

AMDもOpenAI株取得と引き換えにGPU供給

循環投資の構造がバブル懸念を呼んでいる

環境・社会的影響

AIエネルギー需要がビットコインを超える見通し

水資源の大量消費と非開示問題が浮上

地域住民が交通渋滞・事故増加に直面

ルイジアナ州では車両事故が600%増加

電力需要急増で既存グリッドへの負荷拡大

技術幹部は過剰投資の可能性を否定し続ける

詳細を見る

OpenAIのSam Altmanは「OpenAIのローマ帝国は実際のローマ帝国だ」と語りましたが、その比喩は現実になりつつあります。Stargateプロジェクトを中心に、OpenAI、Microsoft、NVIDIA、Oracleが総計で数千億ドル規模のAIデータセンター建設を進めています。

投資構造の循環性が懸念を呼んでいます。NVIDIAがOpenAIに最大1000億ドルを投資する代わりに、OpenAIはNVIDIAのシステムを10ギガワット分購入する契約を結びました。AMDも同様の構造でOpenAI株10%と引き換えにGPUを供給します。このような相互投資の構造は熊派の分析家から「AIバブル」の証拠と見なされています。

環境負荷も深刻化しています。世界のAIエネルギー需要はビットコインマイニングを超えると予測されており、冷却用の水資源消費は地域住民の生活を脅かしています。Metaの27億ドルデータセンター建設中のルイジアナ州では車両事故が600%増加しました。

テクノロジー幹部たちは需要の強さを根拠に過剰投資の可能性を否定し続けています。週間8億人が使うChatGPTの実績は確かですが、経済予測の正確性や労働市場への影響、資源供給の現実性については依然として不透明なままです。

出典：WIRED

データセンターのGPU間通信にラジオ波——銅線の限界を超える

2025年12月27日 GPU インフラデータセンターエネルギースタートアップ投資

銅線ケーブルの限界

AIデータセンターの帯域需要が銅線を凌駕

テラヘルツ通信が次世代候補として浮上

銅線に比べ高速かつ低コストの可能性

距離・方向制御が課題として残る

複数スタートアップが実用化に向け開発中

既存の光ファイバーとの共存設計が必要

技術的優位と実装課題

無線リンクは銅線より軽量で取り回しが容易

GPU間レイテンシのさらなる短縮が目標

周囲の電磁ノイズへの耐性確保が重要

データセンター設計の根本的変化を促す

エネルギー効率の改善にも寄与する可能性

5〜10年スケールでの実用化が現実的予測

詳細を見る

AIの急拡大でデータセンター内のGPU間通信に従来の銅線ケーブルでは対応しきれなくなっています。複数のスタートアップがテラヘルツ帯無線リンクをGPUクラスタ内の接続手段として実用化する研究を加速しています。

無線リンクは物理ケーブルの敷設が不要で、設計変更に柔軟に対応できます。理論上、銅線よりも高帯域かつ低遅延を実現でき、GPU集積密度を高める設計が可能になります。

技術的課題は電磁ノイズへの耐性と方向制御の精度です。高密度なGPUラックが林立するデータセンター内での信頼性確保には、まだ工学的な解決が必要です。

長期的には光インターコネクトとの競合になりますが、特定のラック間・筐体内通信では無線が経済的優位を持つ可能性があります。AI投資が続く中、インフラ技術の多様化が進みそうです。

出典：spectrum.ieee.org

音声AIアーキテクチャ選択がコンプライアンスを左右する

2025年12月26日 Google OpenAI Gemini エンジニアリスク GPU インフラコンプライアンス音声医療

3つのアーキテクチャ比較

ネイティブS2Sモデルは200-300msの低遅延

従来モジュラー型は500ms超の遅延が課題

統合型が両者の長所を融合する新潮流

Together AIがGPUクラスタ内でSTT/LLM/TTSを同居

Gemini 2.5 Flashが高ボリューム用途を低価格で席巻

OpenAIは感情表現でプレミアム市場を維持

規制産業でのガバナンス要件

ブラックボックスS2Sモデルは監査が困難

PII自動削除がコンプライアンスの必須機能に

テキスト中間層が介入・検証を可能にする

医療・金融では発音精度も法的リスクに直結

Retell AIがHIPAA対応で医療分野をリード

アーキテクチャ選択が技術より先にガバナンス問題に

詳細を見る

エンタープライズ音声AIの選択は今や単なるモデル性能の問題ではなくなりました。アーキテクチャの違いが監査可能性、コンプライアンス対応、そして法的リスクを直接規定するようになっています。

3つのアーキテクチャが市場を分割しています。ネイティブ音声対音声（S2S）モデルは200-300msの超低遅延を実現しますが内部処理は不透明です。従来のモジュラー型は透明性があるものの500ms超の遅延が課題でした。

統合型インフラはこのトレードオフを解決します。Together AIは同一GPUクラスタ上でSTT、LLM、TTSを物理的に同居させ、500ms以下の遅延とコンポーネント別制御を両立しています。

Google Gemini 2.5 Flashは分あたり約2セントという価格破壊を実現し、高ボリューム・低リスクのユースケースを総取りしています。一方、OpenAIはGPT Realtime APIで感情表現の優位性を維持し、プレミアム市場を守り続けています。

規制産業ではPII自動削除や発音辞書機能が必須となりつつあり、医療分野ではRetell AI、開発者向けにはVapi、大規模運用にはBland AIという棲み分けが進んでいます。

出典：VentureBeat

NvidiaがGroqのAI推論技術をライセンス取得、CEOも採用へ

2025年12月24日 Google NVIDIA Groq エンジニア推論半導体 GPU TPU LPU インフラエネルギースタートアップ提携買収評価額

NvidiaとGroqの提携の概要

NvidiaがGroqと非独占的な推論技術ライセンス契約を締結

Groq創設者Jonathan RossとプレジデントSunny Madraを採用

CNBCは200億ドルの資産取得と報道（Nvidiaは「買収ではない」と否定）

GroqのLPUはGPUより10倍高速・10分の1の電力消費と主張

Jonathan Rossは元GoogleでTPU開発に貢献した著名人物

Groqは200万以上の開発者向けAIアプリを提供中

業界への影響と背景

AIチップ市場でNvidiaのGPUが業界標準として確立済み

GroqのLPU技術でNvidiaが推論市場の支配をさらに強化

Groqは2025年9月に7.5億ドル調達・評価額69億ドルで急成長

前年の35万6千から200万超へと開発者数が急拡大

この提携がNvidia史上最大規模の取引になる可能性

推論特化型チップの戦略的重要性が改めて浮き彫りに

詳細を見る

Nvidiaは競合AIチップスタートアップのGroqと非独占的なライセンス契約を締結しました。これにより、Groqの言語処理ユニット（LPU）技術がNvidiaの製品ラインに組み込まれる可能性があります。チップ市場の競争構造に大きな変化をもたらす可能性があります。

GroqはGPUとは異なるアーキテクチャを持つLPU（言語処理ユニット）を開発しており、LLMの推論処理においてGPUの10倍の速度と10分の1の電力消費を実現できると主張しています。この推論特化型設計がNvidiaに評価された形です。

Groq創設者のJonathan RossはGoogle在籍時にTPU（テンソル処理ユニット）の発明に貢献した人物です。このような優秀な人材の獲得は、技術ライセンスと並んでNvidiaにとって重要な戦略的価値を持ちます。

CNBCはNvidiaがGroqの資産を約200億ドルで取得すると報じましたが、NvidiaはTechCrunchに対して「これは会社の買収ではない」と説明しました。取引の正確な規模と性質については依然として不明確な部分が残っています。

Groqは2025年9月時点で評価額69億ドルで7億5000万ドルを調達したばかりでした。同社のAPIを利用する開発者数は前年の35万6000人から200万人超へと急速に拡大しており、推論市場での存在感を急速に高めていました。

AI推論需要の増大に伴い、効率的な推論インフラへの需要が高まっています。NvidiaがGroqの技術を取り込むことで、学習から推論までのAIインフラ全体をカバーする体制を強化することになります。

出典：TechCrunch

NvidiaはAIデータセンターブームの頂点で崩壊を回避できるか

2025年12月22日 NVIDIA リスク脆弱性半導体 GPU ハードウェアクラウドデータセンタースタートアップ投資資金調達 Intel

データセンターブームの財務的脆弱性

AIデータセンター拡大はNvidia チップと借入金に依存

Nvidiaのチップ自体が担保として借入に使われる皮肉

過熱するAIデータセンター市場の構造的弱点

資本集約型投資が金融リスクを蓄積

供給過多になった際の急激な調整リスク

Nvidia依存のサプライチェーン一極集中の危うさ

市場崩壊シナリオの検証

過去のハードウェアブームとの類似パターンを分析

AI需要が本物でも供給過剰による価格崩壊の可能性

借入依存のデータセンター投資は金利に脆弱

NvidiaのGPU価値がデータセンター評価に直結

エヌビディア株価の動向が市場心理を左右

長期的な需要持続性への懐疑論が浮上

詳細を見る

長期深掘り記事「Chipwrecked」は、現在のAIデータセンター建設ブームが本質的にNvidiaのGPUと借入資本という二つの要素に依存していることを指摘しています。さらに皮肉なことに、NvidiaのチップそのものがAIスタートアップの資金調達における担保として利用されています。

著者はAIデータセンター投資の財務構造を詳細に分析し、需要が本物であっても供給過剰と金融レバレッジの組み合わせが急激な市場調整を引き起こしうると警告しています。過去のハードウェアブームとの比較も行われています。

Nvidiaが崩壊を回避できるかどうかは、AI需要の持続性と競合チップメーカーの台頭速度に大きく依存します。AMD・Intel・自社開発チップを持つクラウド企業の動向が今後の鍵を握ります。

出典：The Verge

NVIDIA新GPU発売、AI安全評価と教材も整備

2025年12月18日 OpenAI NVIDIA ワークフローエンジニア推論強化学習 GPU ハードウェアプライバシー AGI エージェントプロンプト CoT Intel

ハードウェアと評価

Blackwell 72GBが正式発売

大容量VRAMでエージェントAI対応

思考連鎖の監視可能性を評価

規模拡大で透明性が低下

リテラシーと言語変化

10代・保護者向け教材を公開

「AGI」への業界の嫌気が顕在化

各社が代替新語を採用中

詳細を見る

NVIDIAは「RTX PRO 5000 72GB Blackwell」GPUの一般提供を正式に開始しました。既存の48GBモデルとの選択肢が広がり、より大規模なAIワークロードへの対応が可能となります。

エージェント型AIや大規模モデルを扱う開発者・データサイエンティスト向けに、メモリに十分な余裕のある構成で複雑な複数ステップのワークフローをより安定して処理できます。

OpenAIは思考連鎖（CoT）の「監視可能性」を評価する新しいフレームワークを発表し、モデルの内部推論プロセスを監視することが最終出力のみを見るより安全面で有効であることを実証しました。

ただし推論スケールの増大や強化学習の強度が高まるにつれて監視可能性が低下する傾向も同時に示され、モデルの透明性を長期的に確保することの技術的な難しさが改めて浮き彫りになりました。

OpenAIは10代の若者とその保護者を対象とした「AIリテラシーガイド」を新たに公開し、プロンプトの作成方法やデータ・プライバシー設定の管理などを平易な日常語で丁寧に解説しています。

各AI企業が「AGI」（汎用人工知能）という言葉を意図的に避け始め、代わりに「Superintelligence」「Universal AI」などの新しい表現に置き換える動きが業界全体に急速に広がっています。

出典：NVIDIA公式 | OpenAI公式 | OpenAI公式 | The Verge

MITがLLM改善と視覚進化研究を発表

2025年12月17日推論強化学習 GPU ハードウェアウェアラブルエネルギーロボットドローン MIT エージェントベンチマークトランスフォーマー

新位置符号化手法

MIT・IBM共同開発のPaTH Attentionが状態追跡能力を向上

RoPEに代わるデータ依存型の動的位置符号化を実現

推論・長文脈・言語モデリングのベンチマークで優位

GPU高速処理に対応したハードウェア効率アルゴリズム

視覚進化サンドボックス

MITがAIエージェントで視覚進化を再現するサンドボックス開発

タスクの種類が眼の構造を決定することを発見

ロボット・ドローン向けのタスク特化センサー設計に応用可能

詳細を見る

MITとMIT-IBM Watson AI Labの共同研究チームは、トランスフォーマーアーキテクチャの根本的な限界を克服する新しい位置符号化手法「PaTH Attention」をNeurIPSで発表しました。

従来のRoPE（Rotary Position Encoding）はトークン間の相対距離のみに基づく静的な回転を割り当てますが、PaTH Attentionは各トークンの内容に依存した動的変換を累積させることで、単語間の意味の変化をパスとして追跡できます。これにより状態追跡や逐次的な推論が改善されます。

実験では、PaTH Attentionが診断タスクと実世界の言語モデリングタスクの両方で既存の注意機構を上回り、数万トークンに及ぶ長文脈でも安定した性能を示しました。また「忘却トランスフォーマー（FoX）」と組み合わせた「PaTH-FoX」システムでさらに性能が向上しています。

もう一つの研究では、MITの研究者らがAIエージェントを用いて視覚系の進化を再現する計算論的フレームワークを構築し、Science Advances誌に発表しました。カメラのセンサー・レンズ・絞り・プロセッサをパラメータ化したエージェントが強化学習で世代を超えて眼を進化させます。

実験ではナビゲーションタスクでは複眼（昆虫や甲殻類のような眼）に、物体識別タスクではカメラ型の眼（虹彩と網膜を持つ眼）に進化することが分かりました。タスクの種類が眼の構造の違いを生み出す主要な要因であることが示されています。

このフレームワークはロボット・ドローン・ウェアラブルデバイス向けの新しいセンサー設計に応用できる可能性があり、エネルギー効率や製造上の制約のもとでタスク固有の最適な視覚システムを探索するための強力なツールとなり得ます。

出典：MIT News | MIT News

AIデータセンターの重量危機と電気代転嫁問題

2025年12月16日半導体 GPU インフラデータセンターエネルギー電力需要

老朽データセンターが抱える物理的限界

AIチップラックの重量が従来比で最大12倍超に増大

最新AIラック1基の予測重量は約2,270kg（5,000ポンド）

液冷装置や高密度GPUが重量増加の主因

レガシーセンターの床荷重（約570kg/㎡）では対応不可

ドア高・フレートエレベーターも新世代ラックに非対応

既存施設の改修よりも解体・新設が現実的な選択肢

上院議員が大手AI企業の電気代転嫁を調査

電気料金が5年間で最大267%上昇した地域も存在

データセンター1施設が都市1つ分の電力を消費するケースあり

企業がNDAで情報隠蔽し住民が料金上昇を事後に知る構造

シェル会社を通じた建設で施設の実態を不透明化

バージニア州では2030年までに電気料金がさらに25%上昇の試算

電力網の相互接続により隣州の住民にも影響が波及

詳細を見る

AIの急速な普及に伴い、データセンターの物理的インフラが限界に直面しています。かつてのラック重量は180〜270kgでしたが、現在は最新AIラックで1,130kgを超え、将来的には2,270kgに達すると予測されています。

重量増加の背景には、GPUの高密度実装や液冷システムの搭載があります。10年前のラックあたり消費電力は約10kWでしたが、今日のAIワークロードでは最大350kWに達し、熱管理のために重い液冷装置が必須となっています。

アップタイム・インスティテュートのCTOによると、既存センターの床荷重基準は静荷重で約570kg/㎡が上限であり、最新AIラックを支えるには根本的な構造補強が必要です。しかし補強後も、ドア高やエレベーター耐荷重といった別の物理制約が残ります。

データセンター建設会社の幹部は「ほとんどの場合、建物を解体して一から建て直すことになる」と述べており、大規模な新設ラッシュが続く主な理由の一つとなっています。過去4年間で100MW超の大型センター建設プロジェクトが377件公表されています。

一方で、既存の非AIデータセンターも引き続き需要があります。大学・病院・中堅企業・自治体は従来型のデータ保管ニーズを持ち続けており、AI用施設の増加と並行してレガシーセンターも重要性を保っています。

もう一つの問題として、AIデータセンターによる電力需要急増が地域住民の電気料金を押し上げている実態が明らかになっています。ウォーレン上院議員ら3名は大手AI企業7社に対し、料金上昇を防ぐ具体的措置の説明を求める書簡を送りました。

調査書簡では、企業が公的機関にNDA（秘密保持契約）を締結させ、住民への情報開示を妨げていると指摘しています。また、シェル会社を通じた建設により、データセンターの実態が地域住民に知られないケースも報告されています。

電力需要が地元供給を上回ることで料金が上昇するほか、大陸規模で接続された電力網を通じ、データセンターが立地していない隣州にまで料金上昇の影響が及ぶことも問題視されています。バージニア州では2030年までに電気料金がさらに25%上昇するとの試算も示されています。

出典：The Verge | Ars Technica

NvidiaがNemotron 3公開とSchedMD買収で事業拡大

2025年12月15日 NVIDIA 数学エンジニア推論強化学習事前学習事後学習リスク半導体 GPU ハードウェアコーディング中国買収コンテキストトランスフォーマー ByteDance

Nemotron 3の特徴と技術革新

ハイブリッドMoEアーキテクチャを採用

Nano・Super・Ultraの3サイズ展開

100万トークンのコンテキスト長対応

前世代比最大4倍のトークンスループット向上

学習レシピとデータセットを完全オープン公開

強化学習基盤NeMo Gymを同時リリース

Accentureら大手企業がアーリーアダプターとして参加

SchedMD買収とH200中国展開

HPC向けジョブスケジューラSlurmの開発元を買収

Slurmはオープンソースとして継続提供

H200チップの中国向け輸出が米政府承認

中国大手企業から大規模発注が殺到

H200の追加生産拡大を検討中

中国政府の輸入可否判断が今後の焦点

詳細を見る

NvidiaはNemotron 3モデルファミリーを公開しました。Nano（300億パラメータ）、Super（1000億）、Ultra（5000億）の3サイズで構成され、ハイブリッドMamba-TransformerのMoEアーキテクチャを採用しています。

Nemotron 3 Nanoは同規模モデルと比較して最大3.3倍のスループットを実現し、100万トークンのコンテキストウィンドウに対応します。推論コストの削減と精度向上を両立した設計です。

Nvidiaはモデルの重み、学習レシピ、事前学習・事後学習データセットをすべて公開しています。公開された事後学習データセットは既存の最大規模のものより2.5倍大きく、業界最大規模となります。

モデル訓練に使用した強化学習基盤NeMo Gymもオープンソースとして公開されました。数学、コーディング、ツール利用など10以上のRL環境が含まれており、開発者が独自環境を構築することも可能です。

Nvidiaはと同日、HPC向けオープンソースのワークロード管理システムSlurmを開発するSchedMDの買収を発表しました。Slurmは世界のスーパーコンピュータTop500のうち半数以上で採用されている実績ある基盤ソフトウェアです。

SchedMD買収によりNvidiaは半導体からモデル、そしてHPCソフトウェアスタックまでをカバーする垂直統合を強化します。SlurmはNvidiaのハードウェア上での最適化が進む一方、ベンダー中立性も維持されます。

米政府はNvidiaのH200チップを中国へ輸出することを承認しました。H200は前世代Hopperシリーズの最高性能GPUで、中国ではこれまで販売が制限されていました。

承認を受けてAlibabaやByteDanceなど中国大手企業がH200の大口注文を検討しており、Nvidiaは需要に応えるため生産拡大を検討しています。ただし中国政府側の輸入許可判断が依然として焦点です。

一方でNvidiaにとってのリスクも存在します。中国政府は国産チップの活用を推進しており、長期的には中国AIモデルが自国製シリコンに依存する方向へシフトする可能性があります。

出典：WIRED | VentureBeat | Hugging Face | NVIDIA公式 | TechCrunch

AIエージェント構築・検証・微調整の最前線

2025年12月15日 NVIDIA LangChain Replit アシスタント CRM 推論ファインチューニング GPU インフラ品質保証エージェントベンチマーク MCP Hugging Face LoRA

自律エージェントの精度を高める新アプローチ

ReplitのAgent 3がREPLベース検証で200分以上の自律動作を実現

ブラウザ自動化とコード実行を組み合わせ「見せかけ実装」を自動検出

IBM製オープンソースフレームワークCUGAがHugging Face Spacesに統合

AppWorldベンチマーク1位・WebArena上位を達成した設定可能な汎用エージェント

プランナー／エグゼキューター分離とコードアクト方式で幻覚を抑制

MCP・OpenAPI・LangChain対応のマルチツール連携機能を提供

エージェントAIを支えるデータ基盤と軽量ファインチューニング

Twilioレポートで54%の消費者がAIの文脈保持の欠如を指摘

会話型AIには静的CDPではなくリアルタイム会話メモリが必要と提言

NVIDIAがNemotron 3ファミリーをエージェントAI微調整向けに発表

Unslothを使い低メモリNVIDIA GPUでLoRA/QLoRAによる効率的なファインチューニングが可能

詳細を見る

ReplitはAgent 3の開発において、コードが「動いているように見えるだけ」の問題、いわゆる「ポチョムキン実装」に悩まされてきました。この課題を解決するためREPL（対話型実行環境）とブラウザ自動化を組み合わせた独自の検証システムを構築し、エージェントが生成したコードを実際に実行・操作して機能の実在性を確認できるようにしました。

この仕組みによりAgent 3は200分以上にわたって自律的にタスクを継続でき、単に見た目を整えるだけの実装を自動的に検出・修正するサイクルを回せるようになりました。自己テスト型の検証ループはエージェントの品質保証に新たな基準を示しています。

IBMが開発したCUGA（Configurable Generalist Agent）はオープンソースの汎用AIエージェントフレームワークです。AppWorldベンチマークで1位、WebArenaでも上位を記録しており、WebやAPIを跨ぐ複雑なマルチステップタスクを高い精度でこなします。

CUGAは現在Hugging Face Spacesに統合され、オープンモデルと組み合わせて誰でも試せる環境が整いました。推論モードをコスト・レイテンシに応じて切り替えられる柔軟な設計が特徴で、MCP・OpenAPI・LangChain経由の多様なツール連携にも対応しています。

Twilioの調査によると、消費者の54%が「AIは過去のやりとりをほとんど覚えていない」と感じており、AIから人間担当者へ引き継がれる際に全文脈が共有されると答えたのはわずか15%でした。エージェントAIが真に機能するには、リアルタイムで携帯可能な会話メモリが不可欠です。

この問題を解決するには、従来のCRMやCDPを使い続けるのではなく、会話メモリをコミュニケーションインフラの内部に組み込む必要があると指摘されています。Twilioはこうした次世代の顧客データ基盤の構築を推進しています。

NVIDIAはNemotron 3ファミリーを発表し、エージェントAIの微調整に最適化されたオープンモデルとライブラリを提供しました。GeForce RTXラップトップからDGX Sparkまで幅広いNVIDIA GPUで動作します。

Unslothを使ったLoRA/QLoRAによるファインチューニングは、フルパラメータ更新より少ないメモリと時間でモデルを特定タスクへ特化させる手法です。製品サポートや個人アシスタントなどの用途で小型言語モデルの精度を高める実用的なアプローチとして注目されています。

出典：Hugging Face | blog.replit.com | VentureBeat | NVIDIA公式

AMD・スー CEOがAIチップ競争と中国輸出規制を語る

2025年12月12日 Google NVIDIA DeepSeek Gemini AI活用エコシステム推論半導体 GPU 安全保障 ASI 米国中国米中投資バブル

競争優位と市場観

AIチップ市場は「一強」ではなくCPU・GPU・ASICが共存する多様な生態系

NvidiaやGoogleを尊重しつつ**「正しいワークロードに正しいチップ」**がAMDの差別化軸

Gemini 3の台頭やDeepSeekなど技術の**常時リープフロッグ**がAI業界の特徴

10年以上の高性能技術投資がAMD横断的な強みを下支え

AIバブル懸念は過大評価であり需要継続を確信

速度こそが競争力の本質——「最速」を目指すことが戦略の核心

対中輸出規制と米国AI政策

MI308チップの中国輸出ライセンスを取得済み、**15%税は引き続き適用**

輸出規制は「日常業務の一部」として受け入れ、国家安全保障を最優先と明言

米AI技術のエコシステムを世界に広げることが長期的な競争力につながるとの見解

Lutnick商務長官ら現政権との**対話の速さと開放性**を高く評価

国立研究所と産業界の連携強化（Genesis Mission）を積極支持

米国主導のAIスタックを世界標準にすることが輸出政策の本来の目的

AIの現状と将来展望

個人利用頻度が3カ月で**10倍**に増加——実用段階に入ったと実感

「まだ正確性が不十分」——精度向上が最大の課題と率直に指摘

1年後には現在の想像を超えるAI活用が日常化すると予測

推論（インファレンス）市場の急拡大が計算資源需要の新潮流に

詳細を見る

WIREDが主催した「Big Interview」イベントで、AMDのCEOリサ・スー氏がシニアコレスポンデントのローレン・グード氏の取材に応じました。AIチップ業界の競争構造から米中輸出規制まで、幅広いテーマについて率直な見解を示しました。

スー氏はAIチップ市場について「一強」という概念を否定し、CPU・GPU・ASIC（カスタムチップ）が共存する多様な生態系が形成されると主張しました。Nvidiaやハイパースケーラー各社への敬意を示しつつ、AMDの差別化軸は「正しいワークロードに正しいチップを届ける」能力にあると語りました。

競合他社への直接的な言及を避けながらも、スー氏はAI業界の特性として技術が常時リープフロッグしている点を強調しました。DeepSeekの登場からGoogleのGemini 3の台頭まで、わずか1年間で話題が目まぐるしく変化していることを例に挙げ、単一の勝者が生まれない構造を説明しました。

対中輸出規制については、AMD製MI308チップの中国向け輸出ライセンスをすでに取得しており、米政府への15%課税はライセンス出荷のたびに適用され続けると明言しました。2024年12月時点の報道で変更があったとされる規制についても、同税は変わらず適用されるとスー氏は確認しています。

スー氏は米国AI政策について、現政権の対応速度と産業界との対話の開放性を高く評価しました。Lutnick商務長官やDavid Sacks氏ら政府関係者との連携が深まっており、国立研究所と産業界を結ぶ「Genesis Mission」など、科学・研究分野へのAI活用加速を支持する姿勢を見せました。

AIの現状については、個人的な利用頻度がわずか3カ月で10倍に増えたことを挙げ、日常の情報収集や準備作業での実用性を実感していると述べました。一方で精度の不足を最大の不満点として率直に語り、技術的なポテンシャルと現実のギャップを認識していることを示しました。

将来展望については、1年後には現在の想像を超えるAI活用が日常になると断言しました。推論（インファレンス）市場の急拡大が計算資源需要の新たな潮流を生んでいるとも指摘しており、訓練だけでなくインファレンス向けチップへの注力がAMD戦略の重要な柱であることを示唆しました。

出典：WIRED

Ai2、強化学習を延長したOLMo 3.1を公開

2025年12月12日 Qwen 数学推論強化学習 GPU コーディングベンチマーク Hugging Face Gemma

OLMo 3.1の概要と強化学習の延長

Ai2がOLMo 3.1をリリース、OLMo 3の後継として公開

OLMo 3.1 Think 32BとInstruct 32Bの2モデルを更新

Think 32Bは追加21日・224GPU規模でRLトレーニングを延長

AIMEで5点超、ZebraLogicで4点超など主要ベンチマークが大幅改善

Instruct 32Bは7Bモデルのレシピを32Bに適用して開発

現在はAi2 PlaygroundとHugging Faceで利用可能、API提供も予定

ベンチマーク性能とオープンソースへの取り組み

OLMo 3.1 ThinkはAIME 2025でQwen 3 32Bを上回る性能を記録

OLMo 3.1 InstructはGemma 3を上回る数学ベンチマーク結果を達成

32Bスケールのオープン命令調整モデルとして最高水準と主張

RL-Zero 7Bの数学・コーディングモデルも長期安定学習で更新

データ・コード・学習決定の完全な透明性を維持する方針を継続

OLMoTraceによる学習データ追跡ツールも引き続き提供

詳細を見る

アレン人工知能研究所（Ai2）は、オープンソース言語モデルファミリー「OLMo 3」のアップデート版となる「OLMo 3.1」を公開しました。前バージョンのリリース後も強化学習（RL）トレーニングを継続し、さらなる性能向上を実現しています。

OLMo 3.1 Think 32Bは、OLMo 3 Think 32BのRLトレーニングを追加21日間、224個のGPUを用いて延長することで開発されました。数学・推論・命令追従の各ベンチマークで大幅な改善が確認されています。

具体的な改善幅としては、AIMEで5点超、ZebraLogicで4点超、IFEvalで4点超、IFBenchで20点超の向上が報告されています。コーディングや複雑な多段階タスクの性能も向上しています。

OLMo 3.1 Instruct 32Bは、より小規模な7Bモデル向けの手法を大規模化することで構築されました。チャット、ツール利用、マルチターン対話に最適化された設計になっています。

ベンチマーク比較では、OLMo 3.1 ThinkがAIME 2025においてQwen 3 32Bを上回り、Gemma 27Bに近い性能を示しました。OLMo 3.1 InstructはGemma 3を数学ベンチマークで超えたとされています。

Ai2はデータ・コード・学習プロセスの完全な透明性を重視しており、企業や研究機関がモデルのデータ構成を把握・変更できる点を強調しています。OLMoTraceツールによるLLM出力と学習データの追跡機能も提供が続いています。

モデルはAi2 PlaygroundおよびHugging Faceで即時利用可能であり、API経由のアクセスも近日中に提供予定とされています。また、数学・コーディング向けのRL-Zero 7Bモデルも今回の更新で改善されています。

出典：VentureBeat

Nvidia、位置確認可能な管理ソフト導入　密輸対策の観測も

2025年12月10日 NVIDIA 生産性リスク半導体 GPU ハードウェアインフラデータセンターエネルギーコンプライアンス米国中国エージェント

任意導入の管理ツール

GPU稼働状況や位置情報を可視化

Blackwellチップから順次対応

利用は顧客の任意選択（オプトイン）

エージェントはオープンソース化予定

密輸防止と効率化の両立

通信遅延で物理的な位置を推定か

公式はハードウェア追跡を否定

中国への不正輸出抑止に期待

詳細を見る

Nvidiaは12月10日、データセンター向けの新たなGPUフリート管理ソフトウェアを発表しました。これはインフラの稼働効率を高めるための任意導入（オプトイン）ツールですが、通信遅延を用いてチップの物理的な位置を特定する機能が含まれると報じられています。背景には、米国の対中輸出規制を回避した半導体密輸への懸念があります。

このソフトウェアは、主にGPUの電力消費や温度、エラー率などを監視し、インフラの最適化を支援するものです。一方でロイター通信等の報道によれば、サーバー間の通信応答時間を分析することで、申告された設置場所と実際の物理的な位置の整合性を検証できる技術が組み込まれていると見られます。

Nvidiaは公式ブログで「ハードウェアレベルでの追跡機能やバックドアは存在しない」と明言し、あくまで顧客自身による管理ツールであると説明しています。しかし、中国企業による密輸チップ使用の疑惑が浮上する中、この技術はメーカーと顧客双方にとってコンプライアンス遵守を証明する重要な手段となりそうです。

本ツールは最新のBlackwellチップ向けに先行して提供される見通しです。クライアントエージェントの一部はオープンソース化され、透明性が担保される予定です。AIインフラを運用する企業にとっては、生産性を高めつつ、地政学的な規制リスクにも自律的に対応する姿勢が求められる局面と言えるでしょう。

出典：TechCrunch | NVIDIA公式

NVIDIA、Graph500で世界新記録　GPUがCPU領域を凌駕

2025年12月10日 NVIDIA 生産性推論事前学習事後学習 GPU インフラデータセンターエネルギーロボットロボティクス投資エージェント

グラフ処理で世界一の性能

H100クラスターがGraph500で首位を獲得

毎秒410兆エッジを探索する圧倒的処理速度

競合比で2倍の性能を達成

驚異的なコスト効率

わずか1/9のノード数で記録達成

費用対効果は競合システムの3倍以上

エネルギー効率もCPUの4.5倍

AIと計算の未来

推論時のスケーリングが次の焦点

複雑なスパース処理もGPUへ移行

自律型AIやロボティクスへ応用拡大

詳細を見る

NVIDIAは2025年12月、CoreWeaveと共同構築したH100 GPUクラスターにより、大規模グラフ処理性能を競う「Graph500」で世界新記録を樹立しました。これまでCPUが主役だった複雑なデータ処理領域においても、GPUが圧倒的な優位性を示し、計算インフラの歴史的な転換点を迎えています。

今回の記録では、毎秒410兆回のエッジ探索（TEPS）を達成しました。特筆すべきは、競合システムの2倍以上の性能を、わずか約9分の1のノード数で実現した点です。これは費用対効果において3倍以上の改善を意味し、企業のインフラ投資効率を劇的に高めます。

グラフ処理はデータが不規則で疎（スパース）なため、従来はCPUの独壇場でした。しかしNVIDIAは、通信と計算をGPU上で完結させる新技術を導入し、CPUを経由するボトルネックを解消しました。これにより、AI以外の科学技術計算でもGPUへの移行が加速します。

エネルギー効率を競う「Green500」でも、NVIDIA製GPU搭載システムが上位5位を独占しました。CPUシステムと比較して平均4.5倍の効率を誇り、データセンターの電力制約が厳しくなる中、持続可能な計算リソースの確保において決定的な解決策となります。

AI開発において、従来の「事前学習」「事後学習」に加え、推論時に計算量を増やす「テストタイム・スケーリング」が重要になっています。推論段階での高度な推論や計画能力が求められるようになり、学習完了後も強力なGPU インフラが必要不可欠です。

この計算能力の飛躍は、物理世界で活動するロボットや、自律的にタスクをこなすエージェントの実用化を後押しします。GPUは単なる演算装置から、全産業の生産性を底上げする「デジタル労働力」の基盤へと進化しています。

出典：NVIDIA公式 | NVIDIA公式

TPU外販でNvidiaの牙城崩す、GoogleのAIコスト革命

2025年12月10日 Google OpenAI Anthropic NVIDIA エンジニア経営者半導体 GPU ハードウェア TPU インフラクラウド

独占打破へ動くGoogleの新戦略

最新チップTPUv7をAnthropic等へ直接販売

業界標準PyTorchへの完全対応で移行を促進

クラウド限定を解除し資産計上の選択肢を提供

経営を変える圧倒的な経済合理性

Nvidia製サーバー比でTCOを約44%削減可能

OpenAIも価格交渉の切り札としてTPUを利用

汎用性はGPU優位も大規模学習ではTPUが圧倒

詳細を見る

2025年12月、Googleは自社製AIチップ「TPUv7」の外部販売を本格化させ、Nvidiaによる市場独占に挑戦状を叩きつけました。Anthropic等の主要プレイヤーが採用を決め、AI開発のコスト構造と勢力図が劇的に変わり始めています。

最大の強みは圧倒的なコストパフォーマンスです。Googleの試算によると、TPUベースのサーバーはNvidiaの最新機種と比較して、総所有コスト（TCO）を約44%も削減可能です。この経済合理性が、収益性を重視する経営者の注目を集めています。

Googleは戦略を大きく転換しました。従来は自社クラウド経由での利用に限っていましたが、チップの直接販売や柔軟なリース契約を解禁しました。特にAnthropicとは100万個規模の供給契約を結び、OpenAIへの対抗軸を強固にしています。

普及の壁だった「CUDAの堀」を崩すため、業界標準フレームワークであるPyTorchへの対応も強化しました。これにより、エンジニアは既存のコード資産を活かしつつ、高価なGPUから高効率なTPUへとインフラを移行しやすくなります。

市場への影響は甚大です。実際にOpenAIは、競合であるTPUの存在を交渉材料とし、Nvidiaからの調達コストを約30%引き下げることに成功しました。TPUの台頭は、AIハードウェア市場に健全な価格競争をもたらしています。

一方で課題も残ります。GPUは汎用性が高く人材も豊富ですが、TPUは特定タスクに特化しており、扱えるエンジニアが希少です。今後は両者の特性を理解し、適材適所で組み合わせるハイブリッド構成がAIインフラの勝機となるでしょう。

出典：VentureBeat

米BTC採掘業者がAIへ転換、高収益データセンターへ

2025年12月09日マイクロソフト Amazon ネットワークリスク GPU インフラデータセンターエネルギーセキュリティ安全保障米国暗号資産投資

AI特需と収益構造の激変

米大手マイナーが相次いでAIデータセンターへ転換

ビットコイン価格下落と報酬半減が収益を圧迫

AI計算需要に対し電力インフラの価値が急騰

インフラ転用と今後の課題

テック大手との契約で安定収益と高利益率を確保

AI向けには常時稼働と高度な電源管理が必須

採掘能力低下によるセキュリティリスクの懸念

採掘拠点はエネルギー安の海外や国家管理へ移行

詳細を見る

2025年12月、米国の主要ビットコイン採掘業者（マイナー）たちが、事業の軸足をAIデータセンター運営へと急速に移しています。かつて暗号資産の採掘拠点だった巨大施設は、今やAmazonやMicrosoftといったテック企業のAIモデル学習を支える計算基盤へと変貌しつつあります。背景には、マイニング収益の悪化と、AI開発競争による電力・インフラ需要の爆発的な増加があります。この構造転換は、エネルギー産業の勢力図と金融システムの双方に新たな潮流を生み出しています。

Riot PlatformsやBitfarmsなど、米国の上場マイニング企業の多くがAIやHPC（高性能計算）分野への参入を表明しました。過去18ヶ月で少なくとも8社が方針転換を行い、総額430億ドル（約6兆円超）規模のAI関連契約が発表されています。AI企業はモデル学習に必要な膨大な電力とスペースに飢えており、マイナーが保有する大規模な電力インフラと「ハコ（データセンターの外郭）」は、即座にGPUを稼働させるための貴重な資産として再評価されています。

転換の最大の動機は明確な経済合理性です。2024年の半減期を経て採掘報酬が減少し、さらに足元でビットコイン価格が8万5000ドル付近まで調整したことで、マイニング事業の採算性は厳しさを増しています。対照的に、AIデータセンター事業は大手テック企業との長期契約により、安定的かつ高い利益率が見込めます。株式市場もこの動きを好感しており、AIへのピボットは株価上昇の強力な触媒として機能しています。

もっとも、このインフラ転用は技術的に容易ではありません。ビットコインマイニングは電力需給に応じて稼働を停止できる柔軟性がありますが、AIの学習処理には「99.999%以上」の稼働率と極めて安定した電力供給が求められます。既存施設の改装には発電機の追加など多額の投資が必要となりますが、テックジャイアントからの旺盛な需要と巨額の契約金が、そのハードルを越える原動力となっています。

この潮流はビットコインネットワーク自体に長期的なリスクをもたらす可能性があります。米国の計算能力（ハッシュレート）がAIへ流出すれば、ネットワークのセキュリティ強度が低下しかねないからです。結果として、純粋なマイニング事業はエネルギーコストの安いパラグアイなどの海外地域や、国家安全保障の一環としてビットコインを戦略的に保有・採掘する主権国家の事業へと変質していく可能性があります。

出典：WIRED

仏Mistral、コーディング特化AI「Devstral 2」発表

2025年12月09日 DeepSeek 生産性エコシステムエンジニア推論 GPU セキュリティコーディング開発ツールリファクタリングスタートアップベンチマーク Mistral

二つの新モデルと開発ツール

旗艦版Devstral 2は1230億パラ

軽量版SmallはPCでローカル動作可

文脈理解するVibe CLIも同時公開

性能と戦略的なライセンス

ベンチマーク72.2%記録し競合凌駕

SmallはApache 2.0で商用自由

上位版は月商2千万ドル超企業に制限

詳細を見る

仏Mistral AIは12月9日、コーディングに特化した新AIモデル「Devstral 2」群と、開発者向けコマンドラインツール「Mistral Vibe CLI」を発表しました。高性能な推論能力とローカル環境での動作を両立させ、企業の生産性向上とデータセキュリティの課題解決を狙います。

最上位のDevstral 2は1230億パラメータを有し、エンジニアリング性能を測るSWE-benchで72.2%を記録しました。これは競合するDeepSeek V3.2などを上回る数値です。一方、軽量版のDevstral Small（240億パラメータ）は同ベンチマークで68.0%を維持しつつ、一般的なGPU搭載PCで完全オフライン動作が可能です。

併せて発表された「Mistral Vibe CLI」は、ターミナルから直接AIを利用できるツールです。Gitのステータスやファイル構造を文脈として理解し、自然言語の指示でコード修正やリファクタリングを自律的に実行します。エディタのプラグインではなく、開発者の作業フローそのものに統合される点が特徴です。

ライセンス戦略も明確に区分されました。Devstral SmallとCLIは制限の緩いApache 2.0を採用し、幅広い商用利用を促進します。対してDevstral 2は、月商2000万ドル（約30億円）超の企業に商用契約を求める独自ライセンスとし、スタートアップの取り込みと大企業からの収益化を両立する構えです。

金融や防衛など機密情報を扱う組織にとって、外部通信なしで動作する高性能モデルは魅力的です。Mistralは巨大な汎用モデルではなく、用途に特化した「分散型インテリジェンス」を推進しており、今回の発表は開発者エコシステムにおける同社の地位をより強固なものにするでしょう。

出典：TechCrunch | VentureBeat

CoreWeave CEO反論「AI循環取引は協力」新モデル強調

2025年12月09日 OpenAI NVIDIA GPU インフラクラウドデータセンター関税米国スタートアップ投資提携買収 IPO トランプ

循環取引批判への反論

大手間の相互投資は需給調整の協力

破壊的新モデル導入時の摩擦は必然

批判は近視眼的で長期的価値を見誤る

積極的な事業拡大戦略

GPU資産を担保に巨額資金を調達

開発基盤などスタートアップを連続買収

OpenAI 提携強化と官需開拓へ

詳細を見る

AIクラウド基盤を提供するCoreWeaveのCEO、Michael Intrator氏は12月9日、サンフランシスコでのイベントで、AI業界の「循環取引」批判に反論しました。同氏はこれを急激な需給変化に対応するための「協力」と位置づけ、独自の成長戦略を正当化しています。

Nvidiaなどの出資者が顧客にもなる「循環的」な関係は、市場の安定性を懸念させます。しかしIntrator氏は、これを新しいビジネスモデル構築の一環と主張。既存の枠組みを破壊する過程では摩擦が避けられないとし、批判を一蹴しました。

同社の株価はIPO後、乱高下を繰り返しています。データセンター建設に伴う巨額の負債が懸念材料ですが、同社は高価なGPU資産を担保にする手法で資金を確保。トランプ政権下の関税など経済的逆風の中でも、強気の投資姿勢を崩していません。

成長を加速させるため、Weights & BiasesなどAI開発支援企業の買収を連発しています。さらにOpenAIとの提携拡大に加え、米国連邦政府市場への参入も表明。民需と官需の双方を取り込み、インフラ覇権を確立する狙いです。

出典：TechCrunch

Claudeが自律的にLLM学習実行、HF新機能公開

2025年12月04日 Claude 生産性数学エンジニアファインチューニングリスク GPU ハードウェアインフラクラウドデプロイエージェント教師 Hugging Face GRPO

指示だけで学習工程を完結

自然言語でファインチューニングを指示

最適なGPU選定とコスト試算を自動化

データセット検証からデプロイまで代行

実用的な学習手法を網羅

SFT・DPO・GRPOなど主要手法に対応

ローカル利用向けのGGUF形式への変換

学習進捗をリアルタイム監視可能

詳細を見る

Hugging Faceは2025年12月4日、AIエージェント「Claude」などがLLMのファインチューニングを自律的に実行できる新機能「Skills」を発表しました。エンジニアはチャットで指示するだけで、複雑な学習プロセスを完結できます。

本機能はスクリプト作成に留まらず、クラウド上のGPU確保からジョブ送信、進捗監視、モデルのアップロードまでを自動化します。データセットの形式チェックや、モデル規模に応じた最適なハードウェア選定もAIが代行し、失敗リスクを低減します。

対応手法は、一般的な「SFT（教師あり微調整）」に加え、人間の好みを反映する「DPO」、数学やコード生成に有効な「GRPO」など多岐にわたります。実運用レベルの高度なモデル開発が、対話インターフェースを通じて手軽に実行可能になります。

利用にはHugging FaceのPro以上のプランが必要です。開発者はインフラ管理の時間を節約でき、AIモデルのカスタマイズやローカル環境向けの軽量化（GGUF変換）を、低コストかつ迅速に試行錯誤できるようになり、生産性が大幅に向上します。

出典：Hugging Face

アンソラピックCEO、競合の「YOLO的」投資姿勢に警鐘

2025年12月04日 OpenAI リスク半導体 GPU インフラデータセンター投資 Dario Amodei

市場の不確実性とリスク

技術には強気も収益化の時期は不透明

競合の無謀なYOLO的リスクを批判

経済的価値と投資時期のズレを懸念

インフラ投資のジレンマ

新型登場による旧式GPUの価値低下

過剰投資による経営破綻リスクを警告

投資不足による顧客喪失との板挟み

自社の堅実な成長予測

売上は年10倍ペースで急成長中

将来予測はあえて保守的に見積もる

詳細を見る

アンソラピックのダリオ・アモデイCEOは4日、NYT主催のサミットで、AI業界内の一部企業による過度なリスクテイクに懸念を表明しました。技術の潜在能力は認めつつも、経済的価値が実現するタイミングの不確実性を指摘し、慎重な投資判断の重要性を説いています。

アモデイ氏は、一部の競合が「YOLO（人生は一度きり）」のような無謀な姿勢で拡大路線を走っていると批判しました。これは暗にOpenAIを指唆するものであり、対照的に自社はリスクを適切に管理し、責任ある経営を行っていると強調しています。

AI企業にとって最大の課題は、データセンターへの巨額投資と収益化のタイムラグです。アモデイ氏は、より高性能で安価な新型チップの登場により、既存のGPU資産の価値が急速に低下するリスクがあり、過剰投資は命取りになりかねないと警告しました。

アンソラピックの売上高は爆発的に伸びており、2023年の1億ドルから2025年末には最大100億ドルに達する見通しです。しかし同氏は、この成長曲線が続くとは限らないとして将来を「保守的」に見積もり、あらゆる市場環境で存続できる計画を重視しています。

出典：TechCrunch

AMDトップがAIバブル否定、OpenAIと巨額提携へ

2025年12月04日 OpenAI NVIDIA 半導体 GPU データセンター関税投資提携バブル

AI需要と市場の現状

バブル懸念を明確に否定

AI技術はまだ初期段階

チップ需要は今後も拡大

成長加速させる戦略

OpenAIへ6GWのGPU供給

OpenAIが10%出資の権利

関税払い対中輸出を再開

経営リーダーの視点

競合より革新速度を重視

時価総額を150倍に成長

次世代モデルへ投資継続

詳細を見る

米半導体大手AMDのリサ・スーCEOは4日、サンフランシスコでのイベントでAIバブル懸念を明確に否定しました。業界は依然として大量のチップを求めており、市場の懸念は「誇張されている」と強調しています。

スー氏は、AI技術はまだ初期段階にあると指摘します。「今日のモデルがいかに優れていても、次はさらに良くなる」と述べ、高度化するAIモデルを支えるため、今後も計算能力への需要が拡大し続けると予測します。

今年の目玉はOpenAIとの大型契約です。AMDは数年で6ギガワット相当のGPUを供給し、OpenAIはAMD株の約10%を取得します。この提携により、AIデータセンター市場での存在感をさらに高める狙いです。

対中ビジネスでは、15%の関税を負担しつつ主力チップの輸出を再開します。Nvidiaなどの競合については過度に意識せず、「イノベーションのスピード」こそが重要だとし、技術開発に邁進する姿勢を崩していません。

出典：WIRED

NVIDIA新基盤、最先端AIの推論速度と収益性を10倍へ

2025年12月03日 NVIDIA DeepSeek 生産性エンジニア専門家経営者推論 GPU ハードウェアデータセンターエネルギーエージェント Mistral

最先端AIの標準「MoE」

脳のように専門領域を分担し効率化

トップモデルの60%以上が採用

拡張を阻む「壁」を突破

従来のGPU連携では通信遅延が課題

72基のGPUを単一巨大化し解決

10倍の性能が拓く未来

電力対性能とトークン収益が10倍に

エージェント型AIの基盤としても最適

詳細を見る

NVIDIAは3日、同社の最新システム「Blackwell NVL72」が、現在主流のAIアーキテクチャ「MoE（Mixture of Experts）」の推論性能を前世代比で10倍に高めると発表しました。DeepSeekやMistralなどの最先端モデルにおいて、劇的な処理速度と電力効率の向上を実現し、AI運用の経済性を根本から変革します。

なぜ今、MoEが重要なのでしょうか。人間の脳の仕組みを模したこの技術は、タスクに応じて特定の「専門家（エキスパート）」パラメータのみを稼働させます。計算リソースを抑えつつ高度な知能を実現できるため、オープンソースのトップモデルの多くが採用していますが、その複雑さゆえに、従来のハードウェアでは大規模な展開が困難でした。

この課題に対し、NVIDIAは「Extreme Codesign」で応えました。NVL72システムは、最大72基のGPUを高速なNVLinkで結合し、あたかも「一つの巨大なGPU」として動作させます。これにより、メモリ帯域と通信遅延のボトルネックを解消し、大規模なMoEモデルを効率的に分散処理することが可能になりました。

その効果は絶大です。Kimi K2 ThinkingやMistral Large 3といったモデルでは、前世代のH200と比較して10倍のパフォーマンスを記録しました。これは単なる速度向上にとどまらず、電力あたりの生成能力、ひいてはトークン収益の10倍増を意味し、データセンターの収益構造を劇的に改善します。

さらに、このアーキテクチャは次世代の「エージェント型AI」にも最適です。複数の特化型AIが協調して動く未来のシステムは、本質的にMoEと同じ構造を持つからです。経営者やエンジニアにとって、この新基盤への移行は、AIの生産性と市場競争力を高めるための必須条件となるでしょう。

出典：NVIDIA公式

AWS、新型AIチップTrainium3発表。Nvidia連携も視野

2025年12月02日 Anthropic NVIDIA AWS エコシステム推論半導体 GPU インフラデータセンターエネルギー日本

性能と効率が大幅に向上

前世代比で速度とメモリが4倍に進化

エネルギー効率が40%改善しコスト削減

最大100万チップの接続が可能

Nvidiaとの連携強化へ

次期Trainium4の開発を示唆

NvidiaのNVLink Fusionに対応予定

既存のGPU資産との併用が可能に

詳細を見る

AWSは年次イベント「re:Invent 2025」にて、自社開発の新型AIチップ「Trainium3」を発表しました。3ナノメートルプロセスを採用し、前世代から処理能力とエネルギー効率を大幅に強化しています。さらに、次世代機「Trainium4」ではNvidia製品との相互運用性を高める計画も明らかにし、AIインフラ市場での攻勢を強めています。

Trainium3を搭載した「UltraServer」は、前世代比で4倍の速度とメモリを提供します。特筆すべきは拡張性で、最大100万個のチップを連結可能です。これは前世代の10倍の規模であり、AIモデルの学習や推論における処理能力を飛躍的に高めます。

コストと環境への配慮も進化しました。新チップはエネルギー効率が40%向上しており、電力消費の増大が課題となるデータセンター運用において重要な利点となります。すでにAnthropicや日本のKarakuriなどが導入し、推論コストの削減を実現しています。

注目は次期モデル「Trainium4」の構想です。Nvidiaの高速相互接続技術であるNVLink Fusionへの対応を予定しており、Nvidia GPUとAWS独自チップの併用が可能になります。これにより、Nvidiaのエコシステムを取り込みつつ、柔軟なAIインフラの構築を支援します。

出典：TechCrunch

NVIDIAとAWSがインフラ統合、AIチップ連携を強化

2025年12月02日 NVIDIA Amazon AWS 生産性検索 AI導入エンジニア推論半導体 GPU ハードウェアインフラクラウドデータセンターセキュリティロボティクス提携 Jensen Huang

次世代チップとインフラの融合

AWS次世代チップTrainium4にNVLinkを統合

Blackwell搭載GPUをAWSで提供拡大

両社技術の融合で計算性能と開発速度を最大化

AI産業革命に向けた計算ファブリックを共同構築

ソフトウェア高速化とデータ主権

Amazon BedrockでNemotronモデル利用可能

OpenSearch検索がGPUで最大10倍高速化

データ主権を守るAWS AI Factories発表

ロボティクス向けCosmosモデルをAWSで提供

詳細を見る

NVIDIAとAmazon Web Services（AWS）は2025年12月2日、ラスベガスで開催中の「AWS re:Invent」において、戦略的パートナーシップの大幅な拡大を発表しました。この提携により、AWSの次世代AIチップ「Trainium4」とNVIDIAのインターコネクト技術「NVLink Fusion」が統合され、クラウドインフラの性能が飛躍的に向上します。両社はハードウェアだけでなく、ソフトウェアやロボティクス分野でも連携を深め、企業のAI導入を強力に支援します。

最大の目玉は、NVIDIAのスケールアップ技術とAWSのカスタムシリコンの融合です。AWSは「NVLink Fusion」を採用し、自社の推論・学習用チップ「Trainium4」やCPUと組み合わせます。これにより、大規模AIモデルの学習や推論のボトルネックを解消し、市場投入を加速します。NVIDIAのジェンスン・フアンCEOは、この動きを「AI産業革命のための計算ファブリックの創造」と位置づけています。

データセキュリティと規制順守を重視する企業向けに、「AWS AI Factories」も発表されました。これは、NVIDIAの最新GPU「Blackwell」アーキテクチャを搭載したインフラを、顧客自身のデータセンター内に配備し、AWSが運用管理を行うサービスです。これにより、企業は機密データの主権（ソブリンAI）を維持しながら、世界最高峰のAI計算能力を活用することが可能になります。

開発者の生産性を高めるソフトウェア統合も進みます。NVIDIAのオープンモデル「Nemotron」が「Amazon Bedrock」に統合され、即座に利用可能になりました。「Amazon OpenSearch Service」ではGPU活用のベクトル検索が導入され、最大10倍の高速化を実現しています。さらに、ロボティクス開発を支援する物理AIモデル「NVIDIA Cosmos」もAWS上で利用可能となりました。

出典：NVIDIA公式

Nvidia、Synopsysへ20億ドル投資で半導体設計基盤を強化

2025年12月01日 NVIDIA ソフトバンクエコシステムワークフロー半導体 GPU ハードウェア米国投資バブル

投資の全容と技術的狙い

Synopsysへ20億ドルの戦略投資

設計基盤をCPUからGPUへ移行

AIハードウェアとの統合を加速

市場環境と戦略的意義

設計ツールへの支配力を強化

輸出規制に苦しむSynopsysを支援

大口売却続く中での強気の投資

詳細を見る

Nvidiaが半導体設計ソフトウェア大手Synopsysに対し、20億ドルの巨額投資を実行しました。目的はSynopsysの設計ツールにNvidiaのAI技術を深く統合し、従来のCPUベースからGPUベースへの移行を加速させることです。

これにより、複雑化するチップ設計のワークフローが劇的に高速化される見込みです。Synopsysにとっては、米国の輸出規制や主要顧客のトラブルで低迷していた業績への懸念を払拭し、長期的な成長を印象づける好材料となりました。

Nvidiaにとっても、激化する半導体開発競争において、不可欠な設計ツールへの影響力を強める重要な一手です。ソフトバンクなどがNvidia株を売却し、AIバブルへの警戒感が一部で囁かれる中、エコシステム支配に向けた攻めの姿勢を崩していません。

出典：TechCrunch

Liquid AI、エッジAI開発の「設計図」を全公開

2025年12月01日 Llama 推論 GPU ハードウェアオンデバイスクラウドデータセンターエネルギーセキュリティプライバシー画像音声スタートアップ MIT Gemma

企業向け小規模モデルの革新

51ページの技術レポートを公開

独自のLFM2アーキテクチャ詳解

CPU環境での推論効率を最大化

競合を凌ぐ処理速度と品質

実践的なハイブリッド戦略

自社データでのオンプレミス運用

画像・音声対応のマルチモーダル

クラウド不要のローカル処理実現

エッジとクラウドの協調動作へ

詳細を見る

MIT発のスタートアップLiquid AIは2025年12月1日、最新AIモデル「LFM2」の技術レポートを公開しました。これは単なるモデル提供にとどまらず、企業が独自のハードウェア制約に合わせて高性能な小規模モデルを構築するための「設計図」を提供するものです。巨大なGPUクラスターを前提としないこのアプローチは、コストやプライバシーを重視する企業のAI戦略に、オンデバイスでの実用化という新たな選択肢をもたらします。

LFM2の最大の特徴は、一般的なCPUやモバイルSoC上での動作に最適化されている点です。独自開発されたハイブリッドアーキテクチャにより、同規模の競合モデルであるLlama 3.2やGemma 3と比較して、推論速度と品質の両面で高いパフォーマンスを発揮します。これにより、スマートフォンやノートPC、産業機器など、通信環境や電力に制約のあるエッジ環境でも、遅延の少ない高度なAI処理が可能になります。

今回公開された51ページのレポートでは、アーキテクチャ探索プロセスやトレーニングデータの混合比率、知識蒸留の手法など、モデル開発の詳細なレシピが明かされました。企業はこの情報を参照することで、ブラックボックス化した外部APIに依存することなく、自社のデータセンターやデバイス上で完結するAIシステムを構築・運用できるようになります。これは、セキュリティ要件の厳しい産業分野において大きなアドバンテージです。

さらにLFM2は、テキストだけでなく画像や音声にも対応するマルチモーダル機能を、トークン効率を極限まで高めた形で実装しています。現場でのドキュメント理解や音声操作といったタスクを、データを外部に送信することなくローカルで完結させることが現実的になります。Liquid AIの提示するこのモデルは、エッジとクラウドが適材適所で連携する「ハイブリッドAI」時代の標準的な構成要素となるでしょう。

出典：VentureBeat

IBM CEO「現行AIでAGI到達せず」量子と計算効率化に勝機

2025年12月01日 OpenAI マイクロソフト Groq 生産性 AI活用 AI導入エンジニア推論リスク半導体 GPU インフラ AGI シリコンバレー投資バブル

AIコストは5年で実質「1000分の1」へ

現行LLMの延長線上にAGI（汎用人工知能）はない

半導体・設計・ソフト進化で計算効率は1000倍へ

AIバブル論を否定、インフラ投資は長期的資産になる

LLMの限界と量子コンピューティングの台頭

量子回路（QPU）はCPU・GPUと共存し補完する

量子計算の実用化は3〜5年以内に訪れると予測

AI導入で開発生産性が45%向上、採用は継続

詳細を見る

米IBMのArvind Krishna CEOがThe Vergeのインタビューに応じ、過熱するAI投資とAGI（汎用人工知能）待望論に対して、エンジニアリング視点から冷静な分析を提示しました。彼は現在のLLM（大規模言語モデル）技術の延長線上でAGIに到達する確率は極めて低いと断言。MicrosoftやOpenAIのような「AGIへの賭け」とは一線を画し、B2B領域での着実な実装と、次世代計算基盤への長期的投資を優先する姿勢を鮮明にしています。

市場で囁かれる「AIバブル崩壊」の懸念に対し、Krishna氏は否定的です。彼はムーアの法則に加え、チップアーキテクチャの刷新（Groqなどの推論特化型など）とソフトウェア最適化を組み合わせることで、今後5年間で計算コスト対効果が最大1000倍改善されると独自の試算を披露。この劇的な効率化がインフラ投資の正当性を支え、B2B領域でのAI活用を経済的に合理化すると説きます。

一方で、シリコンバレーを席巻するAGIブームには懐疑的です。LLMは本質的に確率論的なシステムであり、AGIに不可欠な「決定論的な知識」や論理的推論能力が欠けていると指摘します。現在のAIは生産性向上に極めて有用ですが、真のAGI到達にはLLMとは異なる新たな技術的ブレイクスルーが必要であり、現行技術への過度な期待を戒めました。

IBMがAIの次の勝負所と定めるのが量子コンピューティングです。Krishna氏は量子プロセッサを、CPUやGPUを置き換えるものではなく、特定の難問を解決する「QPU」として定義しています。彼は今後3〜5年以内に量子計算が実用段階（Utility scale）に達し、既存のスーパーコンピュータでは不可能な材料探索やリスク計算を処理することで、数千億ドル規模の市場価値を生むと予測しています。

AIによる雇用への影響についても、前向きな姿勢を崩しません。社内で生成AIを導入した結果、開発チームの生産性が45%向上した実績を挙げつつ、これを人員削減ではなく事業拡大の好機と捉えています。AIは「初心者を熟練者に変えるツール」であり、生産性が高まればより多くの製品を開発できるため、エンジニアの採用を積極的に継続する方針です。

出典：The Verge

OpenAIとGoogle、需要急増でAI生成回数を制限

2025年11月28日 Google OpenAI Gemini Sora Nano Banana 動画生成画像生成 GPU インフラ画像動画

主要ツールの制限内容

Sora無料版は1日6動画へ制限

Google 画像生成は1日2枚に縮小

背景にホリデー需要と負荷増大

企業側の対応と戦略

OpenAIは追加課金で購入可能

Googleは予告なしの変更を示唆

有料プランの優位性が高まる

詳細を見る

OpenAIとGoogleは2025年11月28日、ホリデーシーズンの需要急増を受け、主要な生成AIツールの利用制限を開始しました。インフラへの過度な負荷を軽減しつつ、収益化を加速させる狙いがあります。

OpenAIの動画生成AI「Sora」では、無料ユーザーの上限が1日6本に設定されました。責任者は「GPUが溶けそう」と状況を説明し、追加生成が必要な場合は都度購入するよう促しています。

Googleも画像生成AI「Nano Banana Pro」の無料枠を従来の3枚から1日2枚に縮小しました。Gemini 3 Proへのアクセスも制限されており、今後も予告なく条件が変更される可能性があります。

今回の措置は無料ユーザーが対象で、有料プランの制限変更には言及されていません。ビジネスで安定的にAIを利用するためには、有料版の活用やリソース状況の継続的な確認が不可欠です。

出典：The Verge

NVIDIAが韓国でAI祭典、26万GPU基盤と主権AI加速

2025年11月26日 NVIDIA エコシステム広告エンジニア推論 GPU インフラ動画韓国スタートアップエージェント

官民連携で進むAI基盤強化

ソウルでAI Day開催、千人超が参加

主権AIとデジタル基盤強化が焦点

国内で26万基のGPUインフラ活用へ

政府と連携しスタートアップを支援

主要企業の先端技術導入

NAVERがエージェント型AIで協業

LGはFP8活用で学習20%高速化

Coupangは物流AI工場を構築

詳細を見る

NVIDIAは11月下旬、ソウルで「AI Day」を開催し、現地の開発者や経営層など1,000名以上が集結しました。主権AIや物理AIを主要テーマに、韓国のデジタル基盤を強化するための官民連携や、最新の技術トレンドが共有されています。

特筆すべきは、APECサミットに関連して発表された26万基規模のGPU インフラ計画です。韓国中小ベンチャー企業部はNVIDIAと連携し、この膨大な計算資源を国内のスタートアップや研究機関に開放することで、エコシステム全体の競争力を高める方針です。

企業別の導入も加速しています。NAVER Cloudは「NVIDIA NeMo」を活用し、主権AIモデルの開発と最適化を推進。LG AI Researchは最新の学習手法でトレーニング速度を20%以上向上させ、推論性能の効率化を実現しました。

物流大手のCoupangは、最新のHopperおよびBlackwellアーキテクチャに基づくDGXシステムで「AIファクトリー」を構築しています。需要予測やルート最適化、広告のパーソナライズなど、実ビジネスへの適用を深化させています。

イベントではスタートアップ支援プログラム「Inception」の決勝も行われました。動画理解AIを手掛けるPYLER社などが評価され、国内でいち早く最新のDGX B200システムを導入するなど、新興企業の技術革新も活発化しています。

出典：NVIDIA公式

AI応答速度と効率を劇的改善する「連続バッチ」技術

2025年11月26日 ChatGPT 生産性エンジニア推論 GPU インフラ Hugging Face

LLM運用の課題と解決策

生成AIの計算負荷と遅延の解消

従来のパディングによる無駄を排除

核心となる技術要素

KVキャッシュで再計算を回避

パディング不要のRagged batching

長文を分割するChunked prefill

実装によるビジネス効果

推論スループットの最大化

GPUリソースの完全稼働

大規模同時接続への柔軟な対応

詳細を見る

生成AIの実装において、応答遅延と膨大なGPUコストは経営上の大きな課題です。解決の切り札となるのが、最新の推論最適化技術Continuous batchingです。本稿ではHugging Faceの技術解説を基に、AIインフラの生産性を最大化する本技術の全貌を紐解きます。

LLMの核となるAttention機構は計算コストが高く、通常は過去の計算結果をKVキャッシュとして保存し再計算を防ぎます。しかし、複数リクエストを同時処理する際、従来のバッチ処理では長さの不揃いな文章を扱うために非効率が発生していました。

最大の問題は、長さを揃えるための「パディング（穴埋め）」による無駄です。無意味なデータ処理でGPUメモリを浪費し、さらに長い処理の終了待ちが発生します。これはシステム全体のスループットを低下させ、コスト対効果を悪化させる主因でした。

新技術はRagged batchingを採用し、この常識を覆します。パディングなしで複数リクエストを連結し、Attentionマスクで干渉を防ぎます。空いたリソースへ即座に次のタスクを割り当て、GPU稼働率を限界まで高めることが可能になります。

加えて、長い入力を分割処理するChunked prefillを組み合わせます。これにより、メモリ不足を防ぎつつ、短い生成処理の合間に長い読込処理を隙間なく実行します。動的なスケジューリングにより、常に最適な順序で計算が行われます。

結果として「初期読込」と「文章生成」を混在させ、処理能力を劇的に向上させます。これはChatGPT等の大規模基盤であり、AIサービスの収益性と体験を両立させるため、エンジニアのみならずリーダー層も理解すべき必須概念です。

出典：Hugging Face

米でメモリが「時価」販売へ。AI需要で価格高騰

2025年11月25日半導体 GPU ハードウェアインフラデータセンター米国

価格3倍超の異常事態

米店舗でメモリが時価販売へ移行

3ヶ月で価格が3倍超に急騰する例も

64GBキットは900ドルに達する勢い

AI特需が招く供給難

生産能力がデータセンター優先にシフト

GPUやゲーム機も値上げの可能性

市場正常化には数年かかるとの予測

詳細を見る

AIブームの影で、PCメモリ（RAM）の価格が記録的な高騰を見せています。米国のPCパーツショップでは日々の価格変動があまりに激しく、まるで高級海鮮料理のように「時価」で販売される異常事態が発生。背景にはデータセンターにおける爆発的なAI需要があります。

実際の価格上昇は劇的かつ急速です。ある32GBメモリキットは、わずか3ヶ月で130ドルから440ドルへと3倍以上に跳ね上がりました。米主要小売店の一部は、仕入れ値の乱高下に対応するため、店頭での固定価格表示を取りやめ、購入時の確認を求めています。

根本的な原因は、限られた生産リソースの奪い合いにあります。Epic GamesのCEOは、半導体工場が最先端DRAMの生産能力を、高値で取引されるデータセンター向けに優先して振り向けていると指摘。消費者向け製品よりも、収益性の高いAIインフラが優遇される構造です。

この供給不足はPCパーツ全体に波及し始めています。大量のVRAMを要するGPUや、次世代ゲーム機、スマートフォンの価格設定にも上昇圧力がかかっています。AI普及の代償としてハードウェア調達コストの高止まりは数年続く可能性があり、戦略的な対応が必要です。

出典：The Verge

画像生成「FLUX.2」公開、一貫性と品質で商用利用を革新

2025年11月25日 NVIDIA 生産性 AI活用ワークフロー画像生成エンジニアクリエイターオープンウェイト GPU セキュリティ画像ブランドベンチマーク

商用特化の強力なモデル群

Proから軽量版まで4つのモデルを展開

最大10枚の画像参照で一貫性を維持

文字描画と物理的正確性が大幅向上

技術革新と高い経済性

320億パラメータの高性能を実現

NVIDIA連携でVRAM消費を40%削減

競合比で高品質かつ低コストを達成

詳細を見る

独Black Forest Labsは11月25日、画像生成AI「FLUX.2」を発表しました。高画質を維持しつつ、企業が求める一貫性と制御性を大幅に強化し、本格的な商用ワークフローへの導入を狙います。

ラインナップは、最高性能の「Pro」、パラメータ制御可能な「Flex」、オープンウェイトの「Dev」、軽量版「Klein」の4種です。特に「Dev」は320億パラメータを誇り、開発検証において強力な選択肢となります。

最大の特徴は「マルチリファレンス機能」です。最大10枚の画像を読み込み、キャラや商品の細部を維持した生成が可能です。これにより、従来の課題だった生成ごとのバラつきを解消し、ブランドイメージの統一を容易にします。

コスト対効果も優秀です。ベンチマークでは、競合と比較して同等以上の品質を数分の一のコストで実現しています。API単価も安く設定されており、大量の画像生成を行う企業の収益性向上とコスト削減に大きく寄与します。

技術面では「VAE」を改良し、Apache 2.0ライセンスで完全オープン化しました。企業はこれを基盤に自社パイプラインを構築でき、ベンダー依存を避けつつ、セキュリティと品質を自社でコントロール可能になります。

NVIDIAとの協力により、FP8量子化技術を用いてVRAM使用量を40%削減しました。これにより、巨大なモデルでありながら、ComfyUIなどを通じて一般的なGPU環境でも効率的に動作させることが可能です。

FLUX.2は、企業のエンジニアやクリエイターが「使える」ツールとして設計されています。APIによる手軽な導入と、自社ホストによる詳細な制御を両立できる点は、AI活用の生産性を高めるための重要な要素となるでしょう。

出典：VentureBeat | Hugging Face | NVIDIA公式 | vercel.com

印TCSとTPG、AIデータセンターに20億ドル投資へ

2025年11月20日 Google マイクロソフト GPU インフラデータセンターエネルギーインドコンサル投資提携

20億ドル規模の新プロジェクト

印TCSと米TPGが提携

総額20億ドルを投資

AI向けDC「HyperVault」

TPGが10億ドルを出資

インド市場の深刻な需給ギャップ

世界のデータ20%を生成

DC容量は世界3%のみ

AI需要でインフラ不足深刻

技術仕様と環境への課題

水冷式・高密度設計を採用

初期容量1.2GWを計画

大量の水・電力消費が懸念

詳細を見る

インドIT最大手のタタ・コンサルタンシー・サービシズ（TCS）は、米投資会社TPGから10億ドルの出資を受け、総額20億ドルのAIデータセンター構築プロジェクト「HyperVault」を開始します。急増するAIコンピュート需要に対応し、国内インフラを強化する狙いです。

インドは世界のデータの約20%を生成する一方、データセンター容量は世界全体のわずか3%にとどまっています。この深刻な需給ギャップを埋めるため、GoogleやMicrosoftなどの巨大テック企業も相次いで数十億ドル規模の投資を行っています。

新プロジェクトでは、AIの高度な計算処理に耐えうる水冷式・高密度のデータセンターを開発します。初期段階で約1.2ギガワットの容量を構築し、ハイパースケーラーやAI企業向けにインフラを提供・運用する計画です。

一方で、高性能なGPUサーバーは大量の電力と冷却水を必要とします。慢性的な水不足や電力インフラへの負荷が懸念されるインドにおいて、安定的かつ持続可能な資源確保が、プロジェクト成功の鍵を握ることになるでしょう。

出典：TechCrunch

自社AIのGPUコストを最大7割削減、ScaleOps新製品

2025年11月20日生産性エンジニア GPU インフラクラウド CI/CD 投資

GPUコストと運用負荷を劇的削減

GPUコストを50〜70%削減

自社運用LLM向けに最適化

年間140万ドル削減の事例も

コード変更不要で即時導入可能

アプリのコード変更不要

Kubernetes全環境に対応

自動化でパフォーマンスを安定化

リアルタイムでリソース調整

スパイク時の遅延を防止

詳細を見る

ScaleOpsは、企業が自社で運用するLLMやAIアプリのインフラコストを劇的に削減する新製品「AI Infra Product」を発表しました。本製品はGPUリソースの管理を自動化し、コストを最大70%削減しながら、パフォーマンスの安定化を実現するものです。

企業が直面する最大の課題は、高価なGPUリソースの「低稼働率」と「管理の複雑さ」です。新製品はトラフィック変動に応じてリアルタイムでGPUを割り当て、不要な容量を削減します。これにより、エンジニアは手動での調整作業から解放され、生産性を高められます。

既存システムへの導入障壁が極めて低い点も大きな特徴です。アプリケーションコードやインフラ設定の変更は一切不要で、Kubernetesや主要クラウド、オンプレミス環境にシームレスに統合できます。わずか数分の設定で、既存のCI/CDツールと連携し稼働を開始します。

実際の導入効果も顕著です。ある大手ソフトウェア企業ではGPU支出を半分以下に抑えつつ、遅延を35%削減しました。また、大規模なゲーム会社ではGPU稼働率を7倍に引き上げ、年間140万ドルのコスト削減を見込むなど、高い投資対効果が実証されています。

出典：VentureBeat

世界最大級の生物学AI「BioCLIP 2」始動、2億枚で学習

2025年11月20日 NVIDIA シミュレーションデジタルツイン推論 GPU 画像基盤モデル

圧倒的なデータと学習基盤

2億1400万枚の画像を学習

92万以上の分類群を網羅

NVIDIA H100で高速学習

概念を理解する高度な推論

性別や健康状態まで識別可能

種間の関係性を自律的に学習

教示なしで特徴の順序を理解

生態系保全と未来への応用

データ不足解消で保全に貢献

デジタルツイン構築への布石

詳細を見る

オハイオ州立大学の研究チームは、NVIDIAなどの支援を受け、世界最大級の生物学基盤モデル「BioCLIP 2」を発表しました。2億枚以上の画像データで学習されたこのAIは、従来の画像認識を超え、生物の複雑な関係性や特性を理解する能力を備えています。

基盤となるデータセット「TREEOFLIFE-200M」は、サルの仲間から植物まで92万以上の分類群を網羅しています。スミソニアン博物館などと協力して構築されたこの膨大なデータを、NVIDIA H100 GPUを用いてわずか10日間で学習させました。

特筆すべきは、教えられていない概念を理解する推論能力です。例えば、鳥のくちばしの大きさ順に並べたり、同種内のオスとメス、あるいは成体と幼体を区別したりできます。さらには、植物の葉の画像から病気の有無や種類を特定することさえ可能です。

このモデルは、絶滅危惧種の個体数推定など、データが不足している分野での活用が期待されています。既存のデータを補完することで、より効果的な生物多様性の保全活動を支援する「科学的プラットフォーム」としての役割を担います。

研究チームは次なる段階として、野生生物の「デジタルツイン」開発を見据えています。生態系の相互作用を仮想空間でシミュレーションすることで、実際の環境を破壊することなく、複雑な生態系の研究や教育が可能になるでしょう。

出典：NVIDIA公式

Nvidia決算570億ドル、AI需要加速でバブル論一蹴

2025年11月19日 NVIDIA エコシステム投資家半導体 GPU インフラクラウドデータセンター中国投資バブル

決算ハイライトと市場評価

売上は前年比62%増の570億ドル

純利益320億ドルで市場予想超え

データセンター売上が512億ドル

AI需要と次世代チップ

CEOはバブル論否定し成長を強調

Blackwellチップ売上は桁外れ

クラウド GPUは完売状態が継続

今後の見通しと課題

第4四半期売上650億ドルを予測

中国向け出荷は競争激化で苦戦

詳細を見る

Nvidiaは11月19日、第3四半期決算を発表し、売上高が前年同期比62%増の570億ドルに達したと明らかにしました。純利益も320億ドルと市場予想を上回り、AI需要の爆発的な拡大が業績を強力に牽引しています。

成長の中核はデータセンター部門です。売上高は過去最高の512億ドルを記録し、前年同期比で66%増加しました。AIモデルの高度化に伴い、計算リソースへの投資が加速している現状が浮き彫りとなりました。

ジェンスン・ファンCEOは市場の一部にある「AIバブル」の懸念を一蹴しました。「我々の視点では成長しかない」と述べ、AIエコシステムがあらゆる産業や国に拡大し、好循環に入ったとの認識を示しています。

特に最新のAIチップ「Blackwell」シリーズへの需要は桁外れです。クラウド向けGPUは完売状態が続いており、クラウド事業者からソブリンAI（国家主導のAI開発）に至るまで、インフラ構築の勢いは止まりません。

同社は第4四半期の売上高を650億ドルと予測しており、さらなる成長を見込んでいます。この強気の見通しを受け、株価は時間外取引で4%以上上昇しました。投資家に対し、AIブームの持続力を証明した形です。

一方で課題も残ります。中国向けに設計されたH20チップの出荷は、地政学的な問題や現地企業との競争激化により期待を下回る結果となりました。同社は引き続き政府との対話を通じて対応する方針です。

出典：TechCrunch | The Verge

NVIDIAがスパコン市場を独占、AI融合で科学発見を加速

2025年11月18日 NVIDIA シミュレーションデジタルツイン気象半導体 GPU エネルギースーパーコンピューター欧州

スパコン市場の構造的転換

TOP100の88%がアクセラレーテッド

CPU単独システムは15%未満に激減

Green500上位8枠をNVIDIAが独占

科学技術賞候補を総なめ

ゴードン・ベル賞候補5組全てが採用

津波予測計算を100億倍高速化

気候モデルで1km解像度を実現

AIとシミュレーションの融合

欧州初エクサ級JUPITERが稼働

GH200がAIと計算性能を両立

詳細を見る

2025年11月18日、NVIDIAはSC25において、スパコン界の最高権威ゴードン・ベル賞のファイナリスト5チームすべてが同社の技術を採用していると発表しました。AIとシミュレーションの融合により、科学計算の常識が覆されつつあります。

かつてCPUが主流だったスパコン市場は、「グレート・フリップ」と呼ばれる大転換を迎えました。現在、世界TOP100システムの88%がGPUなどのアクセラレータを採用しており、そのうち8割をNVIDIA GPUが駆動しています。

特筆すべき成果として、テキサス大学オースチン校などのチームはデジタルツインを用いた津波予測において、従来50年要した計算をわずか0.2秒で完了させ、100億倍の高速化を実現しました。これにより災害時のリアルタイム対応が可能になります。

気候変動対策でも画期的な進展が見られます。スイスのスパコン「Alps」を用いたICONプロジェクトは、地球全体を1km解像度でシミュレーションすることに成功。24時間で146日分の気象変化を予測し、長期的な気候モデルの精度を飛躍的に高めました。

欧州初のエクサスケールスパコン「JUPITER」は、シミュレーション性能だけでなく、116 AIエクサフロップスという驚異的なAI処理能力を提供します。省電力性能を示すGreen500でも上位をNVIDIA搭載機が独占し、効率と性能の両立を証明しました。

これらの成果は、GH200 Grace Hopperなどの最新チップとCUDA-Xライブラリの進化によるものです。ナノスケールのトランジスタ設計や宇宙船エンジンの排気シミュレーションなど、多岐にわたる分野で人類の課題解決を加速させています。

出典：NVIDIA公式 | NVIDIA公式

非構造化データを即戦力へ変えるGPUストレージ

2025年11月18日 NVIDIA 生産性 AI活用 AI導入リスク GPU インフラセキュリティ動画エージェント

AI導入を阻むデータ準備の壁

非構造化データが企業の約9割

整理・加工に膨大な工数が発生

複製によるセキュリティリスク

GPUストレージによる解決策

GPUをデータ経路に直接統合

移動させずその場で加工

変更を即座にベクトル化反映

主要ベンダーが続々採用

DellやHPEなど大手が参加

パイプライン構築の手間削減

詳細を見る

NVIDIAは2025年11月、AI実用化の最大の障壁であるデータ準備の課題を解決するため、GPUを統合した「AIデータプラットフォーム」を提唱しました。非構造化データを自動で「AI即応データ」に変換し、企業の生産性を劇的に向上させます。

企業のデータの最大9割を占める文書や動画などの非構造化データは、そのままではAIが利用できません。データサイエンティストは散在するデータの整理やベクトル化に多くの時間を奪われ、本質的な分析業務に注力できないのが現状です。

新しいプラットフォームは、ストレージ基盤にGPUを直接組み込むことでこの問題を解決します。データを移動させずにその場で加工するため、不要なコピーを作らず、セキュリティリスクや管理コストを大幅に削減することが可能です。

元データに変更や権限の修正があった場合、即座にAI用のベクトルデータにも反映される仕組みです。これにより情報の鮮度と整合性が常に保たれ、AIエージェントは常に最新かつ正確な情報に基づいて業務を遂行可能になります。

この設計はCisco、Dell、HPEなどの主要ストレージベンダーに採用されています。企業は既存のインフラを通じて、複雑なパイプライン構築の手間なく、即座にAI活用のためのデータ基盤を導入できるようになります。

出典：NVIDIA公式

AzureでClaude利用可能に MSとNVIDIAが巨額投資

2025年11月18日 OpenAI Anthropic NVIDIA マイクロソフト Claude Copilot Sonnet Opus エンジニア経営者推論 GPU ハードウェアクラウドセキュリティ投資提携エージェント

150億ドル規模の戦略投資

NVIDIAが最大100億ドルを出資

Microsoftが最大50億ドルを投資

Azure計算資源へ300億ドル分の利用を確約

Azureでの利用と技術連携

最新モデルSonnet 4.5等が即時利用可能

Excel等のMicrosoft 365とも連携

次世代GPURubin等でモデルを最適化

詳細を見る

2025年11月18日、MicrosoftとNVIDIAはAnthropicとの戦略的提携を発表しました。両社は合計で最大150億ドルをAnthropicに投資し、対するAnthropicはMicrosoft Azureの計算資源に300億ドルを支出する相互依存的な大型契約です。

本提携により、Azure AI Foundryの顧客は、Anthropicの最新モデルであるClaude Sonnet 4.5やOpus 4.1などを即座に利用可能となります。これによりClaudeは、主要3大クラウドすべてで提供される唯一の最先端AIモデルという地位を確立しました。

開発者や企業は、Azureの堅牢なセキュリティ環境下で、Claudeの高度な推論能力を既存システムに統合できます。さらに、Excelのエージェントモードなど、Microsoft 365 Copilot内でもClaudeの機能がプレビュー版として提供され始めました。

技術面では、NVIDIAとAnthropicがハードウェア最適化で深く連携します。次世代GPUアーキテクチャであるVera RubinやGrace Blackwellシステムを活用し、計算効率とパフォーマンスを最大化することで、将来的な大規模AIクラスター構築を目指します。

今回の動きは、MicrosoftがOpenAIとの独占的な関係を緩和し、モデルの多様化へ舵を切ったことを象徴しています。経営者は特定のベンダーに依存しない柔軟なAI戦略が可能となり、用途に応じた最適なモデル選択が加速するでしょう。

出典：Anthropic公式 | NVIDIA公式 | Anthropic公式 | The Verge | Ars Technica

NVIDIAとMS、次世代AI工場で連携強化 GPU大規模導入へ

2025年11月18日 OpenAI NVIDIA マイクロソフト生産性デジタルツイン推論 GPU インフラクラウドデータセンター米国エージェント

AIインフラの刷新と拡大

米2拠点でAI工場を連携

数十万基のBlackwell統合

推論用に10万基超を展開

Spectrum-Xを採用

企業AIと物理世界の融合

AzureでRTX 6000提供

SQL ServerにAI機能統合

MS 365でエージェント活用

物理AIで産業デジタル化

詳細を見る

NVIDIAとMicrosoftは2025年11月18日、AIインフラおよびスーパーファクトリーに関する協業拡大を発表しました。米国ウィスコンシン州とジョージア州を結ぶ大規模データセンターに次世代GPUBlackwellを導入し、インフラからアプリケーション層まで包括的に連携することで、開発から産業応用までAIの全領域を加速します。

両社は世界最大級のAIデータセンターを連携させ、トレーニング用に数十万基、推論用に10万基以上のBlackwell GPUを導入します。これらを高速なSpectrum-Xイーサネットスイッチで接続し、OpenAIなどの大規模モデル開発を強力に支えます。

企業向けには、Azure上でRTX PRO 6000搭載の仮想マシンを提供開始しました。クラウドからエッジまで一貫した環境を整備することで、製造業におけるデジタルツインの構築や、高度な生成AIアプリケーションの展開を容易にします。

さらに「SQL Server 2025」へNVIDIAのAIモデルを統合し、企業データの活用を高度化します。Microsoft 365でのAIエージェント対応や物理AIの産業利用も推進し、あらゆる業務領域で生産性の向上を実現する構えです。

出典：NVIDIA公式

Lambdaが15億ドル調達、MSとの巨額契約後にAI基盤強化

2025年11月18日 NVIDIA マイクロソフト投資家 GPU インフラデータセンター投資提携資金調達評価額 IPO

マイクロソフトとの連携加速

AI基盤Lambdaが15億ドル調達

MSと数十億ドル規模の契約締結直後

数万基のNvidia GPUを供給予定

有力投資家と市場評価

リード投資家はTWG Global

Nvidiaも出資する戦略的企業

市場予想を上回る大規模な資本注入

詳細を見る

米AIデータセンター大手のLambdaは18日、総額15億ドルの資金調達を実施したと発表しました。リード投資家はTWG Globalが務めます。今月初旬にマイクロソフトと数十億ドル規模のインフラ供給契約を締結したばかりであり、AIインフラ市場での拡大を加速させる狙いです。

今回のラウンドを主導したTWG Globalは、運用資産400億ドルの投資会社であり、アブダビのMubadala Capitalとも提携しています。この強力な資金基盤を背景に、Lambdaは競合であるCoreWeaveに対抗し、AIデータセンター領域でのシェア拡大を図ります。

Lambdaはマイクロソフトに対し、数万基のNvidia製GPUを用いたインフラを供給する契約を結んでいます。以前はCoreWeaveが主要パートナーでしたが、Lambdaも「AIファクトリー」の供給元として、ハイパースケーラーにとって不可欠な存在となりつつあります。

今年2月の調達時には評価額が25億ドルとされていましたが、今回の調達規模は市場の予想を大きく上回りました。IPOの可能性も取り沙汰される中、LambdaはAIインフラの主要プレイヤーとしての地位を確固たるものにしています。

出典：TechCrunch

ChatGPT、「実用性」と「収益性」の両立へ

2025年11月17日 OpenAI ChatGPT 広告専門家リスク GPU ペアレンタルコントロール投資エージェント

収益化への道筋

圧倒的な価値提供で収益確保

全産業向けAIエージェント

計算資源の確保が最優先

広告モデルは慎重に検討

社会的責任と安全性

メンタルヘルス問題へ対応

AI人材の認定と雇用創出

ペアレンタルコントロール導入

悪用リスクへの事前対策

詳細を見る

OpenAIの応用部門CEOに就任したフィジー・シモ氏が、ChatGPTの収益化戦略を語りました。同氏は、AIの高度な知能と実際の利用度の乖離、いわゆる「ユーティリティ・ギャップ」を埋め、AIを誰もが手放せない製品に変えることで、事業を黒字化する考えです。

「モデルの知能は、人々の利用度をはるかに上回っている」。シモ氏が最も懸念するのがこの点です。彼女の使命は、このギャップを埋めること。パーソナルショッパーから健康コーチまで、AIを誰もが持つ「専門家チーム」にすることを目指します。

収益化の鍵は、圧倒的な価値提供にあります。個人や企業が「お金を払いたい」と感じるほどの体験を創出できれば、収益は後からついてくるとシモ氏は指摘。あらゆる産業・機能に対応するAIエージェントの構築が、その中核をなします。

一方で、最大の課題は計算資源（コンピュート）の制約です。数十億ドル規模の投資は外部からはリスクに見えますが、社内ではGPU不足の方が遥かに大きなリスク。新機能の全ユーザーへの展開を妨げているのが現状です。

シモ氏は安全性にも注力します。特に、メンタルヘルスや雇用の混乱といった社会的リスクには、就任直後から着手。過去の巨大テック企業が後手に回った分野で、先回りして対策を講じる姿勢を鮮明にしています。

出典：WIRED

NVIDIA、スパコン革新で科学技術の新時代へ

2025年11月17日 NVIDIA エコシステムワークフローネットワークシミュレーションエンジニア経営者 GPU ハードウェアインフラデータセンターエネルギースーパーコンピューターセキュリティ米国日本欧州

AI物理モデルと新ハード

AI物理モデルApollo発表

シミュレーションを高速化

次世代DPU BlueField-4

量子連携技術NVQLink

世界80以上のスパコン採用

米学術最大級Horizon構築

米エネルギー省に7基導入

日本の理研も新システム採用

欧州初のExascale機も

詳細を見る

NVIDIAは、先日開催されたスーパーコンピューティング会議「SC25」で、AI時代の科学技術計算をリードする一連の革新技術を発表しました。シミュレーションを加速するAI物理モデルApolloや、データセンターの頭脳となる次世代DPU BlueField-4、量子コンピュータと連携するNVQLinkなどが含まれます。これらの技術は世界80以上の新システムに採用され、研究開発のフロンティアを大きく押し広げます。

特に注目されるのが、AI物理モデル群「Apollo」です。これは、電子デバイス設計から流体力学、気候変動予測まで、幅広い分野のシミュレーションをAIで高速化するものです。従来手法より桁違いに速く設計空間を探索できるため、SiemensやApplied Materialsなどの業界リーダーが既に採用を表明。製品開発サイクルの劇的な短縮が期待されます。

AIファクトリーのOSを担うのが、次世代データ処理装置（DPU）「BlueField-4」です。ネットワーク、ストレージ、セキュリティといった重要機能をCPUやGPUからオフロードすることで、計算リソースをAIワークロードに集中させます。これにより、データセンター全体の性能と効率、そしてセキュリティを飛躍的に向上させることが可能になります。

これらの最先端技術は、世界中のスーパーコンピュータで採用が加速しています。テキサス大学の学術機関向けでは米国最大となる「Horizon」や、米国エネルギー省の7つの新システム、日本の理化学研究所のAI・量子計算システムなどがNVIDIAプラットフォームで構築されます。科学技術計算のインフラが、新たな次元へと進化しているのです。

さらに未来を見据え、NVIDIAは量子コンピューティングとの連携も強化します。新技術「NVQLink」は、GPUスーパーコンピュータと量子プロセッサを直接接続するユニバーサルなインターコネクトです。これにより、古典計算と量子計算を組み合わせたハイブリッドなワークフローが実用的になり、これまで解けなかった複雑な問題への挑戦が始まります。

一連の発表は、NVIDIAが単なるハードウェア供給者ではなく、AI時代の科学技術インフラをソフトウェア、ハードウェア、エコシステム全体で定義する存在であることを示しています。経営者やエンジニアにとって、このプラットフォーム上でどのような価値を創造できるか、その真価が問われる時代が到来したと言えるでしょう。

出典：NVIDIA公式 | NVIDIA公式 | NVIDIA公式 | NVIDIA公式

Hugging Face、ROCmカーネル開発・共有基盤を公開

2025年11月17日 NVIDIA Meta 生産性エコシステムエンジニア GPU Hugging Face

ROCmカーネル開発を刷新

複雑なビルド工程を自動化

Nixによる再現性の高い環境構築

PyTorchとのシームレスな統合

CUDA、Metalなどマルチ対応

Hubで共有し即時利用

開発資産をHubで公開・共有

コミュニティによる再利用を促進

数行のコードでカーネルを読込

詳細を見る

Hugging Faceは2025年11月17日、AMD製GPU向けのカスタムカーネル開発を大幅に簡素化する新ツール群とガイドを発表しました。高性能な深層学習に不可欠なカスタムカーネルですが、その開発は複雑でした。新ツール「kernel-builder」とライブラリ「kernels」により、開発者はビルドや共有の手間から解放され、AMDのROCmプラットフォーム上で効率的にAI開発を進められるようになります。

なぜ、このようなツールが必要なのでしょうか。従来、カスタムカーネルの開発は、特定のGPUアーキテクチャに合わせたコンパイルや、PyTorchなどのフレームワークとの連携において、専門的な知識と煩雑な作業を要しました。設定ファイルの記述ミスや環境差異によるエラーは日常茶飯事で、開発者の大きな負担となっていました。この生産性のボトルネックを解消することが、新ツールの狙いです。

中核となる「kernel-builder」は、ビルドからPyTorch連携までを自動化します。特に、ビルド環境を完全に固定する「Nix」技術により、誰でも同じ結果を保証する「再現性」を確保。これにより開発プロセスが大幅に安定します。

最大の特長は、Hugging Face Hubを通じた共有エコシステムです。開発したカーネルはHubで公開でき、他ユーザーは数行のコードで即時利用可能。コミュニティ全体で資産を共有し、開発の車輪の再発明を防ぎます。

今回の発表では、具体的な事例としてAMDの最新GPU「Instinct MI300X」に最適化された行列積（GEMM）カーネルが紹介されました。深層学習の中核演算であるGEMMを高速化するこのカーネルは、Hugging Faceのツール群がいかに実用的な性能向上に貢献するかを明確に示しています。

今回の取り組みはAMD製GPUの活用を大きく後押しします。ソフトウェア開発の障壁を下げ、NVIDIA優位の市場に新たな競争軸をもたらす可能性があります。オープンなエコシステム戦略が、今後のAIの進化を加速させるでしょう。

出典：Hugging Face

AIバブルの警鐘、CoreWeaveの危うい財務構造

2025年11月17日 OpenAI NVIDIA マイクロソフト Meta 専門家投資家リスク半導体 GPU データセンター投資バブル

AIバブルを構成する4要素

革新技術の不確実性

単一技術に依存する純粋投資

初心者投資家の市場参入

技術が未来だという協調的な信念

CoreWeaveの財務リスク

巨額の負債と不透明な収益性

大口顧客が将来の競合相手

Nvidiaへの過度な依存

経営陣による株式売却

詳細を見る

AIブームの熱狂の裏で、データセンター企業CoreWeaveの財務リスクが「AIバブル」への懸念を増幅させています。同社は急成長を遂げる一方、巨額の負債と半導体大手Nvidiaへの過度な依存という構造的な問題を抱えています。専門家は、現在のAIブームがテクノロジーバブルの典型的な特徴を全て満たしていると指摘し、市場に警鐘を鳴らしています。

CoreWeaveは、AI開発に必要な計算能力を提供する「つるはしとシャベル」を売る企業として注目を集めています。MicrosoftやOpenAIといった巨大テック企業との契約で売上は急増。しかしその内実は、Nvidia製GPUを担保にした高金利の融資に支えられた、極めて危ういビジネスモデルです。収益性への道筋は依然として不透明です。

最大のリスクは、大口顧客との関係性です。Microsoft、OpenAI、Metaといった主要顧客は、自社でデータセンターやAIチップの開発を進めています。現在はCoreWeaveのサービスを利用していても、将来的には最大の競合相手に変わる可能性があります。長期契約が更新されないリスクは、常に同社に付きまといます。

同社のビジネスは、半導体大手Nvidiaなくしては成り立ちません。Nvidiaは投資家、顧客、そして唯一のサプライヤーという三つの顔を持ちます。この歪な依存構造から、CoreWeaveはNvidiaが自社のリスクを負わずにチップ販売を促進するための「事実上の特別目的事業体」ではないか、との厳しい見方も出ています。

こうした状況は、専門家が指摘するテクノロジーバブルの条件と完全に一致します。専門家は「不確実性」「単一技術に依存する純粋投資」「初心者投資家の参入」「技術が未来だという協調的な信念」の4要素が揃っていると分析。現在のAIブームを最高レベルで警戒すべきバブルだと評価しています。

もしAIバブルが崩壊すれば、その影響は甚大なものになるでしょう。Nvidia一社が株式市場全体の8%を占めるなど、市場の集中はドットコムバブル時代とは比較になりません。バブル崩壊後もAI技術自体は社会に残るでしょう。しかし、その過程で生じる経済的損失は、多くの投資家や企業にとって深刻な打撃となりかねないのです。

出典：The Verge | WIRED

GPUの性能を最大限に、Luminalが5.3億円調達

2025年11月17日 NVIDIA Apple エンジニア創業者推論 GPU ハードウェアインフラスタートアップ資金調達 Intel

GPU最適化の新星 Luminal

元Intel、Apple出身者が創業

Y Combinatorプログラム採択

GPUの真のボトルネックはソフト

5.3億円調達で事業加速

独自のGPUコンパイラを開発

NVIDIAのCUDAに対抗/補完

推論の高速化と低コスト化に貢献

詳細を見る

GPUの性能を最大限に引き出すソフトウェア開発を手がけるスタートアップ、Luminalが17日、シードラウンドで530万ドル（約8億円）の資金調達を発表しました。この資金調達はFelicis Venturesが主導。IntelやApple出身のエンジニアが創業した同社は、GPUの利用効率を飛躍的に高めるコンパイラ開発を加速させ、AIモデルの推論コスト削減を目指します。

共同創業者のJoe Fioti氏はIntelでの経験から、「最高のハードウェアがあっても、開発者が使いにくければ普及しない」とソフトウェアの重要性を痛感。この課題意識がLuminalの創業につながりました。同社は、多くの開発者が直面するGPUのソフトウェア面のボトルネック解消に真正面から取り組みます。

Luminalの事業の核は、GPUの計算能力を販売することに加え、それを支える高度な最適化技術にあります。特に、プログラミング言語で書かれたコードをGPUが実行できる形式に変換する「コンパイラ」の最適化に注力。これにより、既存のハードウェアインフラから、より多くの計算能力を引き出すことを可能にします。

現在、AI業界のコンパイラはNVIDIAの「CUDA」が標準ですが、Luminalはオープンソース部分を活用し、より優れたスタックを構築することで勝機を見出しています。GPU不足が続く中、推論の高速化・低コスト化を実現する同社のようなスタートアップへの期待は高まっています。

推論最適化市場は、BasetenやTogether AIのような既存企業に加え、Tensormeshなど新たなスタートアップも参入し、競争が激化しています。大手研究所も自社モデルの最適化を進めていますが、Fioti氏は「汎用的なユースケースには非常に大きな経済的価値がある」と述べ、市場の急成長に自信を見せています。

出典：TechCrunch

ローカルAI時代へ、PC構造が数十年ぶり大変革

2025年11月17日マイクロソフト Apple Copilot Windows エコシステムエンジニア半導体 GPU ハードウェアクラウドデータセンターエネルギープライバシー AGI Intel Qualcomm

NPU搭載競争が激化

AI処理特化のNPUを標準搭載

電力効率に優れバッテリー消費抑制

チップ各社のTOPS性能競争が加速

統合メモリへの構造変化

CPUとGPUの分離メモリがボトルネックに

統合メモリでデータ転送を高速化

大規模モデルのローカル実行が可能に

OSレベルでのAI最適化

MSがCopilot+ PCで業界を先導

OSが最適なプロセッサを自動選択

詳細を見る

PC業界が、AI、特に大規模言語モデル（LLM）をクラウドを介さず個人のPC上で直接実行するため、数十年ぶりの構造変革期に突入しています。この動きは、AI処理に特化したNPU（Neural Processing Unit）の搭載と、CPUやGPUがメモリを共有する「統合メモリアーキテクチャ」への移行という二つの大きな技術革新によって牽引されています。これにより、低遅延でプライバシーも保護された、よりパーソナルなAI体験が実現しようとしています。

これまでのPCは、ほとんどのAI処理をクラウド上のデータセンターに依存していました。しかし、個人のPCでAIを動かすには性能が不足していたのです。その解決策の主役がNPUです。AIが得意とする行列演算に特化したこのチップは、CPUやGPUよりも遥かに高い電力効率でAIタスクを処理します。Qualcomm、AMD、Intelといった半導体大手は、性能指標であるTOPS（1秒間の演算回数）を競い合い、PCのAI性能を急速に向上させています。

もう一つの革命はメモリ構造です。従来の高性能PCでは、CPUが使うメインメモリと、GPUが使う専用のグラフィックスメモリは分離していました。しかし、巨大なAIモデルを動かすには、この分離構造が非効率でした。CPUとGPU間でデータをやり取りするたびに、大きな遅延と電力消費が発生していたためです。これはAIの応答速度を著しく損なうボトルネックとなっていました。

このメモリの課題を解決するのが、Appleが先行していた「統合メモリアーキテクチャ」です。CPU、GPU、そしてNPUが一つの大きなメモリプールを共有することで、プロセッサ間のデータ転送が不要になり、劇的に高速化します。AMDの「Ryzen AI Max」などがこの流れを追随しており、これにより、これまでデータセンターでしか扱えなかった大規模なAIモデルも、手元のノートPCで動かせる可能性が現実味を帯びてきました。

ハードウェアの進化と歩調を合わせ、ソフトウェアも大きく変わろうとしています。マイクロソフトは「Copilot+ PC」構想を掲げ、Windows OS自体にAI実行基盤を統合しています。これにより、アプリケーションはAIの処理内容に応じて、CPU、GPU、NPUの中から最適なプロセッサを自動で使い分けることが可能になります。開発者はより簡単に、ローカルPCの性能を最大限に引き出すAIアプリを開発できるようになるでしょう。

NPUの搭載と統合メモリへの移行は、単なる性能向上ではありません。それはPCアーキテクチャそのものを根本から再発明する動きです。この変化は、アップグレードや修理を困難にするという課題もはらんでいますが、いずれは「手元で動く汎用人工知能（AGI）」という壮大な目標さえ視野に入れています。PC業界は今、AIを中心に据えた新たなエコシステムの構築に向けて大きく舵を切ったのです。

出典：spectrum.ieee.org

LinkedIn、AI人物検索導入 13億人から自然言語で探す

2025年11月13日検索 AI活用ネットワーク専門家 GPU インフラ米国エージェント教師

自然言語で意図を理解

「専門知識を持つ人」など曖昧な表現で検索

AIが検索意図を解釈し、最適人材を提示

従来のキーワード検索の限界を克服

米国のPremium会員から先行提供

大規模化を支える技術

13億人への展開に向けた最適化

巨大AIモデルを小型化する「蒸留」技術

GPU インフラ移行で高速検索を実現

開発手法を「クックブック」として横展開

詳細を見る

ビジネス特化型SNSのLinkedInは2025年11月13日、自然言語で人物を検索できるAI搭載の新機能を発表しました。これによりユーザーは、従来のキーワード検索では難しかった「米国の就労ビザ制度に詳しい人」といった曖昧な質問形式でも、13億人以上の会員の中から最適な人材を探し出せるようになります。

新機能は、大規模言語モデル（LLM）がユーザーの入力した文章の意味や意図を深く理解することで実現します。例えば「がん治療の専門家」と検索すると、AIは「腫瘍学」や「ゲノム研究」といった関連分野の専門家も候補として提示。利用者のネットワーク内でより繋がりやすい人物を優先表示するなど、実用性も考慮されています。

しかし、この機能の実現は容易ではありませんでした。13億人という膨大なユーザーデータを処理し、瞬時に的確な結果を返すには、既存のシステムでは限界があったのです。特に、検索の関連性と応答速度の両立が大きな課題となり、開発チームは数ヶ月にわたり試行錯誤を重ねました。

課題解決の鍵となったのが、「クックブック」と称されるLinkedIn独自の開発手法です。まず、非常に高精度な巨大AIモデルを「教師」として育成。その教師モデルが持つ知識を、より軽量で高速な「生徒」モデルに教え込む「蒸留」というプロセスを採用しました。これにより、性能をほぼ維持したまま、実用的な速度を達成したのです。

さらに、検索速度を抜本的に改善するため、データ処理の基盤を従来のCPUからGPUベースのインフラに移行。入力データをAIが要約して処理量を20分の1に削減するなどの工夫も凝らし、最終的に検索スループットを10倍に向上させました。こうした地道な最適化が、大規模サービスを支えています。

LinkedInの幹部は、流行の「AIエージェント」を追うのではなく、まずは推薦システムのような実用的な「ツール」を磨き上げることが重要だと語ります。今回の成功体験を「クックブック」として体系化し、今後は他のサービスにも応用していく方針です。企業におけるAI活用の現実的なロードマップとして、注目すべき事例と言えるでしょう。

出典：The Verge | VentureBeat

因果AIのアレンビック、評価額13倍で220億円調達

2025年11月13日 NVIDIA 広告数学投資家半導体 GPU インフラクラウドスーパーコンピュータースタートアップブランド投資資金調達評価額 Jensen Huang

因果AIで独自価値を創出

相関ではなく因果関係を分析

企業の独自データで競争優位を確立

巨額調達とスパコン導入

シリーズBで1.45億ドルを調達

世界最速級スパコンを自社で運用

データ主権とコスト効率を両立

大企業の導入成果

デルタ航空の広告効果を売上と直結

Mars社の販促効果を正確に測定

売上への真の貢献要因を特定

詳細を見る

サンフランシスコのAIスタートアップAlembicが、シリーズBで1億4500万ドル（約220億円）の資金調達を発表しました。同社は単なる相関関係ではなく、ビジネスにおける「因果関係」を解明する独自のAIを開発。調達資金を活用し、Nvidia製の最新スーパーコンピュータを導入して、大企業のデータに基づいた高精度な意思決定支援を加速させます。

なぜ「因果AI」が注目されるのでしょうか。生成AIの性能が均一化する中、企業の競争優位性は独自データの活用に移行しています。しかし、汎用AIに「どうすれば売上が伸びるか」と尋ねても、競合と同じ答えしか返ってきません。AlembicのAIは、どの施策が本当に売上増を引き起こしたのかという因果関係を特定し、他社には真似できない独自の戦略立案を可能にします。

同社はクラウドに頼らず、世界最速級のスーパーコンピュータ「Nvidia NVL72」を自社で導入する異例の戦略をとります。これは、顧客データの機密性を守る「データ主権」の確保が最大の目的です。特に金融や消費財メーカーなど、データを外部クラウドに置くことを禁じている企業にとって、この選択は強力な信頼の証となります。同時に、クラウド利用の数分の一のコストで膨大な計算処理を実現します。

Alembicの躍進を支えるのが、半導体大手Nvidiaとの強固なパートナーシップです。Nvidiaは投資家ではなく、最初の顧客であり、技術協力者でもあります。創業当初、計算資源に窮していたAlembicに対し、NvidiaはCEOのジェンスン・フアン氏自らが関心を示し、GPU インフラの確保を直接支援。この協力関係が、Alembicの技術的優位性の基盤となっています。

導入企業は既に目覚ましい成果を上げています。例えば、デルタ航空はオリンピック協賛の効果を数日で売上増に結びつけて定量化することに成功。従来は測定不可能だったブランド活動の財務インパクトを可視化しました。また、食品大手Mars社は、商品の形状変更といった細かな販促活動が売上に与える影響を正確に把握し、マーケティングROIを最大化しています。

Alembicは、マーケティング分析に留まらず、サプライチェーンや財務など、企業のあらゆる部門で因果関係を解明する「ビジネスの中枢神経系」になることを目指しています。独自の数学モデル、巨大な計算インフラ、そしてデータ主権への対応という深い堀を築き、汎用AIとは一線を画す価値を提供します。企業の独自データを真の競争力に変える、新たな潮流の到来です。

出典：VentureBeat

NVIDIA新GPU、AI学習ベンチマークで全制覇

2025年11月12日 NVIDIA エコシステム AI導入画像生成 Llama 事前学習 GPU 画像ベンチマーク

Blackwell Ultraの圧倒的性能

MLPerf全7部門を完全制覇

LLM学習でHopper比4倍以上の性能

Llama 3.1 405Bをわずか10分で学習

唯一全テストに結果を提出した企業

新技術が支える記録更新

史上初のNVFP4精度での計算を導入

GB300 NVL72システムが初登場

新画像生成モデルでも最高性能を記録

広範なパートナーエコシステムを証明

詳細を見る

NVIDIAは、AIの性能を測る業界標準ベンチマーク「MLPerf Training v5.1」において、新GPUアーキテクチャ「Blackwell Ultra」を搭載したシステムで全7部門を制覇し、大規模言語モデル（LLM）の学習速度で新記録を樹立しました。この結果は、同社の技術的優位性とプラットフォームの成熟度を改めて示すものです。

今回初登場したBlackwell Ultra搭載の「GB300 NVL72」システムは、前世代のHopperアーキテクチャと比較して、同数のGPUでLLMの事前学習性能が4倍以上に向上しました。新しいTensor Coreや大容量メモリが、この飛躍的な性能向上を支えています。

性能向上の鍵は、MLPerf史上初となるNVFP4精度での計算です。より少ないビット数でデータを表現し、計算速度を大幅に高める新技術を導入。NVIDIAは、精度を維持しながらこの低精度計算を実用化した唯一の企業となりました。

大規模な学習においても新記録を達成しました。5,000基以上のBlackwell GPUを連携させることで、大規模モデル「Llama 3.1 405B」の学習をわずか10分で完了。これは、NVFP4の採用とスケーリング効率の向上による成果です。

今回から追加された新しいベンチマーク、軽量LLM「Llama 3.1 8B」と画像生成モデル「FLUX.1」でも、NVIDIAは最高性能を記録しました。これは、同社のプラットフォームが最新の多様なAIモデルに迅速に対応できる汎用性の高さを示しています。

DellやHPEなど15のパートナー企業もNVIDIAプラットフォームで参加し、広範なエコシステムを証明しました。NVIDIAは1年周期で革新を続けており、AI開発のさらなる加速が期待されます。AI導入を目指す企業にとって、その動向はますます重要になるでしょう。

出典：NVIDIA公式

AIブームが促すチップ接続革命、光技術が主役に

2025年11月12日 NVIDIA 専門家半導体 GPU データセンタースタートアップ投資資金調達買収

AIが求める超高速通信

AIデータセンターへの巨額投資

チップ間通信の高速化が急務

従来の電子技術では限界

注目される光技術フォトニクス

AIブームで再評価される光技術

光でチップを繋ぐ新アプローチ

大手と新興企業の開発競争

Nvidiaなど大手が先行投資

Lightmatterなど新興企業も台頭

高コストなど実用化への課題

詳細を見る

AIブームがデータセンターの性能向上を強く求めています。これに応えるため、半導体メーカー各社はチップ間を繋ぐネットワーキング技術の革新を急いでいます。特に、従来の電子技術の限界を超える解決策として、光を利用する「フォトニクス」が大きな注目を集めており、大手からスタートアップまで開発競争が激化しています。

なぜ今、ネットワーキング技術が重要なのでしょうか。AIが処理するデータ量は爆発的に増加しており、チップ単体の性能向上だけでは追いつきません。チップ同士をいかに高速かつ効率的に接続するかが、システム全体の性能を左右するボトルネックとなっているためです。

GPU大手のNvidiaは、数年前にネットワーキング企業Mellanoxを買収し、GPUクラスタの性能を飛躍的に高めました。BroadcomやARMといった他の半導体大手も、カスタムチップ開発や関連企業の買収を通じて、この重要分野への投資を強化しています。

大手だけでなく、革新的なスタートアップも登場しています。Lightmatter社やCelestial AI社は、光インターコネクト技術で巨額の資金調達に成功。従来の技術では不可能なレベルのデータ転送速度を目指し、次世代コンピューティングの主導権を狙っています。

一方で、フォトニクス技術には課題も残ります。製造コストの高さや、既存の電気システムとの互換性の確保など、実用化に向けたハードルは低くありません。専門家は「フォトニクスの未来は来るが、まだ少し先」と見ており、今後の技術開発の動向が注目されます。

出典：WIRED

AI基盤Baseten、モデルの「重み」所有権を武器に参入

2025年11月10日 OpenAI エンジニア推論ファインチューニング GPU インフラクラウドオープンソースモデル

「モデル所有権」で脱ロックイン

学習後のモデルの重みを完全所有

他社プラットフォームへの持ち出しが自由

競合のロックイン戦略と対抗

独自技術でコストと手間を削減

マルチクラウドでGPUを最適調達

インフラ管理の運用負荷を解消

推論と学習の一貫した最適化

先行事例でコスト84%削減も達成

詳細を見る

AIインフラ企業のBasetenは、新たなAIモデルトレーニングプラットフォーム『Baseten Training』の一般提供を開始しました。最大の特徴は、顧客がファインチューニングしたモデルの『重み（weights）』を完全に所有し、他社サービスへ自由に持ち出せる点です。オープンソースモデルの活用でOpenAIなどへの依存を減らしたい企業に対し、インフラ管理の負担なく高性能なカスタムAIを開発できる環境を提供します。

背景には、オープンソースAIモデルの性能向上があります。多くの企業が、高価なクローズドモデルへの依存を減らすため、自社データでモデルをファインチューニングする動きを加速させています。しかし、GPUクラスタの管理やクラウドの容量計画など、インフラ運用には高度な専門知識が必要で、多くの企業にとって大きな障壁となっていました。

Basetenは、モデルの「重み」の所有権を顧客に与えることで、この課題に応えます。競合他社の中には、学習済みモデルを自社プラットフォームに留めるロックイン戦略を取る企業も少なくありません。Basetenは、顧客がモデルを自由に持ち出せるようにすることで、自社の推論サービスの性能で選ばれるという自信を示しています。

技術的な強みは、独自のマルチクラウド管理システム（MCM）です。このシステムは、複数のクラウドプロバイダーから動的にGPUを調達し、コストと可用性を最適化します。これにより、企業は特定のクラウドベンダーとの高価な長期契約なしに、必要な時に必要なだけ計算資源を利用できるようになります。

先行導入企業は既に大きな成果を上げています。データ処理を手がけるAlliumAI社は、推論コストを84%削減。ドメイン特化モデルを開発するParsed社は、エンドツーエンドの遅延を50%改善しました。インフラの複雑さを気にせず、モデル開発に集中できる点が評価されています。

Basetenは、トレーニングと推論の両方をシームレスに連携させることで、AI開発のライフサイクル全体を支援します。ハイパースケーラーとの競争は激化していますが、優れた開発者体験とパフォーマンスを武器に、エンタープライズ市場での存在感を高める構えです。モデルの所有権という透明性が、多くの企業にとって魅力的な選択肢となるでしょう。

出典：VentureBeat

AI開発、コストより速度優先の潮流

2025年11月07日経営者推論 GPU インフラクラウド米国投資コンテキスト

開発現場の新たな常識

計算コストより展開速度を重視

課題は遅延・柔軟性・容量へ

迅速な実験が競争優位の源泉

先進企業の具体事例

食品宅配Wonder社はクラウド容量を懸念

バイオ企業Recursion社はハイブリッド基盤で対応

オンプレミスは10倍安価な例も

経営者が持つべき視点

予算策定は科学より芸術

複数年の投資コミットが不可欠

コスト懸念は革新を阻害する

詳細を見る

AI開発の最前線で、企業の優先順位が変化しています。米国の食品宅配「Wonder」やバイオテクノロジー企業「Recursion」などの先進企業は、AIの計算コストよりも、展開速度や遅延、柔軟性、処理容量といった課題を重視。コストを理由に導入をためらうのではなく、いかに速く、持続的にAIを事業展開できるかが、新たな競争力の源泉となりつつあります。

この潮流を象徴するのが、Wonder社の事例です。同社のAI利用コストは、1注文あたり数セントと事業全体から見ればごく僅か。しかし、急成長に伴い、当初「無制限」と想定していたクラウドの処理容量が逼迫し始めました。予想より早くインフラ増強の必要性に迫られており、コストよりも物理的な制約が大きな経営課題となっています。

Wonder社にとって、AI関連の予算策定は「科学というより芸術」に近いと言います。新しいモデルが次々と登場するため、予測が困難なためです。特に、大規模モデル利用時のコストの50〜80%は、リクエストごとに同じ情報を再送信する「コンテキスト維持」に費やされることも。常に変化する状況下で、柔軟な予算執行と技術活用のバランスが求められます。

一方、Recursion社はハイブリッドインフラでこの課題に対応しています。同社は数年前に自社でGPUクラスタを構築。クラウド事業者が十分な計算資源を供給できなかったためですが、結果的にこれが功を奏しました。現在も大規模なモデル学習はオンプレミスで、比較的小さな推論などはクラウドで実行するなど、柔軟な使い分けを実現しています。

コスト面でも、このハイブリッド戦略は有効です。Recursion社によれば、大規模なワークロードをオンプレミスで処理する場合、クラウドに比べて「控えめに見積もっても10倍は安価」になるとのこと。5年間の総所有コスト（TCO）では半額に抑えられるケースもあるようです。もちろん、小規模な利用であればクラウドの方がコスト競争力があります。

両社の事例から見えてくるのは、経営層の心理的なコミットメントの重要性です。Recursion社のCTOは「計算資源への投資をためらうと、チームはクラウド費用を恐れてリソースを使わなくなり、結果としてイノベーションが阻害される」と警鐘を鳴らします。AI時代を勝ち抜くには、コストを管理しつつも、革新を止めないための大胆な投資判断が不可欠です。

出典：VentureBeat

NVIDIAフアンCEOら、AIの功績で英女王工学賞受賞

2025年11月06日 NVIDIA エンジニア創業者機械学習 GPU ハードウェアインフライギリス Jensen Huang

GPU開発の功績

GPUアーキテクチャ開発を主導

AIと機械学習の基盤を構築

アクセラレーテッド・コンピューティングを開拓

現代のAIのビッグバンを触発

英国での栄誉と未来

チャールズ国王から賞を授与

フアン氏はホーキング・フェローにも選出

英国政府と次世代エンジニア育成を議論

詳細を見る

NVIDIAの創業者兼CEOであるジェンスン・フアン氏と、チーフサイエンティストのビル・ダリー氏が、今週英国で「2025年エリザベス女王工学賞」を受賞しました。授賞式はセント・ジェームズ宮殿で行われ、チャールズ国王陛下から直接賞が授与されました。両氏のAIと機械学習の基盤となるGPUアーキテクチャ開発における功績が、高く評価された形です。

今回の受賞は、両氏が主導したGPUアーキテクチャが今日のAIシステムと機械学習アルゴリズムを支えている点に焦点を当てています。彼らの功績は、コンピュータ業界全体に根本的な変化をもたらした「アクセラレーテッド・コンピューティング」の開拓にあります。この技術革新こそが、現代のAIの「ビッグバン」を巻き起こした原動力とされています。

フアンCEOは受賞に際し、「私たちが生きているのは、マイクロプロセッサ発明以来の最も深遠なコンピューティングの変革期だ」と述べました。さらにAIは「将来の進歩に不可欠なインフラであり、それは前世代にとっての電気やインターネットと同じだ」と、その重要性を強調しました。AIの未来に対する強い自負がうかがえます。

一方、チーフサイエンティストのダリー氏は、AIの基盤が数十年にわたる並列コンピューティングとストリーム処理の進歩にあると指摘。「AIが人々を力づけ、さらに偉大なことを成し遂げられるよう、ハードウェアとソフトウェアを洗練させ続ける」と、今後の技術開発への意欲を示しました。

両氏は授賞式に先立ち、英国政府の科学技術担当大臣らと円卓会議に出席しました。テーマは「英国がいかにして将来のエンジニアを鼓舞するか」。これはNVIDIAが英国の政府や大学と進めるAIインフラ、研究、スキル拡大のための連携を一層強化する動きと言えるでしょう。

さらにフアンCEOは、世界で最も古い討論会であるケンブリッジ・ユニオンで「スティーブン・ホーキング・フェローシップ」も授与されました。科学技術を進歩させ、次世代にインスピレーションを与えた功績が認められたものです。フアン氏の貢献が、工学分野だけでなく、科学界全体から高く評価されていることを示しています。

出典：NVIDIA公式

Google新AI半導体、性能4倍でAnthropicと大型契約

2025年11月06日 Google Anthropic NVIDIA Claude 推論半導体 GPU TPU インフラ投資提携 Arm

新チップ「Ironwood」

第7世代TPU、性能4倍を実現

推論時代の需要に対応する設計

最大9,216チップを単一システム化

ArmベースCPU「Axion」も拡充

Anthropicとの提携

Anthropicが最大100万個の利用契約

数十億ドル規模の歴史的契約

Claudeモデルの安定供給を確保

詳細を見る

Google Cloudが2025年11月6日、第7世代AI半導体「Ironwood」を発表しました。従来比4倍の性能向上を実現し、AI企業Anthropicが最大100万個のチップを利用する数十億ドル規模の大型契約を締結。AIモデルの「トレーニング」から「推論（サービング）」への市場シフトに対応し、NVIDIAの牙城に挑むGoogleの独自開発戦略が大きな節目を迎えました。

「Ironwood」は、AIモデルを訓練する段階から、数十億のユーザーにサービスを提供する「推論の時代」の要求に応えるべく設計されています。最大9,216個のチップを単一のスーパーコンピュータとして機能させる「ポッド」アーキテクチャを採用。Google独自の高速インターコネクト技術により、膨大なデータを効率的に処理し、高い信頼性を実現します。

この新技術の価値を最も強く裏付けたのが、AIモデル「Claude」を開発するAnthropicとの契約です。最大100万個という空前の規模のチップへのアクセスを確保。これはAIインフラ史上最大級の契約と見られ、Anthropicは「価格性能比と効率性」を決定要因に挙げ、Googleの垂直統合戦略の正当性を証明する形となりました。

Googleの戦略は、AIアクセラレータ「Ironwood」に留まりません。同時に発表されたArmベースのカスタムCPU「Axion」は、AIアプリケーションを支える汎用的な処理を担当します。これらをソフトウェア群「AI Hypercomputer」で統合し、ハードとソフトの垂直統合による最適化で、NVIDIAが独占する市場に真っ向から挑みます。

この発表は、AIインフラ市場の競争が新たな段階に入ったことを示します。巨額の投資が続く中、汎用的なGPUか、特定の用途に最適化されたカスタムチップか、という路線対立が鮮明になってきました。ユーザーにサービスを届ける「推論」の重要性が増す中で、Googleの長期的な賭けが実を結ぶか、市場の注目が集まります。

出典：VentureBeat

銅積層プレートでAIの熱問題を解決

2025年11月05日 NVIDIA リスクデータ漏洩半導体 GPU インフラデータセンターエネルギー米国スタートアップ

深刻化するAIの発熱問題

次世代GPUの消費電力最大600kW

データセンターの冷却能力が限界に

メモリ等周辺チップの冷却が課題

新技術スタックフォージング

銅シートを熱と圧力で一体化

継ぎ目なしで漏洩リスクを低減

3Dプリンタより安価で高強度

競合を上回る冷却性能

熱性能は競合比35%向上

髪の毛半分の微細な流路を実現

詳細を見る

米国のスタートアップ、Alloy Enterprises社が、AIデータセンターの深刻な発熱問題に対応する画期的な冷却技術を開発しました。次世代GPUの消費電力は最大600キロワットにも達し、既存の冷却方式では限界が見えています。同社は銅の薄いシートを熱と圧力で一体化させる「スタックフォージング」技術を用い、高性能な冷却プレートを製造。AIの進化を支えるインフラの課題解決に乗り出します。

AIの性能向上に伴い、GPUの発熱量は爆発的に増加しています。Nvidia社が2027年にリリース予定の次世代GPU「Rubin」シリーズでは、サーバーラックあたりの消費電力が最大600キロワットに達する見込みです。この膨大な電力を処理するためには、空冷から液冷への移行が不可欠ですが、特に周辺チップの冷却ソリューションが追いついていないのが現状です。

Alloy Enterprises社が開発した「スタックフォージング」は、この課題を解決する独自技術です。レーザーで精密に加工した銅のシートを何層にも重ね、特殊な装置で熱と圧力をかけて接合します。これにより、まるで一つの金属塊から削り出したかのような、継ぎ目のない冷却プレートが完成します。複雑な内部構造を自在に設計できるのが大きな特徴です。

従来の冷却プレートは、機械で削り出した2つの部品を接合して作られるため、高圧下での液漏れリスクが常にありました。一方、3Dプリンティングは高コストで、金属内部に微小な空洞が残り強度が低下する課題があります。スタックフォージングはこれらの欠点を克服し、素材本来の強度を保ちつつ、低コストで信頼性の高い製品を実現します。

この新技術により、冷却プレートの性能は飛躍的に向上しました。同社によれば、熱性能は競合製品に比べて35%も高いとのことです。また、人間の髪の毛の半分ほどである50ミクロンという微細な流路を内部に形成できるため、より多くの冷却液を循環させ、効率的に熱を除去することが可能になります。

Alloy Enterprises社は既にデータセンター業界の「すべての大手企業」と協業していると述べており、その技術への期待の高さがうかがえます。当初はアルミニウム合金で技術を開発していましたが、データセンターからの強い要望を受け、熱伝導性と耐食性に優れた銅へと応用しました。AIの進化を止めないため、冷却技術の革新が今まさに求められています。

出典：TechCrunch

AIデータセンターブーム、米国経済に歪みと電力危機

2025年11月05日 OpenAI マイクロソフト Amazon 生産性 AI活用専門家推論リスク GPU インフラデータセンターエネルギー米国ハーバード投資バブル

巨額投資がもたらす歪み

GDP成長のほぼ全てを占める投資

他セクターへの資本流入が減少

AI利用料は補助金漬けの現状

エネルギー危機とコスト増

電力網を圧迫する膨大な電力消費

供給不足による電気料金の高騰

将来のサージプライシング導入リスク

市場と雇用の変調

AI関連株が牽引する株式市場

ハイテク大手の人員削減と雇用の停滞

詳細を見る

MicrosoftやAmazonなど巨大テック企業が2025年、米国でAIデータセンターに記録的な投資を行っています。この投資は米国経済の成長を牽引する一方で、電力インフラの逼迫、将来的なコスト急騰、他産業での雇用停滞といった深刻な経済の歪みを生み出しています。AIによる生産性向上という明るい面の裏で、その持続可能性が問われる事態となっています。

ハーバード大学の経済学者ジェイソン・ファーマン氏の試算によると、2025年上半期の米国GDP成長のほぼ全てが、データセンター関連投資によるものでした。これは、AIという単一技術に資本が異常に集中していることを示唆します。その結果、製造業など他の重要セクターへの投資が滞り、経済全体の健全な成長を阻害する懸念が高まっています。

AIの膨大な計算処理を支えるデータセンターは、凄まじい量の電力を消費します。しかし、米国の電力網の増強が全く追いついていないのが現状です。電力需給の逼迫はすでに各地で電気料金の高騰を招いており、OpenAIは「電力不足が米国のAIにおける優位性を脅かす」と政府に警告する書簡を送りました。

現在のAIサービス利用料は、テック企業の補助金によって安価に抑えられています。しかし専門家は、いずれ需要に応じて価格が変動する「サージプライシング」が導入されると予測します。そうなれば、AIの推論コストは急騰し、多くの企業のAI活用戦略の前提が覆される可能性があります。収益化への道はまだ見えていません。

米国の株式市場はAI関連銘柄が牽引し、活況を呈しています。しかしその裏では、GPUなどの資産の耐用年数を長く見積もる会計処理によって、利益が実態より大きく見えている可能性が指摘されています。一部の企業は巨額の債務を抱え始めており、AIバブル崩壊のリスクも囁かれています。

巨額の投資が行われる一方で、ハイテク大手は人員削減を進めています。データセンターへの資本集中は、本来であれば雇用を生み出すはずの他分野への投資機会を奪っています。AIが一部の職を代替し始めている兆候もあり、AIブームが必ずしも雇用市場全体にプラスに作用していない現実が浮き彫りになっています。

AIの導入を急ぐ企業にとって、このブームの裏にあるリスクを直視することが不可欠です。リーダーは、目先の性能だけでなく、エネルギー効率や単位あたりの経済性（ユニットエコノミクス）を重視し、持続可能なAI戦略を構築する必要があるでしょう。コスト構造の変動に備え、より賢く、より効率的なAI活用が求められています。

出典：VentureBeat | WIRED

NVIDIA RTX、AIクリエイティブを劇的加速

2025年11月04日 NVIDIA Apple 生産性アシスタントワークフロー画像生成クリエイティブエンジニアクリエイター GPU ハードウェアコンテンツ画像動画 Adobe DLSS

AI制作の劇的な高速化

RTX 50シリーズのAI特化コア

生成AIモデルが最大17倍高速に

主要制作アプリ135種以上を最適化

動画・3Dワークフロー革新

4K/8K動画もプロキシ不要で編集

リアルタイムでの3Dレンダリング

AIによるノイズ除去と高解像度化

配信・ストリーミング支援

専用エンコーダーで高画質配信

AIアシスタントによる配信作業の自動化

詳細を見る

NVIDIAは、クリエイティブカンファレンス「Adobe MAX」において、同社のGeForce RTX GPUが動画編集、3D制作、生成AIなどのクリエイティブな作業をいかに高速化するかを明らかにしました。AI時代に求められる膨大な計算処理を専用ハードウェアで実行し、アーティストや開発者の生産性を飛躍的に向上させるのが狙いです。

RTX GPUの強みは、AI処理に特化した第5世代Tensorコアや、3Dレンダリングを高速化する第4世代RTコアにあります。さらにNVIDIA Studioが135以上のアプリを最適化し、ハードウェア性能を最大限引き出すことで、安定した制作環境を提供します。

特に生成AI分野で性能は際立ちます。画像生成AI「Stable Diffusion」は、Apple M4 Max搭載機比で最大17倍高速に動作。これによりアイデアの試行錯誤を迅速に行え、創造的なプロセスを加速させます。

動画編集では4K/8K等の高解像度コンテンツが課題でした。RTX GPUは専用デコーダーにより、変換作業なしでスムーズな編集を実現します。AIエフェクトの適用や書き出し時間も大幅に短縮され、コンテンツ公開までの速度が向上します。

3D制作の現場も大きく変わります。レイトレーシングを高速化するRTコアと、AIで解像度を高めるDLSS技術により、これまで時間のかかったレンダリングがリアルタイムで可能に。アーティストは結果をすぐに確認でき、創造的な作業に集中できます。

ライブ配信もより身近になります。専用エンコーダーNVENCがCPU負荷を軽減し、ゲーム性能を維持したまま高品質な配信を実現します。AIアプリ「Broadcast」を使えば、特別なスタジオがなくても背景ノイズ除去やカメラ補正が簡単に行えます。

NVIDIAのRTX GPUは、個別のタスク高速化だけでなく、制作ワークフロー全体を革新するプラットフォームです。AIを活用して生産性と収益性を高めたいクリエイターや企業にとって、不可欠なツールとなることは間違いないでしょう。

出典：NVIDIA公式

独の産業革新へ、NVIDIAとテレコムがAIクラウド創設

2025年11月04日 NVIDIA エコシステムシミュレーションデジタルツイン推論半導体 GPU インフラクラウドデータセンター欧州ドイツロボティクス提携 Jensen Huang

データ主権守る巨大AI基盤

10億ユーロ規模の共同事業

ドイツ国内でデータを管理

欧州の産業競争力を強化

2026年初頭に稼働開始

最高峰技術とエコシステム

NVIDIAの最新GPUを最大1万基

独テレコムがインフラ提供

SAP、シーメンス等が参画

デジタルツインやロボティクスで活用

詳細を見る

米半導体大手NVIDIAとドイツテレコムは11月4日、ドイツ国内に世界初となる産業特化のAIクラウド「Industrial AI Cloud」を共同で設立すると発表しました。総額10億ユーロを投じ、2026年初頭の稼働を目指します。この提携は、ドイツのデータ主権を守りながら産業のデジタルトランスフォーメーションを加速させ、欧州の国際競争力を高めることを目的としています。

NVIDIAのジェンスン・フアンCEOは、AIを稼働させるデータセンターを「現代版の工場」と表現し、知能を生み出す重要性を強調しました。このプロジェクトは、欧州企業が自国のデータ管理下で安全にAI開発を進める「ソブリンAI（データ主権AI）」の実現に向けた大きな一歩となります。

ミュンヘン近郊に新設される「AIファクトリー」には、NVIDIAの最新GPU「Blackwell」アーキテクチャを採用したシステムなどが最大10,000基搭載される計画です。ドイツテレコムは信頼性の高いインフラと運用を提供し、企業が大規模なAIモデルのトレーニングや推論を高速かつ柔軟に行える環境を整えます。

この構想には、ソフトウェア大手SAPや製造業大手シーメンスなど、ドイツを代表する企業がエコシステムパートナーとして参画します。メルセデス・ベンツやBMWといった自動車メーカーも、AI駆動のデジタルツインを用いた複雑なシミュレーションでの活用を見込んでおり、幅広い産業での応用が期待されます。

具体的な活用例としては、製品開発を高速化するデジタルツイン、工場の自動化を進めるロボティクス、設備の故障を事前に予測する予知保全などが挙げられます。製造業の変革を促す「インダストリー4.0」をさらに加速させる起爆剤となるでしょうか。

今回の提携は、ドイツの国際競争力強化を目指す官民イニシアチブ「Made for Germany」から生まれた最初の具体的な成果の一つです。欧州では、外国の巨大テック企業への技術依存を減らしデジタル主権を確立する動きが強まっており、このAIクラウドは欧州独自の技術革新の新たな核となる可能性を秘めています。

出典：NVIDIA公式 | TechCrunch

OpenAI、AWSと380億ドル契約 AI開発基盤を強化

2025年11月03日 OpenAI NVIDIA マイクロソフト Amazon ChatGPT AWS 専門家投資家 GPU インフラクラウドサム・アルトマン投資提携バブル

380億ドルの戦略的提携

7年間の大規模クラウド契約

数十万個のNVIDIA製GPUを提供

次世代モデルの開発・運用を加速

2026年末までのインフラ展開完了目標

AI業界の地殻変動

OpenAIのマルチクラウド戦略が鮮明に

マイクロソフトとの独占的関係からの変化

激化するAI計算資源の確保競争

発表を受けAmazon株価は史上最高値を更新

詳細を見る

生成AI開発をリードするOpenAIは2025年11月3日、アマゾン・ウェブ・サービス（AWS）と複数年にわたる戦略的パートナーシップを締結したと発表しました。契約総額は380億ドル（約5.7兆円）に上り、OpenAIはAWSの高性能なクラウドインフラを利用して、次世代AIモデルの開発と運用を加速させます。これはAI業界の計算資源確保競争を象徴する動きです。

この7年契約に基づき、AWSはOpenAIに対し、NVIDIA製の最新GPU「GB200」や「GB300」を数十万個規模で提供します。Amazon EC2 UltraServers上に構築されるこのインフラは、数千万のCPUにも拡張可能で、ChatGPTの応答生成から次世代モデルのトレーニングまで、幅広いAIワークロードを効率的に処理するよう設計されています。

今回の提携は、OpenAIがマイクロソフトのAzureに依存する体制から、マルチクラウド戦略へ移行する姿勢を鮮明にするものです。OpenAIのサム・アルトマンCEOは「最先端AIのスケーリングには、大規模で信頼性の高い計算能力が不可欠だ」と述べ、AWSとの連携がAIの普及を後押しするとの期待を示しました。

一方、AWSにとってもこの契約は、急成長するAIインフラ市場での優位性を確固たるものにする大きな一歩です。長年のライバルであるマイクロソフトの牙城を崩す一手となり、市場はこの提携を好感。発表を受けてAmazonの株価は史上最高値を更新し、投資家の高い期待が示されました。

AI業界では、モデルの性能向上に伴い、計算能力の需要が爆発的に増加しています。今回の巨額契約は、AI開発の前提となるインフラ確保競争の激しさを物語っています。一方で、一部の専門家からは、実用化や収益化の道筋が不透明な中での巨額投資が続く現状に、「AIバブル」への懸念も指摘されています。

出典：OpenAI公式 | WIRED | Ars Technica | TechCrunch | The Verge

マイクロソフトAI投資加速、電力不足が新たなボトルネックに

2025年11月03日 OpenAI NVIDIA マイクロソフト半導体 GPU インフラクラウドデータセンターエネルギー電力需要太陽光発電サム・アルトマンオーストラリア投資

世界中でAIインフラ巨額契約

豪州企業と97億ドルの契約

クラウド企業Lambdaとも大型契約

UAEに152億ドルを投資

最新NVIDIA製GPUを大量確保

GPU余剰と電力不足の矛盾

チップ在庫はあっても電力が不足

データセンター建設が需要に追いつかない

CEO自らが課題を認める発言

エネルギー確保が最重要課題に浮上

詳細を見る

マイクロソフトが、AIの計算能力を確保するため世界中で巨額のインフラ投資を加速させています。しかしその裏で、確保した大量のGPUを稼働させるための電力不足とデータセンター建設の遅れという深刻な問題に直面しています。同社のサティア・ナデラCEO自らがこの課題を認めており、AIのスケールアップにおける新たなボトルネックが浮き彫りになりました。

同社は、オーストラリアのデータセンター企業IRENと97億ドル、AIクラウドを手がけるLambdaとは数十億ドル規模の契約を締結。さらにアラブ首長国連邦（UAE）には今後4年で152億ドルを投じるなど、最新のNVIDIA製GPUを含む計算資源の確保をグローバルで推進しています。これは、急増するAIサービスの需要に対応するための動きです。

しかし、ナデラCEOは「現在の最大の問題は計算能力の供給過剰ではなく、電力とデータセンターの建設速度だ」と語ります。OpenAIのサム・アルトマンCEOも同席した場で、ナデラ氏は「チップの在庫はあるが、接続できる場所がないのが実情だ」と述べ、チップ供給から物理インフラへと課題が移行したことを明確に示しました。

この問題の背景には、これまで横ばいだった電力需要がデータセンターの急増によって予測を上回るペースで伸びていることがあります。電力会社の供給計画が追いつかず、AI競争の足かせとなり始めています。AIの知能単価が劇的に下がるほど、その利用は爆発的に増え、さらなるインフラ需要を生む「ジェボンズのパラドックス」が現実味を帯びています。

アルトマン氏は核融合や太陽光発電といった次世代エネルギーに投資していますが、これらの技術がすぐに大規模展開できるわけではありません。AIの進化を支えるためには、計算資源だけでなく、それを動かすための安定的かつ大規模な電力供給網の構築が、テクノロジー業界全体の喫緊の課題となっているのです。

出典：TechCrunch | TechCrunch | TechCrunch | TechCrunch

NVIDIA、韓国と提携 25万GPUで主権AI構築へ

2025年10月31日 NVIDIA サムスンエコシステムデジタルツイン半導体 GPU ハードウェアインフラクラウド韓国スタートアップロボティクス投資提携ベンチャーキャピタル

官民挙げた国家プロジェクト

NVIDIAと韓国官民が歴史的提携

最新GPU 25万基超を国家規模で導入

「主権AI」とAIファクトリーの構築

サムスン・現代など財閥企業が参画

主要産業のAI化を加速

製造・モビリティ分野の産業革新

韓国語LLMや次世代通信6Gも開発

AIスタートアップ育成エコシステムの強化

詳細を見る

米半導体大手NVIDIAは2025年10月31日、韓国のAPEC首脳会議で、同国政府や主要企業と国家規模のAIインフラ構築で提携すると発表しました。サムスン電子などと連携し25万基以上の最新GPUを導入、韓国独自の「主権AI」開発を加速させます。国全体の産業基盤をAI時代に対応させる歴史的な投資となります。

プロジェクトの核心は、自国データを国内で管理・活用する「主権AI」の確立です。政府主導でクラウド事業者に約5万基のGPUを、民間企業には20万基以上を供給。単なるインフラ整備に留まらず、国家の産業構造そのものをAI中心に再設計する壮大な構想です。

民間ではサムスン、SK、現代がそれぞれ最大5万基、NAVERは6万基以上のGPUを導入し「AIファクトリー」を構築します。これにより、製造、モビリティ、通信、ロボティクスといった基幹産業のデジタルトランスフォーメーションを根本から推進する計画です。

各社の狙いは明確です。サムスンは半導体製造のデジタルツイン化、現代は自動運転とスマートファクトリー、SKは製造AIクラウド、NAVERは特定産業向けAIモデルの開発を推進。NVIDIAの技術で各社の競争力を飛躍的に高めます。

提携はGPU導入に限りません。LGなども参加し、韓国語LLMの開発や量子コンピューティング研究、次世代通信「6G」に向けたAI-RAN技術の共同開発も推進。AIを核とした包括的な技術エコシステムの構築を目指します。

未来の成長を支えるため、スタートアップ支援と人材育成も強化します。NVIDIAは韓国内のスタートアップ連合を設立し、インフラへのアクセスやVCからの支援を提供。同時にAI人材育成プログラムも展開し、エコシステム全体の底上げを図ります。

今回の発表は、韓国が国を挙げて「AI産業革命」に乗り出す号砲です。ハードウェア導入からソフトウェア開発、人材育成まで包括的な国家戦略として展開されるこの取り組みは、世界のAI開発競争における韓国の地位を左右する一手となるでしょう。

出典：NVIDIA公式 | TechCrunch

NVIDIA、RTX 5080クラウド基盤を欧州・北米へ拡大

2025年10月30日 NVIDIA エコシステム GPU ハードウェアインフラクラウドコンテンツ欧州投資 GeForce NOW

RTX 5080サーバー増強

アムステルダムへ導入

モントリオールへ導入

最新Blackwell世代のGPU

5K解像度/120fpsに対応

新規コンテンツ追加

注目作『ARC Raiders』

『The Outer Worlds 2』など

合計10タイトルが新たに対応

Ultimate会員向け特典も

詳細を見る

NVIDIAは2025年10月30日、クラウドゲーミングサービス「GeForce NOW」のインフラを強化すると発表しました。最新のGeForce RTX 5080搭載サーバーをオランダのアムステルダムとカナダのモントリオールに新設します。併せて、注目作『ARC Raiders』を含む10タイトルのゲームを新たに追加し、プラットフォームの魅力を高めます。

今回のサーバー増強は、ブルガリアのソフィアに続くもので、Blackwellアーキテクチャを採用したRTX 5080の展開を加速させます。これにより、対象地域のユーザーは、最大5K解像度、120fpsの滑らかな映像とリアルタイムレイトレーシングによる高品質なストリーミング体験を、ほぼ全てのデバイスで享受可能になります。

コンテンツ面では、新作SFシューター『ARC Raiders』が目玉です。NVIDIAは同作のリリースを記念し、最上位プラン「Ultimate」の12ヶ月メンバーシップ購入者にゲーム本編を無料で提供するキャンペーンを実施。強力なハードウェアと魅力的なコンテンツを組み合わせ、プレミアムユーザーの獲得を狙います。

このほか、『The Outer Worlds 2』や『Guild Wars 2』の大型拡張コンテンツなど、話題性の高いタイトルも追加されました。NVIDIAは継続的なコンテンツ拡充を通じて、ユーザーエンゲージメントを高め、クラウドプラットフォームとしてのエコシステムを強化しています。

こうした定期的なインフラ投資とコンテンツ戦略は、NVIDIAがゲーミング分野に留まらず、高性能クラウド GPU市場におけるリーダーシップを盤石にするものです。技術基盤の優位性を背景に、今後他分野への応用も期待されるのではないでしょうか。

出典：NVIDIA公式

AIモデルの巨大化、ハードウェア進化を凌駕

2025年10月30日 NVIDIA 半導体 GPU ハードウェアインフラベンチマーク

AI性能競争の現状

AIの五輪MLPerfベンチマーク

最新ハードで訓練時間を競う

NVIDIA製GPUが業界標準

モデル進化のジレンマ

ベンチマークも年々高度化

LLMの巨大化が加速

ハードウェア進化が追いつかず

訓練時間は一時的に長期化

詳細を見る

AI性能を測る業界標準ベンチマーク「MLPerf」の最新データが、AIモデル、特に大規模言語モデル（LLM）の巨大化がハードウェアの進化ペースを上回っている現状を浮き彫りにしました。NVIDIAなどの半導体メーカーがGPU性能を飛躍的に向上させる一方、モデルの複雑化がそれを凌駕。AI開発における計算資源の課題が改めて示された形です。

MLPerfとは、AI分野のコンソーシアム「MLCommons」が2018年から年2回開催する性能競争です。参加企業は最新のハードウェアとソフトウェア構成を用い、特定のAIモデルを目標精度までトレーニングする時間を競います。その結果は、AIインフラの性能を測る「物差し」として業界で広く認知されています。

この数年で、AIトレーニングを支えるハードウェアは劇的に進化しました。特に業界標準となっているNVIDIAは、V100から最新のBlackwell世代に至るまで、GPUの性能を飛躍的に高めてきました。参加企業はより大規模なGPUクラスタを使用し、記録更新を続けています。

しかし、ハードウェアの進化と同時に、MLPerfのベンチマーク自体も厳しさを増しています。MLPerf責任者のデビッド・カンター氏によれば、これは意図的なものであり、ベンチマークが常に業界の最先端を反映するためだといいます。AIモデルの進化に追随している証左と言えるでしょう。

データが示す興味深い現実は、「モデルの成長がハードウェアの進化を上回る」という不等式です。新しい巨大モデルがベンチマークに採用されると、最速トレーニング時間は一度長くなります。その後、ハードウェア改良で短縮されるものの、次の新モデルで再びリセットされる。このサイクルが繰り返されているのです。

この傾向は、AIを事業に活用する企業にとって何を意味するのでしょうか。それは、単に最新ハードウェアを導入するだけでは、AI開発競争で優位に立てない可能性があるということです。計算資源の効率的な利用や、モデルの最適化といったソフトウェア側の工夫が、今後ますます重要になるでしょう。

出典：spectrum.ieee.org

NVIDIA、史上初5兆ドル企業に AIブームが加速

2025年10月29日 NVIDIA マイクロソフト Apple ChatGPT ネットワーク投資家半導体 GPU スーパーコンピューター画像中国米中投資提携バブル Jensen Huang トランプ

驚異的な成長スピード

4兆ドルから僅か3ヶ月で達成

2022年末から株価は約12倍に

AppleやMicrosoftを上回る

株価を押し上げた好材料

5000億ドルのAIチップ受注見込み

アメリカ政府向けスパコン7基構築

Nokiaと次世代通信網で提携

対中輸出協議への期待感

詳細を見る

半導体大手NVIDIAが29日、株式市場で時価総額5兆ドル（約750兆円）を史上初めて突破しました。生成AIブームを背景に同社のGPU（画像処理半導体）への需要が爆発的に増加。CEOによる強気な受注見通しの発表や、米中間の取引協議への期待感が株価を押し上げ、4兆ドル達成からわずか3ヶ月で新たな大台に乗せました。

株価上昇の直接的な引き金は、ジェンスン・フアンCEOが発表した複数の好材料です。同氏は、最新AIチップ「Blackwell」と次世代「Rubin」について、2026年末までに累計5000億ドルの受注を見込むと表明。さらにアメリカ政府向けに7つのスーパーコンピュータを構築する計画も明らかにしました。

トランプ大統領の発言も市場の追い風となりました。同大統領は、中国の習近平国家主席とNVIDIAの高性能チップ「Blackwell」について協議する意向を示唆。これにより、現在輸出規制の対象となっている中国市場への販売再開に対する期待感が高まり、投資家の買いを誘いました。

NVIDIAの成長スピードは驚異的です。2022年末にChatGPTが登場して以降、同社の株価は約12倍に急騰しました。時価総額4兆ドルを突破したのが今年7月。そこからわずか3ヶ月で5兆ドルに到達し、AppleやMicrosoftといった巨大テック企業を突き放す形となっています。

同社は事業領域の拡大にも余念がありません。フィンランドの通信機器大手Nokiaに10億ドルを投資し、AIをネイティブに活用する次世代通信規格「5G-Advanced」や「6G」ネットワークの共同開発で提携。半導体事業に留まらない成長戦略を描いています。

一方で、市場ではAI関連株の急激な上昇を「バブルではないか」と懸念する声も根強くあります。しかし、フアンCEOは「我々が利用するAIモデルやサービスに対価を払っている。バブルだとは思わない」と述べ、実需に裏打ちされた成長であることを強調しました。

出典：TechCrunch | Ars Technica | The Verge

Extropic、省エネAIチップでデータセンター覆す

2025年10月29日画像生成気象専門家半導体 GPU ハードウェアデータセンターエネルギー画像スタートアップ投資

新方式「熱力学チップ」

GPUとは根本的に異なる仕組み

熱のゆらぎを利用して計算

確率的ビット（p-bit）で動作

数千倍のエネルギー効率目標

初の試作機と将来性

初の実動ハードウェアを開発

AIラボや気象予測企業で試験

次世代機で拡散モデルを革新へ

データセンターの電力問題に挑戦

詳細を見る

スタートアップのExtropic社が、データセンターの常識を覆す可能性を秘めた新型コンピュータチップの最初の実動ハードウェアを開発しました。この「熱力学的サンプリングユニット（TSU）」は、従来のチップより数千倍のエネルギー効率を目指しており、AIの爆発的な普及に伴う莫大な電力消費問題への画期的な解決策として注目されています。

TSUは、GPUなどが用いる0か1のビットとは根本的に異なります。熱力学的な電子のゆらぎを利用して確率そのものを扱う「確率的ビット（p-bit）」で動作します。これにより、AIモデルや気象予測など、複雑なシステムの確率計算を極めて効率的に行えるようになります。この革新的なアプローチが、省エネ性能の鍵です。

同社は今回、初の試作機「XTR-0」を開発し、一部のパートナー企業への提供を開始しました。提供先には、最先端のAI研究を行うラボや気象モデリングを手がけるスタートアップ、さらには複数の政府関係者が含まれており、実環境での有用性の検証が始まっています。

パートナーの一社である気象予測AI企業Atmo社のCEOは、この新技術に大きな期待を寄せています。Extropicのチップを使えば、様々な気象条件が発生する確率を従来よりはるかに効率的に計算できる可能性があると述べており、より高解像度な予測モデルの実現につながるかもしれません。

Extropic社は、将来の展望も具体的に示しています。同社が発表した論文では、数千個のp-bitを搭載した次世代チップで、画像生成AIなどに用いられる「拡散モデル」を効率化できると説明。来年には25万p-bitを搭載したチップ「Z-1」の提供を目指しています。

この独自のアプローチは、業界専門家からも高く評価されています。ある専門家は「従来のトランジスタのスケーリングが物理的な限界に達する中、Extropic社の物理情報処理へのアプローチは、今後10年で変革をもたらす可能性がある」と指摘しています。

AIデータセンターへの巨額投資が続く一方で、そのエネルギー需要は深刻な課題です。Extropic社の挑戦は、ハードウェアの根本的な革新によってこの問題を解決しようとするものです。たとえ成功確率がわずかでも、試す価値のある重要な取り組みだと言えるでしょう。

出典：WIRED

Alphabet、AIで初の四半期売上1000億ドル達成

2025年10月29日 Google NVIDIA Gemini 検索 AI要約クリエイター GPU TPU インフラクラウド動画投資 YouTube

AIがもたらす記録的成長

初の四半期売上1000億ドル達成

Geminiアプリ利用者6.5億人超

AIモデルのトークン処理量が20倍成長

有料サブスク登録者3億人を突破

検索とクラウド事業の躍進

AI Overviewによる検索クエリ数の増加

クラウドの受注残高は1550億ドルに

クラウド顧客の7割がAI製品を利用

大手AIラボ10社中9社がGoogle Cloudを選択

詳細を見る

Googleの親会社Alphabetは2025年10月29日、2025年第3四半期決算を発表しました。四半期売上高は過去最高の1000億ドルに達し、5年間で倍増という驚異的な成長です。この記録的な業績は、検索やクラウド事業全体にわたるAIへの戦略的投資が本格的な収益化フェーズに入ったことを明確に示しています。

成長の核となるAIの勢いは、具体的な数値に表れています。対話型AI「Gemini」アプリの月間アクティブユーザーは6億5000万人を超え、クエリ数は前期比で3倍に急増。全プロダクトでのAI処理能力は、この1年で20倍以上に拡大しました。

主力事業である検索においてもAIが新たな成長を牽引しています。「AI Overview」は全体のクエリ数増加に貢献し、特に若年層の利用が顕著です。新たに40言語に対応した「AI Mode」も、7500万人のデイリーアクティブユーザーを獲得し、利用が急拡大しています。

Google Cloud事業はAI製品の強化で成長が加速しています。AI関連製品の収益は前年同期比200%超の増加。受注残高も1550億ドルに達しました。既存顧客の7割以上がAI製品を利用しており、大手企業との大型契約も過去2年間の合計を上回るペースで獲得しています。

YouTubeではAIツールでクリエイターの動画制作や収益化を支援しています。Google OneやYouTube Premiumといった有料サブスクリプション登録者数も順調に増加し、3億人を突破。安定した収益基盤の構築が進んでいます。

同社の強みは、自社開発のTPUとNVIDIA製GPUの両方を提供するAIインフラです。この優位性により大手AI企業を含む多くの顧客を獲得。自動運転のWaymoも事業拡大を進めるなど、未来への投資も着実に成果を上げています。

サンダー・ピチャイCEOは「AIが具体的なビジネス成果を上げている」と述べ、AIにおけるリーダーシップに自信を示しました。今回の記録的な決算は、Alphabetが生成AI時代における確固たる地位を築きつつあることを市場に強く印象付けたと言えるでしょう。

出典：Google公式

NVIDIA、AI工場設計図と新半導体を一挙公開

AI工場構築の設計図

政府向けAI工場設計図を公開

ギガワット級施設のデジタルツイン設計

次世代DPU BlueField-4発表

産業用AIプロセッサ IGX Thorも

オープンなAI開発

高効率な推論モデルNemotron公開

物理AI基盤モデルCosmosを提供

6G研究用ソフトをオープンソース化

詳細を見る

NVIDIAは10月28日、ワシントンD.C.で開催の技術会議GTCで、政府・規制産業向けの「AIファクトリー」参照設計や次世代半導体、オープンソースのAIモデル群を一挙に発表しました。これは、セキュリティが重視される公共分野から創薬、エネルギー、通信といった基幹産業まで、AIの社会実装をあらゆる領域で加速させるのが狙いです。ハード、ソフト、設計思想まで網羅した包括的な戦略は、企業のAI導入を新たな段階へと導く可能性があります。

発表の核となるのが、AI導入の設計図です。政府・規制産業向けに高いセキュリティ基準を満たす「AI Factory for Government」を発表。PalantirやLockheed Martinなどと連携します。また、Omniverse DSXブループリントは、ギガワット級データセンターをデジタルツインで設計・運用する手法を提示。物理的な建設前に効率や熱問題を最適化し、迅速なAIインフラ構築を可能にします。

AIインフラの性能を根幹から支える新半導体も発表されました。次世代DPU「BlueField-4」は、AIデータ処理、ネットワーキング、セキュリティを加速し、大規模AI工場の中枢を担います。さらに、産業・医療のエッジ向けには、リアルタイム物理AIプロセッサ「IGX Thor」を投入。従来比最大8倍のAI性能で、工場の自動化や手術支援ロボットの進化を後押しします。

開発者エコシステムの拡大に向け、AIモデルのオープンソース化も加速します。高効率な推論でAIエージェント構築を容易にする「Nemotron」モデル群や、物理世界のシミュレーションを可能にする「Cosmos」基盤モデルを公開。さらに、次世代通信規格6Gの研究開発を促進するため、無線通信ソフトウェア「Aerial」もオープンソースとして提供します。

これらの技術は既に具体的な産業応用へと結実しています。製薬大手イーライリリーは、1000基以上のNVIDIA Blackwell GPUを搭載した世界最大級の創薬AIファクトリーを導入。General Atomicsは、核融合炉のデジタルツインを構築し、シミュレーション時間を数週間から数秒に短縮するなど、最先端科学の現場で成果を上げています。

今回の一連の発表は、AIが研究開発段階から、社会を動かす基幹インフラへと移行する転換点を示唆しています。NVIDIAが提示する「AIファクトリー」という概念は、あらゆる産業の生産性と競争力を再定義する可能性を秘めています。自社のビジネスにどう取り入れ、新たな価値を創造するのか。経営者やリーダーには、その構想力が問われています。

クアルコム、AIチップで王者NVIDIAに挑戦状

2025年10月27日 NVIDIA 推論半導体 GPU インフラデータセンターエネルギー投資 Qualcomm

新チップでNVIDIAに対抗

AI200を2026年に投入

AI250を2027年に投入

AIモデルの推論処理に特化

サウジのAI企業が採用表明

モバイル技術をデータセンターへ

スマホ向けNPU技術が基盤

最大72チップでラック構成

AI250で大幅な低消費電力を実現

AI200は768GBのRAM搭載

詳細を見る

携帯電話向け半導体大手のクアルコムは2025年10月27日、AI（人工知能）チップ市場への本格参入を発表しました。AIモデルの「推論」に特化した新製品「AI200」と「AI250」を投入し、同市場で圧倒的なシェアを誇るNVIDIAの牙城に挑みます。モバイル向けで培った技術をデータセンター向けに転用する戦略で、新たな成長を目指します。

2026年に投入予定の「AI200」は、AI推論に最適化され768GBのRAMを搭載します。2027年には、効率を飛躍的に高め、大幅な低消費電力を実現するという「AI250」をリリース予定。両製品ともAIモデルの学習ではなく、実行（推論）に特化している点が特徴です。

新チップの核となるのは、スマートフォン向けで培ってきた「Hexagon NPU」技術です。この省電力性能に優れたモバイル技術をデータセンターに応用することで、競合との差別化を図ります。同社の技術資産を最大限に活用した戦略と言えるでしょう。

クアルコムの参入は、これまで携帯電話や通信機器が主力だった同社にとって大きな戦略転換を意味します。最大72個のチップを単一コンピュータとして連携させる構成も可能で、NVIDIAやAMDのGPUが支配するデータセンター市場への明確な挑戦状と受け止められています。

すでにサウジアラビアの公共投資基金（PIF）傘下のAI企業「Humain」が新チップの採用を表明。同社はサウジアラビアでAIデータセンターを構築しており、クアルコムのチップがそのインフラの中核を担います。初の大口顧客を獲得し、幸先の良いスタートを切りました。

出典：The Verge

NVIDIA、ロボット開発基盤ROSをGPUで加速

2025年10月27日 NVIDIA エコシステムシミュレーションエンジニア GPU ハードウェアロボット開発ツール

AIロボット開発を加速

ROS 2にGPU認識機能を追加

性能ボトルネック特定ツールを公開

Isaac ROS 4.0を新基盤に提供

Physical AIの標準化を支援

エコシステムの拡大

高度なシミュレーション環境を提供

産業用ロボットのAI自動化を推進

自律移動ロボットの高度なナビゲーション

多くのパートナーがNVIDIA技術を採用

詳細を見る

NVIDIAは2025年10月27日、シンガポールで開催のロボット開発者会議「ROSCon 2025」で、ロボット開発の標準的オープンフレームワーク「ROS」を強化する複数の貢献を発表しました。GPUによる高速化や開発ツールの提供を通じ、次世代のPhysical AIロボット開発を加速させるのが狙いです。

今回の取り組みの核心は、ROS 2を実世界のアプリケーションに対応する高性能な標準フレームワークへと進化させる点にあります。NVIDIAはOpen Source Robotics Alliance (OSRA)の「Physical AI」分科会を支援し、リアルタイム制御やAI処理の高速化、自律動作のためのツール改善を推進します。

具体的には、ROS 2にGPUを直接認識・管理する機能を提供。これにより、開発者はCPUやGPUの能力を最大限に引き出し、高速な性能を実現できます。ハードウェアの急速な進化にROSエコシステム全体が対応可能となり、将来性も確保します。

開発効率化のため、性能ボトルネックを特定する「Greenwave Monitor」をオープンソース化。さらにAIモデル群「Isaac ROS 4.0」を最新プラットフォーム「Jetson Thor」に提供。ロボットの高度なAI機能を容易に実装できます。

これらの貢献は既に多くのパートナー企業に活用されています。AgileX Roboticsは自律移動ロボットに、Intrinsicは産業用ロボットの高度な把持機能に技術を採用。シミュレーションツール「Isaac Sim」も広く利用されています。

NVIDIAはハードウェアからソフトウェア、シミュレーションまで一貫したプラットフォームを提供し、オープンソースコミュニティへの貢献を続けます。今回の発表は、同社が「Physical AI」の未来を築く基盤整備を主導する強い意志を示すものです。

出典：NVIDIA公式

中国発MiniMax-M2、オープンソースLLMの新王者

主要指標でOSSの首位

第三者機関の総合指標で1位

独自LLMに迫るエージェント性能

コーディングベンチでも高スコア

企業導入を促す高効率設計

商用利用可のMITライセンス

専門家混合(MoE)で低コスト

少ないGPUで運用可能

思考プロセスが追跡可能

詳細を見る

中国のAIスタートアップMiniMaxが27日、最新の大規模言語モデル（LLM）「MiniMax-M2」を公開しました。第三者機関の評価でオープンソースLLMの首位に立ち、特に自律的に外部ツールを操作する「エージェント性能」で独自モデルに匹敵する能力を示します。商用利用可能なライセンスと高い電力効率を両立し、企業のAI活用を加速させるモデルとして注目されます。

第三者評価機関Artificial Analysisの総合指標で、MiniMax-M2はオープンソースLLMとして世界1位を獲得しました。特に、自律的な計画・実行能力を測るエージェント関連のベンチマークでは、GPT-5やClaude Sonnet 4.5といった最先端の独自モデルと肩を並べるスコアを記録。コーディングやタスク実行能力でも高い性能が確認されています。

M2の最大の特長は、企業での導入しやすさです。専門家の知識を組み合わせる「MoE」アーキテクチャを採用し、総パラメータ2300億に対し、有効パラメータを100億に抑制。これにより、わずか4基のNVIDIA H100 GPUでの運用を可能にし、インフラコストを大幅に削減します。さらに、商用利用を認めるMITライセンスは、企業が独自に改良・展開する際の障壁を取り払います。

高いエージェント性能を支えるのが、独自の「インターリーブ思考」形式です。モデルの思考プロセスがタグで明示されるため、論理の追跡と検証が容易になります。これは、複雑なワークフローを自動化する上で極めて重要な機能です。開発者は構造化された形式で外部ツールやAPIを連携させ、M2を中核とした高度な自律エージェントシステムを構築できます。

M2の登場は、オープンソースAI開発における中国勢の台頭を象徴しています。DeepSeekやアリババのQwenに続き、MiniMaxもまた、単なるモデルサイズではなく、実用的なエージェント能力やコスト効率を重視する潮流を加速させています。監査や自社でのチューニングが可能なオープンモデルの選択肢が広がることは、企業のAI戦略に大きな影響を与えるでしょう。

出典：VentureBeat

Vertex AI強化、独自AIモデル開発をGoogleが支援

2025年10月27日 Google Gemini AWS 検索ファインチューニング半導体 GPU ハードウェア RAG

新サービス「Vertex AI Training」

企業独自の大規模モデル開発

マネージドSlurm環境を提供

数百〜数千チップの長期ジョブ

ハードウェア障害から自動復旧

競合との差別化と提供価値

AWS、CoreWeaveに対抗

多様なチップへのアクセス

Gemini開発の専門知識を活用

GPU調達の課題を解決

詳細を見る

Google Cloudが、企業による独自の大規模AIモデル開発を支援する新サービス「Vertex AI Training」を発表しました。AWSや専門プロバイダーのCoreWeaveなどに対抗するもので、マネージドSlurm環境を提供し、大規模な計算資源へのアクセスを容易にします。

このサービスは、単純なファインチューニングやRAG（検索拡張生成）の利用者を対象としていません。ゼロからモデルを構築したり、大幅なカスタマイズをしたりする、数百から数千のチップを要する大規模なトレーニングジョブに焦点を当てています。

最大の特徴は、マネージドSlurm環境にあります。これにより、ジョブのスケジューリングやハードウェア障害発生時の自動復旧が実現します。ダウンタイムを最小限に抑え、大規模クラスタでの効率的なトレーニングを可能にするのです。

なぜ今、このようなサービスが求められるのでしょうか。背景には、企業がモデル開発に必要なGPUを確保する際の熾烈な競争があります。Vertex AI Trainingは、単なる計算資源のレンタルではなく、包括的な開発環境を提供することで競合との差別化を図ります。

Googleは、多様なチップへのアクセスや、自社のGeminiモデル開発で培った専門知識も提供価値として挙げています。既にシンガポールのAI Singaporeなどが早期顧客として名を連ねており、専門的なモデル開発の需要の高まりを示しています。

出典：VentureBeat

アント、1兆パラメータAI公開強化学習の壁を突破

2025年10月24日 Google OpenAI DeepSeek Gemini Qwen 数学 GPT-5 推論強化学習オープンウェイト推論モデル GPU 米国中国米中エージェントベンチマークオープンソースモデル

1兆パラメータモデルRing-1T

中国アントグループが開発

1兆パラメータのオープンソース推論モデル

数学・論理・コード生成に特化

ベンチマークでGPT-5に次ぐ性能

独自技術で学習効率化

強化学習のボトルネックを解決

学習を安定化させる新手法「IcePop」

GPU効率を高める「C3PO++」を開発

激化する米中AI覇権争いの象徴

詳細を見る

中国のアリババ系列企業アントグループが、1兆個のパラメータを持つオープンソースの推論AIモデル「Ring-1T」の技術詳細を公開しました。このモデルは、独自開発した最適化手法により、大規模モデルの学習における強化学習のボトルネックを解決した点が特徴です。OpenAIの「GPT-5」やGoogleの「Gemini」など米国勢に対抗し、激化する米中間のAI覇権争いで存在感を示す狙いがあります。

「Ring-1T」は、数学、論理問題、コード生成、科学的問題解決に特化して設計されています。各種ベンチマークテストでは、多くの項目でOpenAIのGPT-5に次ぐ高いスコアを記録しました。特に、同社がテストしたオープンウェイトモデルの中では最高の性能を示し、中国企業の技術力の高さを証明しています。

この成果の背景には、超大規模モデルの学習を効率化する三つの独自技術があります。研究チームは、学習プロセスを安定させる「IcePop」、GPUの遊休時間をなくしリソースを最大限活用する「C3PO++」、非同期処理を可能にするアーキテクチャ「ASystem」を開発。これらが、1兆パラメータ規模のモデル学習を現実のものとしました。

特に注目すべきは、強化学習における課題へのアプローチです。従来、大規模モデルの強化学習は計算コストと不安定性が大きな障壁でした。「IcePop」は、学習を妨げるノイズの多い情報を抑制し、安定した性能向上を実現します。この技術革新は、今後のAIエージェント開発など応用分野の発展にも大きく貢献する可能性があります。

今回の発表は、DeepSeekやアリババ本体の「Qwen」シリーズに続く、中国発の高性能モデルの登場を意味します。米国の巨大テック企業を猛追する中国の勢いはとどまるところを知りません。「Ring-1T」のようなオープンソースモデルの公開は、世界中の開発競争をさらに加速させることになりそうです。

出典：VentureBeat

急増AIデータセンター、電力消費と持続可能性に警鐘

2025年10月24日 OpenAI マイクロソフト Meta xAI リスク半導体 GPU インフラデータセンターエネルギー画像イーロン・マスク投資バブルスターゲイト・プロジェクト

巨大な電力消費と環境負荷

冷却等で膨大な電力を消費

ニューヨーク市の半分の電力を使う施設も

アイルランドでは電力の20%超を消費

環境負荷のデータは多くが企業秘密

過熱する投資とバブル懸念

テック大手による数千億ドル規模の投資

供給に対し消費者需要が未成熟

会計操作による利益水増しの疑い

小型モデルなど技術革新のリスク

詳細を見る

OpenAIやマイクロソフトなど巨大テック企業が、AIの計算基盤であるデータセンターへ数千億ドル規模の投資を加速させています。しかしその裏では、膨大な電力消費による環境負荷や地域社会との軋轢、供給過剰によるAIバブルの懸念といった問題が深刻化。AIの急成長を支えるインフラの持続可能性が今、問われています。

データセンターは、AIモデルを動かすためのサーバーが詰まった巨大な倉庫です。ユーザーからの指示（クエリ）は「トークン」と呼ばれる小さなデータに分解され、GPU（画像処理半導体）が並列処理で高速に応答を生成します。この一連のプロセスと、サーバーを冷却し続けるために膨大な電力が必要となります。

そのエネルギー消費量は桁外れです。例えば、Meta社が計画する新施設は、ニューヨーク市のピーク時電力の約半分に相当する電力を消費する見込みです。アイルランドでは、データセンターがすでに国の総電力の20%以上を消費。しかし、多くの企業は環境負荷に関する詳細なデータを公開しておらず、実態の把握は困難を極めます。

市場ではOpenAIの「Stargate」プロジェクトのように、数千億ドル規模の投資計画が次々と発表されています。一方で、AIサービスへの消費者支出はまだ限定的であり、供給が需要を大幅に上回るリスクが指摘されています。一部では、インフラ費用を過小に報告し、利益を水増ししているとの見方さえあります。

データセンター建設は、政治的な対立も生んでいます。政府が国策としてAI産業を後押しする一方、地域レベルでは住民の反対運動が激化。電力料金の高騰、水資源の枯渇、騒音などが主な理由です。テネシー州メンフィスでは、イーロン・マスク氏のxAIが無許可でガスタービンを設置し、地域社会から厳しい批判を浴びました。

現在の巨大投資は、「大規模モデルがAIの主流であり続ける」という前提に基づいています。しかし、より少ない計算資源で動く効率的な小型モデルや、新たなチップ設計、量子コンピューティングといった技術革新が、現在のインフラを陳腐化させる可能性も否定できません。AI業界の急激なスケール競争は、大きな不確実性をはらんでいるのです。

出典：WIRED

AI推論コストを10倍削減、Tensormeshが6.7億円調達

2025年10月23日 Google NVIDIA エンジニア創業者推論 GPU インフラスタートアップ資金調達エージェント

資金調達と事業目的

シードで450万ドルを調達

オープンソースLMCacheの商用化

AI推論コストを最大10倍削減

独自技術の仕組み

使用済みKVキャッシュの保持と再利用

GPUの推論能力を最大化

チャットやエージェントで特に有効

市場の需要と提供価値

複雑なシステム構築の手間を削減

GoogleやNvidiaも採用する実績

詳細を見る

AIスタートアップのTensormeshが、Laude Ventures主導のシードラウンドで450万ドル（約6.7億円）を調達しました。同社は、オープンソースとして実績のあるAI推論最適化ツール「LMCache」を商用化し、企業のAI推論コストを最大10倍削減することを目指します。GPUリソースが逼迫する中、既存インフラから最大限の性能を引き出す同社の技術に注目が集まっています。

技術の核心は「KVキャッシュ」の効率的な再利用にあります。従来のAIモデルは、クエリ（問い合わせ）ごとに生成されるKVキャッシュを毎回破棄していました。これは「賢い分析官が質問のたびに学んだことを忘れてしまう」ような非効率を生んでいます。Tensormeshのシステムは、このキャッシュを保持し、類似の処理で再利用することで、計算リソースの無駄を徹底的に排除します。

この技術は、対話の文脈を常に参照する必要があるチャットインターフェースや、行動履歴が重要となるエージェントシステムで特に威力を発揮します。会話が進むにつれて増大するデータを効率的に処理できるため、応答速度を維持しつつ、より高度な対話が可能になります。サーバー負荷を変えずに推論能力を大幅に向上させられるのです。

なぜ、このようなソリューションが必要なのでしょうか。同様のシステムを自社開発するには、20人規模のエンジニアチームが数ヶ月を要するなど、技術的なハードルが非常に高いのが実情です。Tensormeshは、導入すればすぐに使える製品を提供することで、企業が複雑なインフラ構築から解放され、本来の事業に集中できる環境を整えます。

Tensormesh共同創業者が開発したオープンソースのLMCacheは、既にGoogleやNvidiaも自社サービスに統合するなど、技術界で高い評価を得ています。今回の資金調達は、その確かな技術的実績を、より多くの企業が利用できる商用サービスへと転換するための重要な一歩となるでしょう。

出典：TechCrunch

PUBG開発元、AI企業への転換を宣言

2025年10月23日 AI活用 GPU 韓国人事投資買収エージェント

「AIファースト」戦略

エージェントAIで業務を自動化

AI中心の経営システム導入

人事・組織運営もAIへ最適化

大規模な先行投資

約7000万ドルのGPUクラスタ構築

2025年下半期にAI基盤完成へ

従業員のAI活用に毎年投資

詳細を見る

人気バトルロイヤルゲーム「PUBG」で知られる韓国のクラフトンが、「AIファースト」企業への転換を宣言しました。約7000万ドルを投じてGPU基盤を構築し、エージェントAIによる業務自動化やAI中心の経営システム導入を推進。ゲーム開発のあり方を根本から変革します。

新戦略の核は、自律的にタスクをこなすエージェントAIの活用です。これにより、ゲーム開発だけでなく社内業務全般の自動化を目指します。さらに、データに基づいた意思決定を迅速に行うため、経営システム自体をAI中心に再設計し、企業運営のあり方を根本から見直す考えです。

この変革を支えるため、同社は1000億ウォン（約7000万ドル）以上を投じ、大規模なGPUクラスタを構築します。この計算基盤でAIの研究開発を加速させ、ゲーム内AIサービスも強化。AIプラットフォームは2025年下半期の完成を目指します。

投資は設備に留まりません。毎年約300億ウォンを投じて従業員のAIツール活用を支援するほか、「AIファースト」戦略を支えるために人事制度や組織運営も再構築します。全社一丸となってAI中心の企業文化を醸成していく方針です。

Kraftonの動きは業界全体の潮流を反映しています。ShopifyやDuolingoは既にAIを業務の中核に据えており、大手ゲーム会社EAの買収でもAIによるコスト削減効果が期待されるなど、AI活用が企業の競争力を左右する時代と言えるでしょう。

出典：The Verge

Anthropic、Google製AI半導体を100万基に増強

2025年10月23日 Google Anthropic NVIDIA Amazon Claude 半導体 GPU TPU クラウド投資提携

数百億ドル規模のAI投資

最大100万基のTPU利用計画

数百億ドル規模の大型投資

2026年に1GW超の容量を確保

急増する法人顧客需要への対応

マルチプラットフォーム戦略

Google TPUで価格性能比を追求

AmazonのTrainiumも併用

NVIDIAのGPUも活用

主要提携先Amazonとの連携も継続

詳細を見る

AI企業のAnthropicは2025年10月23日、Google Cloudとの提携を大幅に拡大し、最大100万基のTPUを利用する計画を発表しました。投資規模は数百億ドルに上り、急増する顧客需要に対応するため、AIの研究開発能力を強化します。この拡大により、2026年には1ギガワットを超える計算能力が追加される見込みです。

同社の法人顧客は30万社を超え、年間ランレート収益が10万ドル以上の大口顧客数は過去1年で約7倍に増加しました。この計算能力の増強は、主力AI「Claude」への指数関数的な需要増に対応し、最先端のモデル開発を維持するために不可欠です。

Google Cloudのトーマス・クリアンCEOは、「AnthropicがTPUの利用を大幅に拡大したのは、長年にわたりその優れた価格性能比と効率性を評価してきた結果だ」と述べました。Googleは、第7世代TPU「Ironwood」を含むAIアクセラレータの革新を続け、さらなる効率化と容量拡大を推進しています。

Anthropicは、特定の半導体に依存しない多様な計算基盤戦略を採っている点が特徴です。GoogleのTPUに加え、AmazonのTrainium、NVIDIAのGPUという3つのプラットフォームを効率的に活用することで、業界全体との強力なパートナーシップを維持しながらClaudeの能力を進化させています。

Googleとの提携拡大の一方で、AnthropicはAmazonとのパートナーシップも継続する方針を明確にしています。Amazonは引き続き同社の主要なトレーニングパートナーであり、クラウドプロバイダーです。両社は巨大な計算クラスターを構築する「Project Rainier」でも協力を続けています。

出典：Anthropic公式

AI開発の生産性向上、ソフトウェアの断片化解消が鍵

2025年10月22日 Flow 生産性エコシステムエンジニア推論半導体 GPU ハードウェアオンデバイスクラウドエネルギーベンチマーク Arm

AI開発を阻む「複雑性の壁」

断片化したソフトウェアスタック

ハードウェア毎のモデル再構築

6割超のプロジェクトが本番前に頓挫

エッジ特有の性能・電力制約

生産性向上への道筋

クロスプラットフォームの抽象化レイヤー

最適化済みライブラリの統合

オープン標準による互換性向上

ハードとソフトの協調設計

詳細を見る

ArmをはじめとするAI業界が、クラウドからエッジまで一貫した開発を可能にするため、ソフトウェアスタックの簡素化を急いでいます。現在、断片化したツールやハードウェア毎の再開発がAIプロジェクトの大きな障壁となっており、この課題解決が開発の生産性と市場投入の速度を左右する鍵を握っています。

AI開発の現場では、GPUやNPUなど多様なハードウェアと、TensorFlowやPyTorchといった異なるフレームワークが乱立。この断片化が非効率な再開発を招き、製品化までの時間を浪費させています。調査会社ガートナーによれば、統合の複雑さを理由にAIプロジェクトの6割以上が本番前に頓挫しているのが実情です。

このボトルネックを解消するため、業界は協調した動きを見せています。ハードウェアの違いを吸収する抽象化レイヤーの導入、主要フレームワークへの最適化済みライブラリの統合、ONNXのようなオープン標準の採用などが進んでいます。これにより、開発者はプラットフォーム間の移植コストを大幅に削減できるのです。

簡素化を後押しするのが、クラウドを介さずデバイス上でAIを処理する「エッジ推論」の急速な普及です。スマートフォンや自動車など、電力や処理能力に制約のある環境で高性能なAIを動かすには、無駄のないソフトウェアが不可欠です。この需要が、業界全体のハードウェアとソフトウェアの協調設計を加速させています。

この潮流を主導するのが半導体設計大手のArmです。同社はCPUにAI専用の命令を追加し、PyTorchなどの主要ツールとの連携を強化。これにより開発者は使い慣れた環境でハードウェア性能を最大限に引き出せます。実際に、大手クラウド事業者へのArmアーキテクチャ採用が急増しており、その電力効率の高さが評価されています。

AIの次なる競争軸は、個別のハードウェア性能だけでなく、多様な環境でスムーズに動作する「ソフトウェアの移植性」に移っています。エコシステム全体で標準化を進め、オープンなベンチマークで性能を競う。こうした協調的な簡素化こそが、AIの真の価値を引き出し、市場の勝者を決めることになるでしょう。

出典：VentureBeat

AI気球が天気予報を変革、精度で世界一に

2025年10月21日 Google ChatGPT 気象 GPU ハードウェアインフラエネルギースタートアップトランスフォーマー

革新的なデータ収集

自律航行する気象気球

従来比数十倍のデータ量

観測空白域のデータを網羅

ハリケーンへの直接投入も

世界最高精度のAI

独自AIモデルWeatherMesh

Google、Huaweiを凌駕

従来モデルを最大30%上回る精度

低コストなGPUで高速運用

詳細を見る

米スタートアップWindBorne Systems社が、自律航行する気象気球と独自のAIモデル「WeatherMesh」を組み合わせ、世界で最も正確な天気予報システムを開発しました。従来手法では観測が困難だった広大な海洋上のデータを気球で収集し、AIで解析。これにより、ハリケーンの進路予測などで既存の主要モデルを上回る精度を達成し、防災や再生可能エネルギー、農業分野などでの活用が期待されています。

従来の天気予報は、観測データが乏しい海洋や砂漠などの「観測空白域」が存在することが大きな課題でした。特に、多くのハリケーンが発達する海洋上では、有人飛行機による観測は危険とコストを伴うためデータが不足しがちです。このデータ不足が、2024年のハリケーン「ミルトン」のような壊滅的な被害をもたらす異常気象の予測を困難にしていました。

この課題を解決するのが、同社が開発した長時間滞空型の気象気球です。従来の気球が数時間で破裂するのに対し、この気球は50日以上も上空に留まることが可能です。風を読んで高度を自律的に調整し、狙ったエリアのデータを収集します。実際にハリケーン「ミルトン」発生時には、安全な場所から放たれた気球がハリケーンの心臓部に到達し、貴重なデータを取得することに成功しました。

気球が収集した膨大なデータは、同社独自のAI予報モデル「WeatherMesh」に入力されます。このモデルはChatGPTなどにも使われるTransformer技術を基盤とし、競合であるGoogleのGraphCastやHuaweiのPangu-Weatherを上回る予測精度を記録しています。物理ベースの従来モデルと比較しても最大30%精度が高く、それでいて安価なGPUで高速に運用できる効率性も両立しています。

気球によるデータ収集とAIによる予測は、互いに連携する「エンドツーエンド」のシステムを形成しています。AIが予測精度向上に必要なデータ領域を特定し、気球群をその場所へ誘導。気球が収集した最新データが、さらにAIの予測精度を高めるという好循環を生み出します。同社はこの仕組みを「惑星の神経系」と呼び、地球全体の気象をリアルタイムで把握することを目指しています。

WindBorne社は将来的に、常時1万個の気球を飛行させ、地球全体をほぼ継続的に観測する体制を2028年までに構築する計画です。気候変動により異常気象が深刻化する中、高精度な気象予測は、社会のレジリエンスを高める上で不可欠なインフラとなるでしょう。AIとハードウェアを融合させたこのアプローチは、気象予測の新たなスタンダードになる可能性を秘めています。

出典：spectrum.ieee.org

UCサンタクルーズ、NVIDIA GPUで洪水予測9倍高速化

2025年10月21日 NVIDIA 生産性シミュレーション経営者リスク GPU 投資

GPUによる計算高速化

カリフォルニア大学の洪水予測

CPUで6時間かかっていた計算

NVIDIA GPUで40分に短縮

シミュレーション速度が9倍に向上

可視化が導く新たな価値

高解像度の洪水リスク可視化

自然の防災効果をデータで証明

政府や企業の意思決定を支援

サンゴ礁保険など新金融商品へ

詳細を見る

カリフォルニア大学サンタクルーズ校の研究チームが、NVIDIAのGPU技術を活用し、沿岸の洪水予測シミュレーションを大幅に高速化しています。気候変動で高まる洪水リスクを詳細に可視化し、サンゴ礁などの自然が持つ防災効果を定量的に示すことで、政府や金融機関の効果的な対策立案を支援することが目的です。

研究チームは、従来CPUで約6時間かかっていた計算を、NVIDIAのRTX 6000 Ada世代GPUを1基使うことで、わずか40分に短縮しました。これは9倍の高速化に相当し、プロジェクトの生産性を劇的に向上させています。複数のGPUをクラスタ化すれば、同時に4つのシミュレーションを実行することも可能です。

高速化の鍵は、NVIDIAの並列コンピューティングプラットフォームCUDA-Xです。これにより、膨大な計算を要する流体力学モデルを効率的に処理できます。計算時間の短縮は、パラメータの調整や感度分析といった試行錯誤を容易にし、モデルの精度向上にも大きく貢献しています。

シミュレーション結果は、Unreal Engine 5などのゲームエンジンで説得力のある映像に変換されます。洪水がどのように発生し、自然の防波堤がどう機能するかを視覚的に示すことは、関係者の理解を深め、対策への投資を促す重要なツールとなります。「可視化は行動を動機づける基本だ」と研究者は語ります。

この技術はすでに具体的なビジネスにも繋がっています。メキシコでは、サンゴ礁の防災価値を評価し、ハリケーン被害からの修復費用を賄う世界初の「サンゴ礁保険」が組成されました。可視化データが、沿岸のホテル経営者や政府、世界銀行グループの投資判断を後押しした好例です。

計算能力の向上により、チームはより野心的な目標を掲げています。現在は、気候変動の影響を特に受けやすい全世界の小島嶼開発途上国の洪水マップを作成するプロジェクトに取り組んでおり、その成果は次回の気候変動会議（COP30）で発表される予定です。

出典：NVIDIA公式

リアルタイム音声偽装、ビッシング詐欺の新次元へ

2025年10月21日専門家ディープフェイク GPU ハードウェアセキュリティ認証音声

技術的ハードルの低下

公開ツールと安価な機材で実現

ボタン一つでリアルタイム音声偽装

低品質マイクでも高精度な音声

詐欺への応用と脅威

遅延なく自然な会話で騙す手口

「ビッシング」詐欺の成功率向上

本人なりすましの実験で実証済

新たな本人認証の必要性

音声・映像に頼れない時代へ

新たな認証手法の確立が急務

詳細を見る

サイバーセキュリティ企業NCC Groupは2025年9月の報告書で、リアルタイム音声ディープフェイク技術の実証に成功したと発表しました。この技術は、公開ツールと一般に入手可能なハードウェアを使い、標的の声をリアルタイムで複製するものです。これにより、声で本人確認を行うシステムを突破し、より巧妙な「ビッシング」（ボイスフィッシング）詐欺が可能となり、企業や個人に新たな脅威をもたらします。

NCC Groupが開発したツールは、ウェブページのボタンをクリックするだけで起動し、遅延をほとんど感じさせることなく偽の音声を生成します。実演では、ノートPCやスマートフォンに内蔵されたような低品質マイクからの入力でも、非常に説得力のある音声が出力されることが確認されており、攻撃者が特別な機材を必要としない点も脅威です。

従来の音声ディープフェイクは、事前に録音した文章を読み上げるか、生成に数秒以上の遅延が生じるため、不自然な会話になりがちでした。しかし、この新技術はリアルタイムでの応答を可能にし、会話の途中で予期せぬ質問をされても自然に対応できるため、詐欺を見破ることが格段に難しくなります。

NCC Groupは顧客の同意を得て、この音声偽装技術と発信者番号の偽装を組み合わせた実証実験を行いました。その結果、「電話をかけたほぼ全てのケースで、相手は我々を本人だと信じた」と報告しており、この技術が実際の攻撃で極めて高い成功率を持つ可能性を示唆しています。

この技術の最も懸念すべき点は、その再現性の高さにあります。高価な専用サービスは不要で、オープンソースのツールと、一般的なノートPCに搭載されているGPUでもわずか0.5秒の遅延で動作します。これにより、悪意のある攻撃者が容易に同様のツールを開発し、攻撃を仕掛けることが可能になります。

音声だけでなく、ビデオディープフェイクの技術も急速に進歩していますが、高品質な映像をリアルタイムで生成するにはまだ課題が残ります。しかし専門家は、音声だけでも脅威は十分だと警告します。今後は「声や顔」に頼らない、合言葉のような新たな本人認証手段を企業や個人が導入する必要があるでしょう。

出典：spectrum.ieee.org

DeepSeek、テキストを画像化し10倍圧縮する新AI

2025年10月21日 OpenAI NVIDIA DeepSeek OCR エンジニア創業者推論 GPU 画像中国コンテキスト

テキスト処理の常識を覆す

テキストを画像として表現

従来のトークンより最大10倍効率化

LLMの常識を覆すパラダイム転換

巨大コンテキストと高効率

1000万トークン級の文脈へ

単一GPUで日産20万ページ処理

トークナイザー問題を根本的に解決も

オープンソースで開発加速

モデルやコードを完全公開

圧縮データ上の推論能力が今後の課題

詳細を見る

中国のAI研究企業DeepSeekは、テキスト情報を画像として処理することで最大10倍に圧縮する新しいオープンソースAIモデル「DeepSeek-OCR」を発表しました。この技術は、大規模言語モデル（LLM）が一度に扱える情報量（コンテキストウィンドウ）を劇的に拡大する可能性を秘めており、従来のテキスト処理の常識を覆す画期的なアプローチとして注目されています。

このモデルの核心は、テキストを文字の集まり（トークン）としてではなく、一枚の「絵」として捉え、視覚情報として圧縮する点にあります。従来、テキスト情報の方が視覚情報より効率的に扱えると考えられてきましたが、DeepSeek-OCRはこの常識を覆しました。OpenAIの共同創業者であるAndrej Karpathy氏も「LLMへの入力は全て画像であるべきかもしれない」と述べ、この発想の転換を高く評価しています。

その性能は驚異的です。実験では、700〜800のテキストトークンを含む文書をわずか100の視覚トークンで表現し、97%以上の精度で元のテキストを復元できました。これは7.5倍の圧縮率に相当します。実用面では、単一のNVIDIA A100 GPUで1日に20万ページ以上を処理できる計算となり、AIの学習データ構築などを大幅に加速させることが可能です。

この技術革新がもたらす最大のインパクトは、LLMのコンテキストウィンドウの飛躍的な拡大です。現在の最先端モデルが数十万トークンであるのに対し、このアプローチは1000万トークン級の超巨大な文脈の実現に道を開きます。企業の全社内文書を一度に読み込ませて対話するなど、これまで不可能だった応用が現実のものとなるかもしれません。

テキストの画像化は、長年AI開発者を悩ませてきた「トークナイザー」の問題を根本的に解決する可能性も秘めています。文字コードの複雑さや、見た目が同じでも内部的に異なる文字として扱われるといった問題を回避できます。さらに、太字や色、レイアウトといった書式情報も自然にモデルへ入力できるため、よりリッチな文脈理解が期待されます。

DeepSeekはモデルの重みやコードを全てオープンソースとして公開しており、世界中の研究者がこの新技術を検証・発展させることが可能です。一方で、圧縮された視覚情報の上で、LLMがどの程度高度な「推論」を行えるかは未知数であり、今後の重要な研究課題となります。この挑戦的なアプローチが、次世代AIの標準となるか、業界全体の注目が集まります。

出典：VentureBeat

AI基盤Fal.ai、企業価値40億ドル超で大型調達

企業価値が爆発的に増大

企業価値は40億ドルを突破

わずか3ヶ月で評価額2.7倍

調達額は約2億5000万ドル

著名VCが大型出資を主導

マルチモーダルAI特化

600以上のメディア生成モデルを提供

開発者数は200万人を突破

AdobeやCanvaなどが顧客

動画AIなど高まる需要が追い風

詳細を見る

マルチモーダルAIのインフラを提供するスタートアップのFal.aiが、企業価値40億ドル（約6000億円）超で新たな資金調達ラウンドを完了しました。関係者によると、調達額は約2億5000万ドルに上ります。今回のラウンドはKleiner PerkinsとSequoia Capitalという著名ベンチャーキャピタルが主導しており、AIインフラ市場の過熱ぶりを象徴しています。

驚くべきはその成長速度です。同社はわずか3ヶ月前に評価額15億ドルでシリーズCを終えたばかりでした。当時、売上高は9500万ドルを超え、プラットフォームを利用する開発者は200万人を突破。1年前の年間経常収益（ARR）1000万ドル、開発者数50万人から爆発的な成長を遂げています。

この急成長の背景には、マルチモーダルAIへの旺盛な需要があります。特に、OpenAIの「Sora」に代表される動画生成AIが消費者の間で絶大な人気を博していることが、Fal.aiのようなインフラ提供企業への追い風となっています。アプリケーションの需要が、それを支える基盤技術の価値を直接押し上げているのです。

Fal.aiは開発者向けに、画像、動画、音声、3Dなど600種類以上のAIモデルを提供しています。数千基のNVIDIA製H100およびH200 GPUを保有し、高速な推論処理に最適化されたクラウド基盤が強みです。API経由のアクセスやサーバーレスでの提供など、柔軟な利用形態も支持されています。

MicrosoftやGoogleなど巨大IT企業もAIホスティングサービスを提供していますが、Fal.aiはメディアとマルチモーダルに特化している点が競争優位性です。顧客にはAdobe、Canva、Perplexity、Shopifyといった大手企業が名を連ね、広告、Eコマース、ゲームなどのコンテンツ制作で広く活用されています。

同社は2021年、Coinbaseで機械学習を率いたBurkay Gur氏と、Amazon出身のGorkem Yurtseven氏によって共同設立されました。多くの技術者が大規模言語モデル（LLM）開発に走る中、彼らはマルチメディア生成の高速化と大規模化にいち早く着目し、今日の成功を収めました。

出典：TechCrunch

NVIDIAとGoogle Cloud提携、企業AI・DXを推進

2025年10月20日 Google NVIDIA AI活用広告シミュレーションデジタルツイン推論 GPU クラウドロボット提携エージェント

産業デジタル化を加速

OmniverseとIsaac Simが利用可能に

物理的に正確なデジタルツイン構築

仮想空間でのAIロボット開発

製造業や物流分野のDXを支援

詳細を見る

NVIDIAとGoogle Cloudは10月20日、企業向けAIと産業のデジタル化を加速する提携拡大を発表しました。Google Cloud上で最新GPU「RTX PRO 6000 Blackwell」を搭載したG4仮想マシン（VM）と、デジタルツイン構築基盤「Omniverse」が利用可能になります。

G4 VMの核となるのは、最新GPU「RTX PRO 6000 Blackwell」です。AI推論と高精細なビジュアル処理の両方で卓越した性能を発揮し、生成AIから複雑なシミュレーションまで、多様なワークロードを単一基盤で高速化します。

特に注目されるのが産業用メタバース基盤「NVIDIA Omniverse」です。物理的に正確な工場のデジタルツイン構築や、仮想空間でのAIロボット開発・検証が可能になり、製造業などの物理AI活用が大きく前進します。

広告大手WPPはフォトリアルな3D広告環境の即時生成に、Altairは複雑なシミュレーションの高速化に本プラットフォームを活用しており、具体的なビジネス成果に繋がり始めています。あらゆる業界で応用が期待できるでしょう。

この統合プラットフォームは、AIモデル「Nemotron」や推論用マイクロサービス「NIM」などNVIDIAの豊富なソフトウェア群も利用可能です。AIエージェント構築から科学技術計算まで、高負荷タスクをクラウド上で実行できます。

今回の提携は、データ分析から物理AIの実装まで一気通貫の開発環境をクラウドで提供するものです。企業のデジタルトランスフォーメーションとイノベーションを次の段階へ引き上げる、強力な一手となるでしょう。

出典：NVIDIA公式

SKテレコム、新設AI部門で希望退職を提示

2025年10月17日 OpenAI NVIDIA アシスタントレイオフ GPU インフラデータセンター韓国投資提携

AI部門設立直後の再編

9月下旬に新AI部門を設立

設立数週間で希望退職を提示

対象は全従業員約1,000人

会社側はリストラを否定

AI事業強化への布石

複数部門を新組織へ統合

重複する役割や機能を効率化

2030年に売上5兆ウォン目標

OpenAIとの連携も推進

詳細を見る

韓国の通信大手SKテレコムが、9月下旬に新設したAI部門「AI CIC」において、希望退職プログラムを提示したことが明らかになりました。これは同社が進めるAI関連部門の統合・再編の一環であり、設立からわずか数週間での異例の動きとして注目されています。

同社広報は、今回のプログラムはリストラや人員削減が目的ではないと強調しています。あくまでも組織再編に伴い、役割や勤務地が変更となる可能性のある従業員への支援策であると説明。参加は完全に任意であり、強制的な解雇は含まれないとのことです。

プログラムの詳細は、若手からベテランまで全部門の従業員に伝えられています。AI部門には約1,000人が在籍していると報じられており、退職を選択しない従業員は、地方オフィスへ再配置される可能性があるとしています。

今回の動きの背景には、社内に分散していたAI関連部門を「AI CIC」という統括組織に集約する狙いがあります。これにより、重複する役割や機能を整理し、より効率的な事業運営を目指します。パーソナルAIアシスタント「A.」の開発やAIデータセンター事業などがこの新部門に集約されます。

SKテレコムはAI事業を今後の成長の柱と位置付けており、AI部門で2030年までに年間売上5兆ウォン（約35億ドル）を達成する目標を掲げています。最近ではNVIDIAのGPUサービスや、OpenAIと提携したAIデータセンター開発を発表するなど、インフラ投資も加速させています。

出典：TechCrunch

NVIDIA、オープンソースAIで開発者エコシステムを主導

2025年10月17日 NVIDIA GitHub 生産性エコシステムエンジニア GPU ハードウェアデプロイ Hugging Face

PyTorchとの連携強化

急成長AIフレームワークPyTorch

CUDAにPythonを第一級言語として追加

開発を容易にするCUDA Pythonを公開

1日200万DL超の人気を支える

オープンソースへの貢献

Hugging Faceへの貢献でトップに

1000超のツールをGitHubで公開

500以上のモデルと100以上のデータセット

AIイノベーションの加速と透明性確保

詳細を見る

NVIDIAは、開催中の「Open Source AI Week」において、オープンソースAIのエコシステム強化に向けた新たな取り組みを発表しました。急成長するAIフレームワークPyTorchとの連携を深め、開発者がNVIDIAのGPUをより容易に活用できるツールを公開。AIイノベーションの加速と、開発者コミュニティへの貢献を鮮明に打ち出しています。

今回の発表の核心は、NVIDIAの並列コンピューティングプラットフォーム「CUDA」に、プログラミング言語Pythonを第一級言語として正式対応させた点です。これにより、世界で数百万人に上るPyTorch開発者コミュニティは、GPUアクセラレーションの恩恵をこれまで以上に簡単に受けられるようになり、生産性の飛躍的な向上が期待されます。

具体的には「CUDA Python」がGitHubとPyPIを通じて公開されました。これはカーネルフュージョンやパッケージングを簡素化し、迅速なデプロイを可能にします。1日200万回以上ダウンロードされるPyTorchの人気を背景に、NVIDIAの基盤技術がAI開発の現場で不可欠な存在であり続けることを示しています。

NVIDIAの貢献はPyTorchに留まりません。同社はAIモデル共有プラットフォーム「Hugging Face」において、過去1年で最大の貢献者となりました。GitHubでは1,000以上のオープンソースツールを公開するなど、モデル、ツール、データセットを広く提供し、透明性の高いAI開発を推進しています。

一連の取り組みは、オープンな協業を通じて技術革新を主導するというNVIDIAの強い意志の表れです。自社の強力なハードウェアと、活発なオープンソースコミュニティを結びつけることで、AIエコシステム全体の発展を促し、業界におけるリーダーシップをさらに盤石なものにする狙いがあるでしょう。

出典：NVIDIA公式

NVIDIA、新サーバー増強でクラウドゲーム体験向上

2025年10月16日 NVIDIA GPU インフラクラウドコンテンツ米国イギリス提携 GeForce NOW

Blackwellサーバー網拡大

新世代Blackwell RTXサーバー導入

ロンドンなど4地域で稼働開始

次はアトランタに展開予定

高画質・低遅延の環境を提供

ユーザー体験の向上施策

人気ゲームの限定特典を提供

Steamの2,200超タイトルを追加

新機能でゲームの即時プレイ可能

PCゲームパス対応タイトルも拡充

詳細を見る

NVIDIAは2025年10月16日、クラウドゲーミングサービス「GeForce NOW」の基盤強化と新たなユーザー向け施策を発表しました。最新GPU「Blackwell」を搭載したサーバーをロンドンなど4地域に拡大し、パフォーマンスを向上。さらに、2,200以上のSteamタイトルを即時プレイ可能にする新機能を導入し、プラットフォームの魅力を高めることで事業拡大を加速させます。

サービスの核となるインフラ増強では、最新のGeForce RTX 5080クラスの性能を持つBlackwell RTXサーバーへのアップグレードが進んでいます。米国のアッシュバーン、ポートランド、ダラス、そして英国のロンドンで新たに稼働を開始し、次はアトランタでの展開を予定。高フレームレートと低遅延を実現し、要求の厳しいゲームでも快適なプレイ環境を提供します。

ユーザーの利便性を高める新機能「Install-to-Play」も注目されます。これにより、GeForce NOWが公式対応を謳っていない2,200以上のSteamタイトルも、プレミアム会員はクラウド上の仮想PCに直接インストールして即座にプレイできるようになりました。ライブラリの大幅な拡充は、プラットフォームの魅力を大きく高める一手と言えるでしょう。

顧客エンゲージメントを高める施策も同時に展開します。最上位プラン「Ultimate」会員向けに、人気ゲーム『Borderlands 4』で使える限定アイテムを無料で提供。さらに、周辺機器メーカーSteelSeriesと提携し、高性能なコントローラーやヘッドセットが当たるプレゼント企画も実施し、ユーザーの継続的な利用を促します。

コンテンツ面では、今週新たに10タイトルが追加されました。大規模多人数参加型オンラインゲーム『Pax Dei』の正式版リリースや、人気格闘ゲーム『ストリートファイター』シリーズなどが含まれます。PC Game Pass対応タイトルも拡充しており、幅広いゲーマーのニーズに応える姿勢を明確にしています。

出典：NVIDIA公式

AIデータセンター宇宙へ、コスト10分の1の衝撃

2025年10月15日 NVIDIA 気象 GPU インフラデータセンターエネルギー太陽光発電米国スタートアップ

宇宙設置の圧倒的メリット

エネルギーコストを10分の1に削減

ほぼ無尽蔵の太陽光エネルギー

冷却水不要、真空で自然冷却

CO2排出量を大幅に削減

軌道上AI処理が拓く未来

初のデータセンター級GPUを搭載

地球観測データをリアルタイム分析

応答時間を数時間から数分へ

災害検知や気象予測に応用

詳細を見る

米国ワシントン州のスタートアップStarcloud社が、2025年11月にNVIDIAのH100 GPUを搭載したAI衛星を打ち上げます。これは、宇宙空間にデータセンターを構築するという壮大な計画の第一歩です。地球上のデータセンターが抱えるエネルギー消費や冷却の問題を、ほぼ無尽蔵の太陽光と宇宙の真空を利用して解決し、エネルギーコストを地上比で10分の1に削減することを目指します。

AIの需要急増は、データセンターの電力消費と冷却という大きな課題を生んでいます。Starcloud社はこの解決策を宇宙に求めました。軌道上では太陽光をエネルギー源とし、宇宙の真空を無限のヒートシンクとして利用。冷却水が不要となり、エネルギーコストは地上設置に比べ10分の1にまで削減可能と試算しています。

11月に打ち上げ予定の衛星「Starcloud-1」は、小型冷蔵庫ほどの大きさながら、データセンタークラスのGPUであるNVIDIA H100を搭載。これにより、従来の宇宙での処理能力を100倍以上上回るコンピューティングが実現します。最先端GPUが宇宙空間で本格稼働するのは、これが史上初の試みとなります。

宇宙データセンターの主な用途は、地球観測データのリアルタイム分析です。衛星が収集した膨大なデータをその場でAIが処理し、山火事の早期発見や気象予測に活かします。地上へのデータ転送が不要になるため、災害対応などの応答時間を数時間から数分へと劇的に短縮できる可能性があります。

Starcloud社のフィリップ・ジョンストンCEOは「10年後には、ほぼ全ての新設データセンターが宇宙に建設されるだろう」と予測します。同社は次世代のNVIDIA Blackwellプラットフォーム統合も視野に入れており、軌道上でのAI性能はさらに飛躍する見込みです。宇宙がAIインフラの新たなフロンティアとなる未来は、もう目前に迫っています。

出典：NVIDIA公式

新興Nscale、MSとGPU20万基の供給で大型契約

2025年10月15日 OpenAI NVIDIA マイクロソフト創業者投資家半導体 GPU インフラデータセンター米国欧州イギリススタートアップ投資

大規模なAIインフラ契約

AI新興NscaleがMSと契約

Nvidia製GB300 GPUを約20万基供給

AIの計算需要増に対応

米国・欧州4拠点への展開

米国テキサス州に10.4万基

ポルトガル、英国、ノルウェーにも展開

2026年から順次稼働開始

2024年設立の新興企業

設立から1年足らずで大型契約

NvidiaやNokiaなどが出資

詳細を見る

AIインフラの新興企業Nscaleは10月15日、マイクロソフトと大規模な契約を締結したと発表しました。この契約に基づき、NscaleはNvidia製の最新GPU「GB300」を約20万基、米国および欧州のデータセンターに展開します。急増するAIの計算需要に対応するための動きです。

今回の契約は、AI開発に不可欠な計算資源を確保する上で極めて重要な意味を持ちます。Nscaleは、同社が所有・運営する施設と、投資家であるAker社との合弁事業を通じて、世界最先端のAIインフラをマイクロソフトに提供する計画です。

GPUの展開は4つの拠点で行われます。まず、米国テキサス州のデータセンターに10万4000基を今後12〜18ヶ月で納入。さらに、ポルトガルに1万2600基、英国に2万3000基、ノルウェーに5万2000基を順次展開する予定です。

注目すべきは、Nscaleが2024年に設立されたばかりのスタートアップである点です。同社は設立以来、Aker、Nokia、Nvidiaなどの戦略的パートナーから17億ドル（約2500億円）以上を調達しており、その急成長ぶりがうかがえます。

Nscaleの創業者兼CEOであるジョシュ・ペイン氏は、「この合意は、我々が世界の最重要テクノロジーリーダーの選択すべきパートナーであることを裏付けるものだ」と述べ、大規模なGPU展開を実行できる能力と経験を強調しました。

AIモデルの高性能化に伴い、GPUの確保競争は激化しています。最近ではOpenAIがAMDやNvidiaと大規模なチップ供給契約を結ぶなど、大手テック企業による計算インフラへの投資が相次いでおり、今回の契約もその潮流の中に位置づけられます。

出典：TechCrunch

AI巨大化は限界か、MITが収益逓減を指摘

2025年10月15日 OpenAI 専門家推論リスク半導体 GPU ハードウェアインフラ MIT 投資バブル

MITが示す未来予測

大規模モデルの性能向上の鈍化

小規模モデルが効率化で台頭

今後5-10年で性能差は縮小へ

過熱するインフラ投資

OpenAIなどによる巨額の投資

専門家が指摘するバブルのリスク

GPUの急速な価値下落リスク

今後の開発戦略

スケール一辺倒からの転換点

アルゴリズム改良の重要性

詳細を見る

マサチューセッツ工科大学（MIT）の研究チームが、AI業界の主流であるモデルの巨大化戦略が近く「収益逓減の壁」に直面する可能性を指摘する研究を発表しました。計算資源の拡大による性能向上と、アルゴリズムの効率化による性能向上を比較分析したもので、現在の巨大なインフラ投資ブームに一石を投じる内容となっています。

研究によると、今後5年から10年の間に、アルゴリズムの効率化が進むことで、より少ない計算資源で動く小規模なモデルが、巨大モデルの性能に追いつき始めると予測されています。特に、推論能力を重視する最新モデルにおいて、この傾向は顕著になると分析。単純な規模拡大だけでは、競争優位性を保つのが難しくなるかもしれません。

この予測は、OpenAIなどが進める数千億ドル規模のAIインフラ投資とは対照的です。業界は計算能力のさらなる増強を目指していますが、専門家からはその持続可能性を疑問視する声も上がっています。特に、投資の大部分を占めるGPUは技術の進歩が速く、資産価値が急速に下落するリスクを抱えています。

もちろん、巨大テック企業の投資には、生成AIツールの需要爆発を見越した先行投資や、特定の半導体メーカーへの依存度を下げたいといった戦略的な狙いもあります。しかし、MITの研究は、業界がスケール一辺倒の戦略を見直す時期に来ていることを示唆しています。

これからのAI開発では、計算資源の拡大と並行して、より効率的なアルゴリズムを開発することの重要性が増すでしょう。ハードウェアへの投資だけでなく、ソフトウェアやアルゴリズムの革新にも目を向けることが、長期的なイノベーションの鍵を握ることになりそうです。

出典：WIRED

Meta、AIインフラ強化でArmと提携し効率化へ

2025年10月15日 OpenAI NVIDIA Meta 半導体 GPU インフラデータセンターエネルギー投資提携 Arm

提携の狙い

AIシステムを効率的に拡大

ランキング・推薦システムを移行

Armの低消費電力という強み

Metaの巨大インフラ投資

需要増に対応するデータセンター網拡張

オハイオ州で数GW規模のプロジェクト

ルイジアナ州で5GW規模の巨大施設

Nvidiaとは異なる提携

Nvidiaのような資本提携はなし

技術協力に特化した柔軟な連携モデル

詳細を見る

ソーシャルメディア大手のMetaは2025年10月15日、半導体設計大手Armとの提携を発表しました。これは、AIサービスの需要急増に対応するため、自社のAIインフラを効率的に拡張する狙いがあります。具体的には、Metaのランキング・推薦システムをArmの「Neoverse」プラットフォームに移行させ、30億人を超えるユーザーへのサービス提供を強化します。

今回の提携の鍵は、Armのワットパフォーマンス（消費電力あたりの性能）の高さです。AIの次の時代は「大規模な効率性」が定義するとArmは見ており、Metaはこの強みを活用してイノベーションを加速させます。GPU市場を席巻するNvidiaなどとは異なり、Armは低消費電力という独自の強みを武器に、AIインフラ市場での存在感を高めています。

この動きは、Metaが進める前例のない規模のインフラ拡張計画の一環です。同社はAIサービスの将来的な需要を見越し、データセンター網を大幅に拡大しています。オハイオ州では数ギガワット級のプロジェクトが進行中。さらにルイジアナ州では、完成すれば5ギガワットの計算能力を持つ巨大キャンパスの建設が2030年まで続きます。

このパートナーシップが注目されるのは、近年の他のAIインフラ取引とは一線を画す点です。NvidiaがOpenAIなどに巨額投資を行うなど、資本関係を伴う提携が相次いでいるのとは対照的に、MetaとArmの間では株式の持ち合いや大規模な物理インフラの交換は行われません。技術協力に特化した、より柔軟な連携モデルと言えるでしょう。

出典：TechCrunch

AWS流、LLM分散学習クラスター構築・検証術

2025年10月15日 Meta Amazon AWS 生産性ネットワーク Llama エンジニア経営者ディープラーニングリスク GPU インフラ

分散学習の複雑な設定

高性能GPUインスタンスの精密設定

ネットワークとストレージの複雑性

バージョン不整合による性能劣化リスク

構築・検証の主要ステップ

DLCベースのDockerイメージ構築

EKSでのGPUクラスター起動

GPU・EFA等必須プラグイン導入

ヘルスチェックによる設定検証

サンプルジョブでの最終動作確認

詳細を見る

アマゾンウェブサービス（AWS）は、大規模言語モデル（LLM）の分散学習に不可欠なインフラ構築を効率化するため、Amazon EKSとAWS Deep Learning Containers（DLC）を用いたクラスターの構築・検証手順を公開しました。この体系的なアプローチは、複雑な設定ミスを防ぎ、開発チームがモデル性能の向上に集中できる環境を実現します。AI開発の生産性を高めたい経営者やエンジニアにとって、必見の内容と言えるでしょう。

最新のLLM開発では、Meta社のLlama 3が16,000基のGPUを使用したように、膨大な計算資源が求められます。しかし、高性能なGPUインスタンスは、ネットワークやストレージ、GPUの構成が極めて複雑です。わずかな設定ミスが性能の大幅な低下やエラーを招き、プロジェクトの遅延やコスト増大に直結する大きな課題となっています。

この課題に対し、AWSは解決策の核として「AWS Deep Learning Containers（DLC）」の活用を推奨しています。DLCは、CUDAやNCCLといった互換性が重要なライブラリ群を最適化した状態で提供するコンテナイメージです。これにより、バージョン不整合のリスクを根本から排除し、開発チームはインフラの細かな調整から解放され、開発を迅速に開始できます。

具体的な構築手順は、まずDLCを基盤にカスタムDockerイメージを作成することから始まります。次に、Amazon EKS（Elastic Kubernetes Service）を用いてGPU対応クラスターを起動。その後、GPUや高速ネットワーク（EFA）、ストレージ（FSx for Lustre）を連携させるための各種プラグインを導入し、計算、通信、データ保管が三位一体となった本番環境レベルの基盤を完成させます。

インフラ構築後の検証プロセスもまた、成功の鍵を握ります。GPUドライバーの確認、複数ノード間の通信テスト、そして小規模なサンプル学習ジョブの実行といった段階的なヘルスチェックが不可欠です。これにより、大規模な学習を開始する前に問題を特定し、高価なGPUリソースと時間の浪費を未然に防ぐことが可能になります。

この体系的な手法を導入することで、企業はインフラ管理の負担を大幅に軽減し、エンジニアをモデル開発という本来の価値創出業務に集中させることができます。結果として、AI開発の生産性と成功確率が向上し、市場における企業の競争力強化に大きく貢献するでしょう。

出典：AWS公式

Salesforce、AWS活用でLLM運用コスト40%削減

2025年10月14日 Amazon Salesforce AWS 生産性推論ファインチューニング GPU インフラクラウドデプロイ

カスタムLLM運用の課題

数ヶ月かかるデプロイ作業

ピーク時を見越したGPU予約コスト

頻繁なリリースに伴う保守の複雑化

Bedrock導入による成果

デプロイ時間を30%短縮

運用コストを最大40%削減

サーバーレスによる自動スケール実現

導入成功のポイント

既存APIを維持するハイブリッド構成

コールドスタートへの対策実施

詳細を見る

クラウド大手のセールスフォースは、AWSのAIサービス「Amazon Bedrock」を導入し、自社でカスタマイズした大規模言語モデル（LLM）の運用を効率化しました。これにより、モデルのデプロイにかかる時間を30%短縮し、インフラコストを最大40%削減することに成功。AI開発の生産性向上とコスト最適化を両立した事例として注目されます。

同社はこれまで、ファインチューニングしたLLMを自社で運用していましたが、インフラの最適化や設定に数ヶ月を要し、運用負荷の高さが課題でした。また、ピーク時の需要に備えてGPUリソースを常に確保する必要があり、コストが嵩む一因となっていました。

そこで採用したのが、Bedrockの「カスタムモデルインポート」機能です。これにより、インフラ管理の大部分をAWSに任せ、チームはモデル開発やビジネスロジックに集中できるようになりました。既存の運用フローへの影響を最小限に抑え、スムーズな移行を実現しています。

移行の鍵は、既存システムとの後方互換性を保つハイブリッド構成です。アプリケーションからのリクエストをまずSageMakerのCPUコンテナで受け、前処理を行った後、GPUを要する推論処理のみをBedrockに転送。これにより、既存のAPIや監視ツールを変更することなく、サーバーレスの利点を享受できました。

導入後の効果は顕著です。インフラ選定などの複雑な作業が不要になり、モデルのデプロイ時間は30%短縮されました。コスト面では、従量課金制への移行により、特に開発・テスト環境など利用頻度に波がある場面で効果を発揮し、最大40%のコスト削減を達成しました。

一方で、大規模モデルでは「コールドスタート」と呼ばれる初回起動時の遅延が発生する点は注意が必要です。同社は、遅延が許容できない本番環境では、定期的にエンドポイントにアクセスして「ウォーム」状態を維持する対策を講じています。自社モデルがサポート対象かも事前に確認すべきです。

Salesforceの事例は、サーバーレスAIが本番環境のワークロードにも十分対応できることを示しています。特にトラフィックが変動するAIアプリケーションにおいて、コストと運用の両面で大きなメリットをもたらすでしょう。LLMの自社運用に課題を抱える企業にとって、有力な選択肢となりそうです。

出典：AWS公式

NVIDIAとOracle提携深化、企業AIとソブリンAI加速へ

2025年10月14日 NVIDIA オラクル AI活用アシスタント AI導入エンジニア推論 GPU インフラ提携

企業向けAI基盤を全面強化

新クラスタ「Zettascale10」発表

DBでNIMマイクロサービスをサポート

データ基盤に高速コンピューティング統合

OCIでNVIDIA AI Enterprise提供

国家主権AIで世界展開

アブダビ政府のDXを支援

次世代の市民サービスを構築

データ主権を維持しつつAI活用

世界各国への展開モデルを提示

詳細を見る

NVIDIAとOracleは、年次イベント「Oracle AI World」で、企業向けAIおよびソブリンAI（国家主権AI）分野での提携を大幅に深化させると発表しました。高性能な新コンピューティング基盤の提供や、アブダビ政府のデジタルトランスフォーメーション支援などを通じ、世界的に高まるAI活用ニーズに応えます。この協業は、企業のデータ処理高速化から国家レベルのAI戦略までを包括的に支援するものです。

提携の核となるのが、企業向けAI基盤の全面的な強化です。両社はNVIDIA製GPUで高速化された新クラスター「OCI Zettascale10」を発表。さらに、主力データベース「Oracle Database 26ai」で、推論を効率化するNVIDIA NIMマイクロサービスの利用を可能にし、AI開発のハードルを下げます。

データ処理の高速化も大きな柱です。新たな「Oracle AI Data Platform」には、NVIDIAの高速コンピューティング技術が統合されました。特に、データ分析基盤Apache Sparkの処理を高速化するプラグインにより、コード変更なしでGPUの能力を最大限に引き出せるようになります。

開発者やインフラ担当者の利便性も大きく向上します。NVIDIAのソフトウェア群「NVIDIA AI Enterprise」が、Oracle Cloud Infrastructure（OCI）の管理画面から直接利用可能になりました。これにより、AIアプリケーションの構築・運用・管理が簡素化され、迅速な開発サイクルを実現します。

今回の提携は、企業ユースケースに留まりません。もう一つの大きな柱が、国家レベルのDXを支援するソブリンAIです。両社はアブダビ政府の「AIネイティブ政府」構想を支援。データ主権を国内に保持したまま、最先端のAI技術を活用できるモデルケースを世界に示します。

アブダビでは、2027年までに政府運営をAIネイティブに移行する戦略を掲げています。市民への給付金受給資格の自動通知や、多言語AIアシスタントによる行政サービスなど、すでに具体的な成果が出始めています。「Crawl, Walk, Run」という段階的なアプローチで、着実にAI導入を進めています。

この国家規模のDXは、大きな経済効果も期待されています。アブダビのGDPを2027年までに240億AED（約1兆円）以上押し上げ、5000人超の雇用を創出する見込みです。NVIDIAとOracleの提携は、一国の未来を形作る「国家AIインフラ」の青写真となる可能性を秘めています。

出典：NVIDIA公式 | NVIDIA公式

NVIDIA主導、次世代AI工場の設計図公開

2025年10月13日 NVIDIA サムスンエコシステム推論半導体 GPU インフラデータセンターエネルギーエージェント Intel

新世代AIインフラの設計

`Vera Rubin NVL144`サーバー開発

`Kyber`ラックでGPU高密度化

`100%液冷`設計を採用

AIエージェント向けの高性能化

電力効率を大幅向上

`800VDC`への電圧移行

従来比`150%`以上の電力伝送

銅使用量を`大幅削減`

データセンターの省エネ化

強力なパートナー連携

`50社以上`のパートナーが支援

`Intel`や`Samsung`も参画

オープン標準で開発を加速

詳細を見る

NVIDIAとパートナー企業は、AIの推論需要拡大に対応する次世代AI工場の設計図を公開しました。10月13日にサンノゼで開催されたOCPグローバルサミットで発表されたもので、`800VDC`への電圧移行や`100%液冷`技術が核となります。オープンなエコシステムによる開発で、AIインフラの効率と性能を飛躍的に高める狙いです。

新世代の基盤となるのが、サーバー「Vera Rubin NVL144」と、576個のGPUを搭載可能な「Kyber」ラックです。これらはAIエージェントなど高度な推論処理を想定しており、垂直配置のコンピュートブレードにより、ラックあたりのGPU密度を最大化します。

最大の革新は電力システムです。従来の交流から`800ボルトの直流`（800VDC）へ移行することで、電力伝送効率が150%以上向上します。これにより、銅の使用量を削減し、データセンターの省スペースとコスト削減を実現します。

この挑戦はNVIDIA単独では成し遂げられません。FoxconnやHPE、Vertivなど50社以上のパートナーが、MGXサーバーや800VDC対応の部品、電力システムを開発しています。オープンな標準規格が、迅速な市場投入を可能にしています。

エコシステムはさらに広がりを見せています。IntelやSamsung Foundryが、NVIDIAの高速接続技術「NVLink Fusion」に参画。各社が開発する独自チップをNVIDIA インフラにシームレスに統合し、AIファクトリーの多様化と高速化を後押しします。

NVIDIAが描くのは、特定の企業に閉じない未来です。オープンな連携と標準化が、ギガワット級の巨大AIファクトリーの構築を加速させます。これは、AI時代のインフラにおける新たなパラダイムシフトと言えるでしょう。

出典：NVIDIA公式

AI時代のストレージ、SSDが主役へ

2025年10月13日推論 GPU ハードウェアインフラデータセンターエネルギー投資

ストレージのボトルネック

AI需要でデータが「温かく」なる

HDDは低遅延処理に不向き

並列計算に性能不足

GPU活用を阻害する要因に

SSD導入のメリット

消費電力を大幅に削減

データセンター占有面積を9分の1に

建設資材のCO2を8割削減

GPUのさらなる規模拡大を可能

詳細を見る

AIの普及が加速し、データセンターは深刻なストレージのボトルネックに直面しています。かつて保管されていたコールドデータが、AIモデルの精度向上のために頻繁に利用される「温かいデータ」へと変化。この転換に対応するため、低遅延で高性能なSSD（ソリッドステートドライブ）への移行が、AI時代のインフラ構築における必須戦略となっています。

従来のHDDは、多くの可動部品を持つため、AIが求める低遅延処理や高いIOPS（入出力操作）に対応できません。特にデータへの物理的アクセスが伴う遅延は、リアルタイムな推論や学習の障害となります。大規模化すればするほど、消費電力や冷却コストも増加するのです。

一方、高容量SSDは性能と効率で大きく上回ります。ある研究では、エクサバイト規模のストレージでSSDはHDD比で消費電力を77%削減。データセンターの占有面積も9分の1に抑えられ、省電力・省スペース化で浮いたリソースをGPUの規模拡大に再投資できるのです。

この省スペース化は、サステナビリティにも貢献します。データセンター建設に必要なコンクリートや鋼材の使用量を8割以上削減できるほか、運用終了後のドライブ廃棄数も9割減少。環境負荷の低減が、企業価値向上にも繋がるのです。

これは単なるハードウェアの刷新ではなく、インフラ戦略の根本的な再構築です。今後は、GPUサーバーの熱管理に不可欠な液冷技術とSSDを組み合わせるなど、AIの要求に応える効率的な設計が主流となるでしょう。今こそ、ストレージ戦略を見直す時です。

出典：VentureBeat

Together AI、LLM推論を4倍高速化する新技術

2025年10月10日 NVIDIA Groq AI活用エコシステム AI導入推論半導体 GPU ハードウェアインフラ

静的推論の限界

ワークロード変化で性能劣化

静的投機モデルの精度低下

再学習コストと迅速な陳腐化

適応型システムATLAS

リアルタイムで学習・適応

静的・適応型のデュアルモデル

専用チップに匹敵する処理性能

推論コストと遅延を削減

詳細を見る

AI開発企業Together AIは2025年10月10日、大規模言語モデル（LLM）の推論速度を最大4倍に高速化する新システム「ATLAS」を発表しました。このシステムは、AIの利用状況の変化に合わせてリアルタイムで自己学習する「適応型投機実行」技術を採用。これまで企業のAI導入拡大を妨げてきた、ワークロードの変化に伴う性能劣化という「見えざる壁」を打ち破ることを目指します。

多くの企業が直面する課題は、AIのワークロードが変化すると推論速度が低下する「ワークロードドリフト」です。従来の推論高速化技術で使われる「静的投機モデル」は、一度固定データで訓練されるため、例えば開発言語がPythonからRustに変わるだけで予測精度が急落し、性能が劣化します。この問題はAI活用の拡大における隠れたコストとなっていました。

ATLASは、この課題を独自のデュアルモデル構造で解決します。広範なデータで訓練された安定的な「静的モデル」が基本性能を保証し、軽量な「適応型モデル」が実際のトラフィックから継続的に学習して特化します。さらに制御システムが両者を動的に切り替えることで、利用者は設定不要で常に最適な高速化の恩恵を受けられます。

この高速化の鍵は、計算資源の非効率性を突くアプローチにあります。通常の推論処理はGPUのメモリ性能に依存し、計算能力が十分に活用されていません。ATLASは一度に複数のトークン候補を生成・検証することで、メモリへのアクセス回数を抑えつつ、待機状態にあった計算能力を最大限に引き出し、スループットを劇的に向上させます。

その性能は目覚ましく、NVIDIAのB200 GPU上で特定モデルでは毎秒500トークンを達成。これはGroqなどの専用推論チップに匹敵、あるいは凌駕する水準です。ソフトウェアとアルゴリズムの改良が、高価な専用ハードウェアとの性能差を埋められることを示しており、AIインフラの常識を覆す可能性を秘めています。

ATLASはTogether AIのプラットフォームで追加費用なしで利用可能です。この技術は、AIの利用用途が多様化する企業にとって、性能のボトルネックを解消し、コストを抑えながらAI活用をスケールさせる強力な武器となるでしょう。静的な最適化から動的な適応へと向かうこの動きは、今後のAI推論エコシステム全体に大きな影響を与えそうです。

出典：VentureBeat

脱・大手クラウド、分散ストレージTigrisが挑戦

2025年10月09日 AWS エコシステムエンジニア推論 GPU クラウドデータセンター米国欧州スタートアップ医療資金調達 Andreessen Horowitz

AI時代の新たな課題

AI需要で分散コンピューティングが急増

ストレージは大手クラウドに集中

コンピューティングとデータの距離が課題に

Tigrisが提供する価値

GPUの近くにデータを自動複製

低レイテンシでAIワークロードを高速化

高額なデータ転送料金を回避

成長と今後の展望

シリーズAで2500万ドルを調達

欧州・アジアへデータセンター拡大計画

詳細を見る

米国のスタートアップTigris Dataが、シリーズAラウンドで2500万ドルを調達しました。同社は、AIの普及で需要が急増する分散コンピューティングに対応するため、AWSなど大手クラウドが抱える高コスト・高遅延の問題を解決する分散型データストレージを提供。大手からの脱却を目指す企業の新たな選択肢として注目されています。

生成AIの台頭で、コンピューティングパワーは複数のクラウドや地域に分散する傾向が加速しています。しかしデータストレージの多くは依然として大手3社に集中。この「コンピューティングとデータの距離」が、AIモデルの学習や推論における遅延のボトルネックを生み出しているのです。

Tigrisは、GPUなど計算資源の近くにデータを自動で複製・配置するAIネイティブなストレージ網を構築。これにより開発者は低レイテンシでデータにアクセスでき、AIワークロードを高速かつ低コストで実行可能になります。顧客は、かつて支出の大半を占めたデータ転送料金を不要にできたと証言します。

大手クラウドは、顧客がデータを他サービスへ移行する際に高額な「データ転送料金」を課してきました。TigrisのCEOはこれを「より深い問題の一症状」と指摘。中央集権型のストレージ自体が、分散・高速化するAIエコシステムの要求に応えられていないと強調します。

企業がTigrisを選ぶもう一つの動機は、データ主権の確保です。自社の貴重なデータをAI開発に活用する上で、外部のプラットフォームに依存せず、自らコントロール下に置きたいというニーズが高まっています。特に金融やヘルスケアなど規制の厳しい業界でこの傾向は顕著です。

今回の資金調達はSpark Capitalが主導し、Andreessen Horowitzなども参加。Tigrisは調達資金を元に、既存の米国内3拠点に加え、ヨーロッパやアジアにもデータセンターを拡大する計画です。2021年の設立以来、年8倍のペースで成長しており、今後の展開が期待されます。

出典：TechCrunch

NVIDIA新GPU、AI推論で15倍の投資対効果

2025年10月09日 NVIDIA AI活用推論 GPU ハードウェアエネルギー投資ベンチマーク

圧倒的なパフォーマンス

新ベンチマークで性能・効率ともに最高

GPUあたり毎秒6万トークンの高速処理

ユーザーあたり毎秒1000トークンの応答性

ソフトウェア最適化で性能は継続的に向上

AI工場の新経済性

15倍の投資収益率（ROI）を達成

トークンあたりのコストを5倍削減

前世代比で電力効率が10倍向上

総所有コスト（TCO）を大幅に低減

詳細を見る

NVIDIAは2025年10月9日、同社の最新GPUプラットフォーム「Blackwell」が、新しい独立系AI推論ベンチマーク「InferenceMAX v1」で最高性能と効率性を達成したと発表しました。500万ドルの投資で15倍の収益を生むなど、圧倒的な費用対効果を示し、AIを大規模に展開する企業の新たな選択基準となりそうです。

この新ベンチマークは、AIが単純な応答から複雑な推論へと進化する現状を反映しています。単なる処理速度だけでなく、多様なモデルや実世界のシナリオにおける総計算コストを測定する初の独立系指標であり、その結果は企業の投資判断に直結します。

具体的な経済効果は目覚ましいものがあります。NVIDIA GB200 NVL72システムへの500万ドルの投資は、7500万ドル相当のトークン収益を生み出すと試算されており、投資収益率（ROI）は15倍に達します。これは「AI工場」の経済性を根本から覆すインパクトです。

総所有コスト（TCO）の面でも優位性は明らかです。B200 GPUはソフトウェアの最適化により、100万トークンあたりのコストをわずか2セントにまで削減しました。これは過去2ヶ月で5倍のコスト効率改善にあたり、継続的な性能向上を証明しています。

この圧倒的な性能は、ハードウェアとソフトウェアの緊密な協調設計によって実現されています。最新アーキテクチャに加え、推論ライブラリ「TensorRT-LLM」やオープンソースコミュニティとの連携が、プラットフォーム全体の価値を最大化しています。

AI活用が試行段階から本格的な「AI工場」へと移行する中、性能、コスト、電力効率といった多角的な指標が重要になります。NVIDIAのプラットフォームは、企業のAI投資における収益性を最大化するための強力な基盤となるでしょう。

出典：NVIDIA公式

マイクロソフト、OpenAI向けにNVIDIA最新鋭スパコンを世界初導入

2025年10月09日 OpenAI NVIDIA マイクロソフトネットワーク推論 GPU インフラクラウドデータセンタースーパーコンピューター投資エージェント

世界初の超巨大AI基盤

NVIDIA最新鋭のGB300 NVL72

OpenAIの最先端AI開発向け

Microsoft Azureが本番稼働

推論性能を最大化する専用設計

圧倒的な技術仕様

4,600基超のBlackwell Ultra GPU

超高速ネットワークInfiniBand

独自設計の液冷・電源システム

将来は数十万基規模へ拡張予定

詳細を見る

マイクロソフトは2025年10月9日、NVIDIAの最新AIスーパーコンピューター「GB300 NVL72」を搭載した世界初の大規模クラスターを、パートナーであるOpenAI向けに稼働開始したと発表しました。このシステムは、OpenAIの最も要求の厳しいAI推論ワークロード向けに専用設計されており、次世代AI開発の基盤となります。巨大化するAIの計算需要を巡るインフラ競争が、新たな局面に入ったことを示しています。

今回導入された「GB300 NVL72」は、単なるサーバーの集合体ではありません。72基のNVIDIA Blackwell Ultra GPUと36基のGrace CPUを液冷式の単一ラックに統合した、まさに「AI工場」と呼ぶべきシステムです。これにより、巨大なAIモデルの学習と推論で圧倒的な性能を発揮し、特に複雑な推論やエージェント型AIの処理能力を飛躍的に向上させます。

このスーパーコンピューターは、4,600基を超えるGPUを一つの巨大な計算資源として束ねています。それを実現するのがNVIDIAの先進的なネットワーク技術です。ラック内は超高速の「NVLink」で、クラスター全体は「Quantum-X800 InfiniBand」で接続。データのボトルネックを解消し、システム全体の性能を最大化する設計が施されています。

この発表のタイミングは注目に値します。パートナーであるOpenAIは近年、独自に1兆ドル規模ともされるデータセンター構築計画を進めています。マイクロソフトは、世界34カ国に300以上のデータセンターを持つ自社のクラウド基盤「Azure」の優位性を改めて誇示し、AIインフラのリーダーとしての地位を確固たるものにする狙いがあると考えられます。

マイクロソフトは、今回の導入を「多くのうちの最初の一つ」と位置づけ、将来的には数十万基のBlackwell Ultra GPUを世界中のデータセンターに展開する計画です。AIモデルが数百兆パラメータへと大規模化する未来を見据え、インフラへの先行投資を加速させています。最先端AIの開発競争は、それを支える計算基盤の競争と一体化しているのです。

出典：NVIDIA公式 | TechCrunch

Samsungの超小型AI「TRM」、再帰で巨大LLMを超える

2025年10月08日 Google OpenAI GitHub サムスン Gemini ネットワークエンジニア推論スケーリング則 GPU エネルギー AGI 韓国 MIT 投資ベンチマーク基盤モデル

TRMのパラメーターと仕組み

パラメーター数はわずか700万

既存LLMの1万分の1サイズ

再帰的推論による予測の洗練

低コストで高性能モデルを実現

性能と適用領域

数独や迷路など構造化パズルに特化

特定ベンチマークで巨大LLMを凌駕

設計の簡素化が汎化性能向上に寄与

コードはMITライセンスで公開中

詳細を見る

韓国 Samsung AI研究所の研究者が、新たな超小型AIモデル「TRM（Tiny Recursion Model）」を発表しました。わずか700万パラメーターのこのモデルは、特定の推論ベンチマークにおいて、OpenAIのo3-miniやGoogleのGemini 2.5 Proなど、1万倍以上巨大なLLMの性能を凌駕しています。AI開発における「スケールこそ全て」という従来のパラダイムに対し、低コストで高性能を実現する新たな道筋を示す画期的な成果です。

TRMの最大の特徴は、階層構造を持つ複雑なネットワークを排除し、単一の2層モデルを採用した点です。このモデルは、入力された質問と初期回答に対し、推論ステップを繰り返して自身の予測を再帰的に洗練させます。この反復的な自己修正プロセスにより、深いアーキテクチャをシミュレートし、巨大モデルに匹敵する推論能力を獲得しています。

TRMは、構造化され、視覚的なグリッドベースの問題に特化して設計されました。特にSudoku-Extremeで87.4%の精度を達成し、従来モデル（HRM）の55%から大幅に向上。また、人間の推論は容易だがAIには難解とされるARC-AGI ベンチマークでも、数百万倍のパラメーターを持つ最上位LLMに匹敵する結果を出しています。

開発者は、高額なGPU 投資と電力消費を伴う巨大な基盤モデルへの依存は「罠」だと指摘します。TRMの成功は、複雑性を減らすことで逆に汎化性能が向上するという「Less is More（少ない方が豊か）」の設計思想を裏付けました。この成果は、大規模な計算資源を持たない企業や研究者でも、高性能AIを開発できる可能性を示唆します。

TRMのコードは、商用利用も可能なMITライセンスのもとGitHubでオープンソース公開されています。これにより、企業は特定の推論タスク解決のために、巨大LLMのAPIを利用するのではなく、自社のサーバーで低コストの専用モデルを構築・運用できます。今後は、再帰的推論のスケーリング則や、生成タスクへの応用が焦点となる見込みです。

出典：VentureBeat

AI21が25万トークン対応の小型LLMを発表、エッジAIの経済性を一変

2025年10月08日推論 GPU オンデバイスインフラクラウドデータセンタープライバシーポリシースタートアップコンテキストベンチマークトランスフォーマー

小型モデルの定義変更

30億パラメータのオープンソースLLM

エッジデバイスで25万トークン超を処理

推論速度は従来比2〜4倍高速化

分散型AIの経済性

MambaとTransformerのハイブリッド構造採用

データセンター負荷を減らしコスト構造を改善

高度な推論タスクをデバイスで実行

企業利用の具体例

関数呼び出しやツールルーティングに最適

ローカル処理による高いプライバシー確保

詳細を見る

イスラエルのAIスタートアップAI21 Labsは、30億パラメータの小型オープンソースLLM「Jamba Reasoning 3B」を発表しました。このモデルは、ノートPCやスマートフォンなどのエッジデバイス上で、25万トークン以上という異例の長大なコンテキストウィンドウを処理可能であり、AIインフラストラクチャのコスト構造を根本的に変える可能性を秘めています。

Jamba Reasoning 3Bは、従来のTransformerに加え、メモリ効率に優れたMambaアーキテクチャを組み合わせたハイブリッド構造を採用しています。これにより、小型モデルながら高度な推論能力と長文処理を両立。推論速度は従来のモデルに比べて2〜4倍高速であり、MacBook Pro上でのテストでは毎秒35トークンを処理できることが確認されています。

AI21の共同CEOであるオリ・ゴーシェン氏は、データセンターへの過度な依存が経済的な課題となっていると指摘します。Jamba Reasoning 3Bのような小型モデルをデバイス上で動作させることで、高価なGPUクラスターへの負荷を大幅に軽減し、AIインフラストラクチャのコスト削減に貢献し、分散型AIの未来を推進します。

このモデルは、特に企業が関心を持つユースケースに最適化されています。具体的には、関数呼び出し、ポリシーに基づいた生成、そしてツールルーティングなどのタスクで真価を発揮します。シンプルな業務指示や議事録作成などはデバイス上で完結し、プライバシーの確保にも役立ちます。

Jamba Reasoning 3Bは、同規模の他の小型モデルと比較したベンチマークテストでも優位性を示しました。特に長文理解を伴うIFBenchやHumanity’s Last Examといったテストで最高スコアを獲得。これは、同モデルがサイズを犠牲にすることなく、高度な推論能力を維持していることを示しています。

企業は今後、複雑で重い処理はクラウド上のGPUクラスターに任せ、日常的かつシンプルな処理はエッジデバイスでローカルに実行する「ハイブリッド運用」に移行すると見られています。Jamba Reasoning 3Bは、このハイブリッド戦略の中核となる効率的なローカル処理能力を提供します。

出典：VentureBeat | spectrum.ieee.org

AMDとOpenAI、6GW超大型提携でAI半導体市場の勢力図を変える

2025年10月06日 OpenAI NVIDIA エコシステム半導体 GPU ハードウェアインフラデータセンターサム・アルトマン提携

提携の規模と内容

6GW（ギガワット）分のInstinct GPUを複数世代にわたり導入

2026年後半からInstinct MI450シリーズを1GW展開開始

AMDは「数百億ドル」規模の収益を想定

戦略的な資本連携

OpenAIに最大1億6000万株のAMD株ワラント付与

ワラント行使は導入規模と株価目標達成に連動

OpenAIにAMDの約10%の株式取得オプション

AIインフラ戦略

Nvidia支配に対抗するAMDの市場攻略

OpenAIはAIチップの調達先を多角化

AI需要は天井知らず、コンピューティング能力確保が最優先

詳細を見る

半導体大手AMDとAI開発のOpenAIは10月6日、複数世代にわたるInstinct GPUを供給する総量6ギガワット（GW）に及ぶ超大型戦略的パートナーシップを発表しました。この提携は、AIインフラの構築を急ぐOpenAIの需要に応えるとともに、Nvidiaが圧倒的なシェアを持つAIチップ市場において、AMDが強力な地位を確立する大きな一歩となります。

契約の経済規模は極めて大きく、AMDは今後数年間で「数百億ドル」規模の収益を見込んでいます。最初の展開として、2026年後半に次世代GPUであるInstinct MI450シリーズの1GW導入が開始されます。両社はハードウェアとソフトウェア開発で技術的知見を共有し、AIチップの最適化を加速させる方針です。

本提携の特筆すべき点は、戦略的利益を一致させるための資本連携です。AMDはOpenAIに対し、特定の導入マイルストーンやAMDの株価目標達成に応じて、最大1億6000万株（発行済み株式の約10%相当）の普通株を取得できるワラントを発行しました。

OpenAIは、サム・アルトマンCEOがAIの可能性を最大限に引き出すためには「はるかに多くのコンピューティング能力が必要」と語る通り、大規模なAIインフラの確保を最優先課題としています。同社は先月、Nvidiaとも10GW超のAIデータセンターに関する提携を結んでおり、特定のサプライヤーに依存しない多角化戦略を明確に示しています。

OpenAIはAMDを「中核となる戦略的コンピューティングパートナー」と位置づけ、MI450シリーズ以降の将来世代の技術開発にも深く関与します。これにより、AMDはOpenAIという最先端のユーザーから直接フィードバックを得て、製品ロードマップを最適化できるという相互利益が生まれます。

AIインフラに対する世界的な需要が天井知らずで拡大する中、この巨額なチップ供給契約は、データセンターの「ゴールドラッシュ」を象徴しています。両社は世界で最も野心的なAIインフラ構築を可能にし、AIエコシステム全体の進歩を牽引していく構えです。

出典：OpenAI公式 | The Verge | TechCrunch | Ars Technica | WIRED

MIT、米国大学最強のAIスパコンを公開

2025年10月02日 NVIDIA ネットワークシミュレーション気象専門家 GPU エネルギースーパーコンピューター安全保障米国創薬 MIT

圧倒的な計算能力

米国大学で最強のAIスパコン

ピーク性能は2 AIエクサフロップス

600基以上のNVIDIA製GPU搭載

生成AI研究を加速

生成AIの開発・応用に特化

創薬や新素材設計への応用

気象データ補完や異常検知

幅広い分野への貢献

航空管制や国防分野での実績

ユーザーフレンドリーな設計

エネルギー効率の高い運用も追求

詳細を見る

マサチューセッツ工科大学（MIT）リンカーン研究所は2025年10月2日、米国の大学で最も強力なAIスーパーコンピュータ「TX-GAIN」を公開したと発表しました。このシステムは、生成AIや物理シミュレーション、データ分析といった最先端分野の研究を加速させ、科学技術におけるブレークスルー創出を目的としています。研究者はこの圧倒的な計算能力を活用し、新たなイノベーションを追求します。

TX-GAINの性能は、ピーク時で2 AIエクサフロップス（毎秒200京回のAI向け演算）に達します。AI処理に特化した600基以上のNVIDIA製GPUがこの計算能力を支え、米国の大学でトップ、北東部地域全体でも最強のAIシステムと評価されています。今夏オンライン化されて以来、研究者の注目を集めています。

TX-GAINの名称が示す通り、特に生成AIの開発と応用に力が注がれています。大規模言語モデルだけでなく、レーダー署名の評価、気象データの補完、ネットワークの異常検知、さらには新薬や新素材の設計といった多様な領域で活用が進みます。これまで不可能だった規模のシミュレーションやモデル訓練が可能になります。

リンカーン研究所スーパーコンピューティングセンター（LLSC）は、これまでも国の重要課題解決に貢献してきました。連邦航空局向けの航空機衝突回避システムや、国防総省向けの自律航法モデルの訓練など、社会の安全保障に直結する研究で数々の実績を上げています。TX-GAINはこれらの取り組みをさらに加速させる強力な基盤となります。

LLSCは、専門家でなくてもスパコンを利用できる「インタラクティブ性」を重視し、ラップトップPCのような手軽な操作性を実現。同時に、AIの膨大な電力消費という課題にも向き合い、エネルギー効率の高い運用と省電力化技術の研究にも取り組むなど、持続可能な研究環境の構築を目指しています。

出典：MIT News

高性能LLMをローカルPCで、NVIDIAが活用ガイド公開

2025年10月01日 Google OpenAI NVIDIA エコシステムアシスタント Llama gpt-oss エンジニア経営者学生推論 GPU クラウドプライバシー音声 Ollama Gemma

RTXでLLMを高速化

プライバシーと管理性をローカル環境で確保

サブスクリプション費用が不要

RTX GPUで推論を高速化

高品質なオープンモデルを活用

主要な最適化ツール

簡単操作のOllamaで手軽に開始

多機能なLM Studioでモデルを試用

AnythingLLMで独自AIを構築

これらツールのパフォーマンス向上を実現

詳細を見る

NVIDIAは、同社のRTX搭載PC上で大規模言語モデル（LLM）をローカル環境で実行するためのガイドを公開しました。プライバシー保護やサブスクリプション費用の削減を求める声が高まる中、OllamaやLM Studioといったオープンソースツールを最適化し、高性能なAI体験を手軽に実現する方法を提示しています。これにより、開発者や研究者だけでなく、一般ユーザーによるLLM活用も本格化しそうです。

これまでクラウド経由が主流だったLLMですが、なぜ今、ローカル環境での実行が注目されるのでしょうか。最大の理由は、プライバシーとデータ管理の向上です。機密情報を外部に出すことなく、手元のPCで安全に処理できます。また、月々の利用料も不要で、高品質なオープンモデルが登場したことも、この流れを後押ししています。

手軽に始めるための一つの選択肢が、オープンソースツール「Ollama」です。NVIDIAはOllamaと協力し、RTX GPU上でのパフォーマンスを大幅に向上させました。特にOpenAIのgpt-oss-20BモデルやGoogleのGemma 3モデルで最適化が進んでおり、メモリ使用効率の改善やマルチGPU対応も強化されています。

より専門的な利用には、人気のllama.cppを基盤とする「LM Studio」が適しています。こちらもNVIDIAとの連携で最適化が進み、最新のNVIDIA Nemotron Nano v2モデルをサポート。さらに、推論を最大20%高速化するFlash Attentionが標準で有効になるなど、RTX GPUの性能を最大限に引き出します。

ローカルLLMの真価は、独自のAIアシスタント構築で発揮されます。例えば「AnythingLLM」を使えば、講義資料や教科書を読み込ませ、学生一人ひとりに合わせた学習支援ツールを作成できます。ファイル数や利用期間の制限なく対話できるため、長期間にわたる文脈を理解した、よりパーソナルなAIが実現可能です。

NVIDIAの取り組みは汎用ツールに留まりません。ゲームPCの最適化を支援するAIアシスタント「Project G-Assist」も更新され、音声やテキストでラップトップの設定を直接変更できるようになりました。AI技術をより身近なPC操作に統合する試みと言えるでしょう。このように、RTX PCを基盤としたローカルAIのエコシステムが着実に拡大しています。

プライバシーを確保しつつ、高速かつ低コストでAIを動かす環境が整いつつあります。NVIDIAの推進するローカルLLM活用は、経営者やエンジニアにとって、自社のデータ資産を活かした新たな価値創出の好機となるでしょう。

出典：NVIDIA公式

元OpenAIムラティ氏、AI調整ツールTinker公開

2025年10月01日 OpenAI Meta ChatGPT Qwen Llama エンジニア創業者強化学習ファインチューニング GPU スタートアップ評価額オープンソースモデル

元OpenAI幹部の新挑戦

ミラ・ムラティ氏が新会社を設立

初製品はAIモデル調整ツールTinker

評価額120億ドルの大型スタートアップ

TinkerでAI開発を民主化

専門的な調整作業をAPIで自動化

強化学習でモデルの新たな能力を開拓

Llamaなどオープンソースモデルに対応

調整済みモデルはダウンロードして自由に利用可

詳細を見る

元OpenAIの最高技術責任者（CTO）であったミラ・ムラティ氏が共同設立した新興企業「Thinking Machines Lab」は2025年10月1日、初の製品となるAIモデル調整ツール「Tinker」を発表しました。このツールは、最先端AIモデルのカスタマイズ（ファインチューニング）を自動化し、より多くの開発者や研究者が高度なAI技術を利用できるようにすることを目的としています。

「Tinker」は、これまで専門知識と多大な計算資源を要したモデルのファインチューニング作業を大幅に簡略化します。GPUクラスタの管理や大規模な学習プロセスの安定化といった複雑な作業を自動化し、ユーザーはAPIを通じて数行のコードを記述するだけで、独自のAIモデルを作成できるようになります。

特に注目されるのが、強化学習（RL）の活用です。共同創業者でChatGPT開発にも関わったジョン・シュルマン氏が主導するこの技術により、人間のフィードバックを通じてモデルの対話能力や問題解決能力を飛躍的に向上させることが可能です。Tinkerは、この「秘伝のタレ」とも言える技術を開発者に提供します。

Thinking Machines Labには、ムラティ氏をはじめOpenAIの元共同創業者や研究担当副社長など、トップレベルの人材が集結しています。同社は製品発表前にすでに20億ドルのシード資金を調達し、評価額は120億ドルに達するなど、業界から極めて高い期待が寄せられています。

現在、TinkerはMeta社の「Llama」やAlibaba社の「Qwen」といったオープンソースモデルに対応しています。大手テック企業がモデルを非公開にする傾向が強まる中、同社はオープンなアプローチを推進することで、AI研究のさらなる発展と民主化を目指す考えです。これにより、イノベーションの加速が期待されます。

出典：WIRED

NVIDIA、GPUで量子計算の三大課題を解決

2025年09月30日 NVIDIA AWS エコシステムシミュレーションエンジニア経営者半導体 GPU 開発ツール TRL

量子計算の三大課題を解決

実用化を阻む3つのボトルネック

GPU並列処理で計算量を克服

CUDA-Qなど開発ツール群を提供

大学や企業との連携で研究を加速

驚異的な性能向上事例

AIによるエラー訂正を50倍高速化

回路コンパイルを最大600倍高速化

量子シミュレーションを最大4,000倍高速化

詳細を見る

NVIDIAは、同社のアクセラレーテッド・コンピューティング技術が、量子コンピューティングの実用化に向けた最大の課題を解決していると発表しました。GPUの並列処理能力を活用し、量子分野の「エラー訂正」「回路コンパイル」「シミュレーション」という三大課題でブレークスルーを生み出しています。これにより、研究開発が大幅に加速され、産業応用の可能性が現実味を帯びてきました。

最初の課題は「量子エラー訂正」です。量子コンピュータはノイズに弱く、正確な計算のためにはエラーの検出と訂正が不可欠です。NVIDIAは、大学やQuEra社との協業で、AIを活用したデコーダーを開発。CUDA-Qなどのライブラリを用いることで、デコード処理を最大50倍高速化し、精度も向上させることに成功しました。

次に「量子回路コンパイル」の最適化です。これは、抽象的な量子アルゴリズムを物理的な量子チップ上の量子ビットに最適配置する複雑なプロセスです。NVIDIAはQ-CTRL社などと連携し、GPUで高速化する新手法を開発。この最適化プロセスにおいて、従来比で最大600倍の高速化を達成しました。

最後に、より良い量子ビット設計に不可欠な「高忠実度シミュレーション」です。量子システムの複雑な挙動を正確に予測するには膨大な計算が必要となります。NVIDIAはcuQuantum SDKをオープンソースツールキットと統合し、大規模なシミュレーションで最大4,000倍の性能向上を実現。AWSなども協力しています。

NVIDIAのプラットフォームは、単に計算を速くするだけでなく、量子研究のエコシステム全体を加速させる基盤技術となっています。経営者やエンジニアにとって、これらのツールをいち早く理解し活用することが、未来の市場で競争優位を築く鍵となるでしょう。

出典：NVIDIA公式

NVIDIA、ロボット学習を加速する物理エンジン公開

2025年09月30日 Google NVIDIA エコシステムシミュレーションデジタルツイン GPU ロボット基盤モデル Google DeepMind

新物理エンジンNewton

Google、Disneyと共同開発

GPUで高速化されたシミュレーション

複雑な人型ロボットの学習を推進

Linux財団が管理するオープンソース

開発エコシステムの強化

基盤となるOpenUSDフレームワーク

新モデル「Isaac GR00T」も公開

主要ロボット企業が採用を開始

「シム・ファースト」開発の加速

詳細を見る

NVIDIAは今週開催のロボット学習カンファレンスで、Google DeepMindやDisney Researchと共同開発した新しい物理エンジン「Newton」をオープンソースとして公開しました。人型ロボットなど複雑な動作が求められる物理AIの開発を、現実世界での実証前にシミュレーションで高速化・安全化させるのが狙いです。

Newtonは、NVIDIAのGPU高速化技術「Warp」と3Dデータ標準「OpenUSD」を基盤に構築されています。従来の物理エンジンでは限界があった、人型ロボットの持つ多数の関節やバランス制御といった複雑な動きを、より正確かつ高速にシミュレーション上で学習させることが可能です。

ロボット開発では、実機での試行錯誤にかかる時間やコスト、危険性が課題でした。仮想空間で先に訓練を行う「シム・ファースト」のアプローチは、この課題を解決します。OpenUSDで構築された忠実なデジタルツイン環境が、ロボットのスキル獲得を飛躍的に効率化するのです。

この取り組みはNewton単体にとどまりません。ロボット向け基盤モデル「Isaac GR00T」や開発フレームワーク「Isaac Lab」もアップデートされ、包括的な開発エコシステムが強化されています。既にAgility Roboticsなど主要企業が採用しており、その実用性が示されています。

Linux財団が管理するオープンソースとして公開されたことで、Newtonは今後のロボット開発の新たな標準となる可能性があります。開発の参入障壁を下げ、工場や病院など多様な現場で人間と協働するロボットの実現を大きく前進させるでしょう。

出典：NVIDIA公式

AIの電力危機、MITが示す技術的解決策

2025年09月30日専門家半導体 GPU ハードウェアデータセンターエネルギー電力需要太陽光発電画像日本 MIT

急増するAIの環境負荷

2030年にデータセンター電力需要が倍増

日本の総消費電力を上回る規模

需要増の60%を化石燃料に依存

ハード・ソフト両面の対策

GPU出力を抑える省エネ運用

アルゴリズム改善で計算量を削減

再生可能エネルギー利用の最適化

AIで気候変動を解決

AIによる再エネ導入の加速

プロジェクトの気候影響スコア化

詳細を見る

マサチューセッツ工科大学（MIT）の研究者らが、急速に拡大する生成AIの環境負荷に対する具体的な解決策を提示しています。国際エネルギー機関（IEA）によると、データセンターの電力需要は2030年までに倍増し、日本の総消費電力を上回る見込みです。この課題に対し、研究者らはハードウェアの効率運用、アルゴリズムの改善、AI自身を活用した気候変動対策など、多角的なアプローチを提唱しています。

AIの電力消費は、もはや看過できないレベルに達しつつあります。ゴールドマン・サックスの分析によれば、データセンターの電力需要増の約60%が化石燃料で賄われ、世界の炭素排出量を約2.2億トン増加させると予測されています。これは、運用時の電力だけでなく、データセンター建設時に排出される「体現炭素」も考慮に入れる必要がある、と専門家は警鐘を鳴らします。

対策の第一歩は、ハードウェアの運用効率化です。MITの研究では、データセンターのGPU（画像処理半導体）の出力を通常の3割程度に抑えても、AIモデルの性能への影響は最小限であることが示されました。これにより消費電力を大幅に削減できます。また、モデルの学習精度が一定水準に達した時点で処理を停止するなど、運用の工夫が排出量削減に直結します。

ハードウェア以上に大きな効果が期待されるのが、アルゴリズムの改善です。MITのニール・トンプソン氏は、アルゴリズムの効率改善により、同じタスクをより少ない計算量で実行できる「Negaflop（ネガフロップ）」という概念を提唱。モデル構造の最適化により、計算効率は8～9ヶ月で倍増しており、これが最も重要な環境負荷削減策だと指摘しています。

エネルギー利用の最適化も鍵となります。太陽光や風力など、再生可能エネルギーの供給量が多い時間帯に計算処理を分散させることで、データセンターのカーボンフットプリントを削減できます。また、AIワークロードを柔軟に調整する「スマートデータセンター」構想や、余剰電力を蓄える長時間エネルギー貯蔵ユニットの活用も有効な戦略です。

興味深いことに、AI自身がこの問題の解決策となり得ます。例えば、AIを用いて再生可能エネルギー発電所の送電網への接続プロセスを高速化したり、太陽光・風力発電量を高精度に予測したりすることが可能です。AIは複雑なシステムの最適化を得意としており、クリーンエネルギー技術の開発・導入を加速させる強力なツールとなるでしょう。

生成AIの持続可能な発展のためには、こうした技術的対策に加え、企業、規制当局、研究機関が連携し、包括的に取り組むことが不可欠です。MITの研究者らは、AIプロジェクトの気候への影響を総合的に評価するフレームワークも開発しており、産官学の協力を通じて、技術革新と環境保全の両立を目指す必要があると結論付けています。

出典：MIT News

OpenAI拡張へ、AIデータセンターに巨額投資

2025年09月26日 OpenAI NVIDIA オラクルソフトバンク ChatGPT エコシステム半導体 GPU インフラクラウドデータセンタースーパーコンピューターシリコンバレー投資提携資金調達スターゲイト・プロジェクト

AI覇権狙う巨額投資

Nvidia、OpenAIに最大1000億ドル投資

新AIデータセンター5拠点の建設計画

Oracle、資金調達で180億ドルの社債発行

次世代AI開発の布石

将来版ChatGPTの計算能力を確保

新機能提供のリソース制約が背景

AIサービスの安定供給と事業拡大が狙い

詳細を見る

Nvidia、Oracle、Softbankなどのシリコンバレー大手企業が、OpenAIのAI開発能力を強化するため、AIデータセンターに数千億ドル規模の巨額投資を行っていることが明らかになりました。この動きは、将来版ChatGPTなど、より高度なAIモデルのトレーニングとサービス提供に必要な計算能力を確保するもので、AIインフラを巡る覇権争いが激化していることを示しています。

中でも注目されるのが、半導体大手Nvidiaによる投資です。同社はOpenAIに対し、最大で1000億ドル（約15兆円）を投じる計画を発表しました。これはAIの計算処理に不可欠なGPUを供給するだけでなく、OpenAIとの関係を強化し、AIエコシステムの中心に位置し続けるための戦略的な一手と見られます。

一方、OpenAI自身もインフラ増強を加速させています。同社はOracleおよびSoftbankと提携し、「Stargate（スターゲイト）」と名付けられたAIスーパーコンピューターを含む、5つの新しいデータセンターを建設する計画です。これにより、今後数年間でギガワット級の新たな計算能力が確保される見込みです。

この巨大プロジェクトを資金面で支えるのがOracleです。同社はデータセンター建設費用を賄うため、180億ドル（約2.7兆円）という異例の規模の社債を発行しました。クラウド事業で後れを取っていたOracleにとって、OpenAIとの提携はAIインフラ市場での存在感を一気に高める好機となっています。

なぜこれほど大規模な投資が必要なのでしょうか。その背景には、OpenAIが直面する計算能力の制約があります。同社が最近発表した新機能「Pulse」は、ユーザーに合わせた朝のブリーフィングを自動生成しますが、膨大な計算量を要するため、現在は月額200ドルの最上位プラン加入者のみに提供が限定されています。

今回の一連の投資は、単なる設備増強にとどまりません。AIが社会インフラとなる未来を見据え、その基盤を誰が握るのかという、IT大手による壮大な主導権争いの表れと言えるでしょう。これらの投資が、どのような革新的なAIサービスを生み出すのか、世界が注目しています。

出典：TechCrunch | TechCrunch | TechCrunch

ベトナム、NVIDIAと連携し「国家AI」戦略を加速

2025年09月25日 NVIDIA エコシステム数学エンジニア GPU インフラデータセンタープライバシー安全保障スタートアップ Jensen Huang

詳細を見る

NVIDIAは9月23日、ベトナムのホーチミン市で「AI Day」を開催しました。イベントには800人以上が参加し、ベトナム政府は「国家AI（Sovereign AI）」を経済戦略の中心に据え、国を挙げて推進する姿勢を強調しました。NVIDIAはAIエコシステムの構築や地域に特化したデータ・モデルの重要性を指摘。ベトナムは2030年までに東南アジアのAI先進国トップ4入りを目指します。「国家AI」を成功させる鍵は何でしょうか。NVIDIA幹部は5つの重要要素を挙げました。具体的には、①AIの必要性に対する国家的な認識、②開発者や企業から成るエコシステム、③AI人材の育成、④言語や文化に合わせたAIモデルとデータ、⑤国内で管理・運営される「AIファクトリー」です。これらが成功の基盤となります。ベトナムは野心的な目標を掲げています。2030年までに東南アジアにおけるAI先進国トップ4に入り、3つの国家データセンターを建設する計画です。FPTソフトウェアのCEOは「技術における主権は、国家安全保障や国民のプライバシー保護にも繋がる」と述べ、国家AIの重要性を強調しました。ベトナムのAIエコシステムは着実に成長しています。国内には100社以上のAI関連スタートアップが存在し、約10万人のAI人材が活躍しています。NVIDIAのジェンスン・フアンCEOも、ベトナムの若者の数学や科学技術分野での優秀さを高く評価しており、将来の技術開発における強固な基盤になると期待を寄せています。現地のパートナー企業も具体的な動きを見せています。IT大手FPTは、NVIDIA製GPUを活用した国内AIファクトリーの構築を進めています。また、GreenNodeやZaloといった企業は、ベトナム特有の言語や文化に合わせた大規模言語モデル（LLM）の開発に取り組んでおり、国産AI技術の確立を目指しています。

出典：NVIDIA公式

MS、Windows MLを正式公開。AIアプリ開発を加速へ

2025年09月25日マイクロソフト Windows AI活用エコシステム画像編集エンジニアディープフェイク GPU ハードウェアプライバシー画像動画 Adobe

詳細を見る

マイクロソフトは9月25日、開発者がAI機能をWindowsアプリに容易に組み込めるプラットフォーム「Windows ML」を正式公開しました。これにより、応答性が高く、プライバシーに配慮し、コスト効率の良いAI体験の構築を支援します。Windows 11 24H2以降で利用可能で、PCのCPUやGPU、NPUを最適に活用します。AdobeやMcAfeeなどのソフトウェア企業が既に対応を進めています。 Windows MLは、PC搭載のCPU、GPU、NPU（Neural Processing Unit）を最適に使い分ける「ハードウェア抽象化レイヤー」として機能します。AIの処理内容に応じて最適なハードウェアを自動で割り当てるため、開発者はアプリケーションの性能を最大限引き出せます。これにより、複雑なハードウェア管理から解放されるのです。既にAdobe、McAfee、Topaz Labsといった大手ソフトウェア企業が、開発段階からWindows MLの採用を進めています。各社は今後リリースする製品に、同プラットフォームを活用したAI機能を搭載する計画です。Windows エコシステム全体でのAI活用の加速が期待されます。具体的な活用例として、Adobeは動画編集ソフトでNPUを使い高速なシーン検出を実現します。McAfeeはSNS上のディープフェイク動画や詐欺の自動検出に活用。Topaz Labsも画像編集ソフトのAI機能開発に利用しており、応用分野は多岐にわたります。マイクロソフトはWindows MLを通じて、WindowsアプリへのAI実装を効率化し、OS自体の魅力を高める狙いです。ローカルでのAI処理は応答速度やプライバシー保護、コスト削減に繋がります。今後、同様のAI体験を提供するアプリの増加が見込まれます。

出典：The Verge

Microsoft、AIチップ冷却新技術で性能向上と省エネ両立へ

2025年09月25日マイクロソフト半導体 GPU データセンターエネルギー投資

詳細を見る

Microsoftは2025年9月25日、AIチップの性能向上とデータセンターの省エネ化を両立する新冷却技術「マイクロフルイディクス」の研究成果を発表しました。この技術は、チップの裏面に直接微細な溝を彫り、冷却液を流すことで発熱を効率的に抑えます。実験では従来の冷却方式より最大3倍高い熱除去性能を示しており、次世代AIチップの開発や持続可能性向上に繋がると期待されています。新技術の核心は、チップの裏面に髪の毛ほどの幅の溝を直接形成し、そこに冷却液を循環させる点にあります。同社はAIを活用して最も効率的な冷却経路を設計しました。熱源である半導体に冷却液が直接触れるため、熱を素早く奪うことが可能です。これにより、GPUの最大温度上昇を65%削減できたと報告しています。なぜこれほど効率的なのでしょうか。従来の主流であるコールドプレート方式では、チップと冷却液の間に熱伝導を妨げる層が存在しました。マイクロフルイディクスではこの中間層をなくすことで、熱伝達の効率を飛躍的に高めました。その結果、冷却液を過度に冷やす必要がなくなり、冷却システム全体の消費電力削減に貢献します。これはデータセンターの運用コストに直結する利点です。この高い冷却性能は、チップの処理能力を意図的に高める「オーバークロック」をより安全に行うことを可能にします。これにより、サーバーはピーク時の需要にも柔軟に対応でき、結果的にデータセンター全体のサーバー台数を削減できる可能性があります。設備投資の抑制や省スペース化にも繋がるでしょう。さらに、この技術はこれまで発熱が大きな障壁となっていた3Dチップアーキテクチャの実現にも道を開きます。半導体を立体的に積層できれば、処理能力は飛躍的に向上します。マイクロフルイディクスは、ムーアの法則の先を行く次世代AIチップ開発を加速させる鍵となるかもしれません。ただし、この技術はまだ研究開発段階であり、製造プロセスへの統合やサプライチェーンの構築といった実用化への課題は残っています。Microsoftは具体的な導入時期を示していませんが、業界全体の持続可能な発展に貢献する技術として、今後の動向が注目されます。

出典：The Verge

Clarifai、AI推論エンジンで処理速度2倍・コスト4割減

2025年09月25日推論 GPU ハードウェアインフラデータセンターコーディングエージェントベンチマーク

詳細を見る

AIプラットフォームのClarifaiは25日、AIモデルの実行速度を2倍にし、コストを40%削減する新しい推論エンジンを発表しました。既存ハードウェアの性能を最大限引き出す多様な最適化技術を搭載し、複雑なAIの計算負荷増大に対応します。新エンジンの性能は第三者機関によるベンチマークテストで検証済みです。スループット（処理能力）とレイテンシー（遅延）の両方で業界最高水準を記録。これにより、同じハードウェアでより多くの処理を高速に実行できることが客観的に示されました。高速化は、学習済みAIモデルを運用する「推論」処理に特化した最適化で実現されます。同社CEOによると、CUDAカーネルレベルの最適化から高度な投機的デコーディング技術まで、様々なソフトウェア技術を組み合わせているとのことです。開発の背景には、単一の指示で複数ステップの思考を要するエージェント型AIの台頭があります。こうしたモデルは計算負荷が極めて高く、推論コストの増大が課題でした。新エンジンは特にこうした多段階処理を行うモデル向けに調整されています。 AIブームによるGPU需要の急増を受け、同社はAIの計算オーケストレーション（最適管理）に注力しています。CEOは「巨大データセンター需要に対し、アルゴリズム革新はまだ終わっていない」と述べ、ハードウェア増強だけでなくソフトウェアによる最適化の重要性を強調しました。

出典：TechCrunch

NVIDIA、AIモデル群Nemotronを無償公開開発加速へ

2025年09月24日 NVIDIA Meta GitHub Qwen エコシステム数学 Llama エンジニア推論推論モデル GPU セキュリティコーディング開発ツールエージェント Hugging Face

詳細を見る

NVIDIAは9月24日、マルチモーダルAIモデルファミリー「Nemotron」をオープンソースとして公開しました。NemotronにはAIモデル、データセット、開発ツール群が含まれ、研究および商用目的で利用可能です。GitHubなどを通じて提供され、開発者は透明性の高いAIを迅速に構築できます。これにより、あらゆる規模の企業でAI開発の加速が期待されます。 Nemotronは、AI開発の全段階を効率化するオープンソース技術群です。大学院レベルの科学的推論や高度な数学、コーディングに優れた最先端のAIモデルが含まれます。さらに、モデルの学習に使われたデータセットや、AIを高速かつ低コストで実行するための数値精度アルゴリズムなども提供されます。なぜNVIDIAはオープンソース化に踏み切ったのでしょうか。それは、広範な問題解決を可能にする「汎用知能」と、各業界特有の課題に対応する「特化知能」の両方を向上させるためです。同社はNemotronを通じて、あらゆる産業でAIの導入を大規模に推進することを目指しています。既に多くの企業がNemotronの活用を進めています。例えば、セキュリティ企業のCrowdStrikeは、AIエージェントのエコシステム強化に利用しています。また、DataRobotはNemotronを基に、より高速でコスト効率の高い推論モデルを開発するなど、具体的な成果が出始めています。 NVIDIAはNemotron開発で得た知見を次世代GPUの設計に活かす一方、コミュニティの技術も積極的に取り入れています。Alibabaの「Qwen」やMetaの「Llama」といったオープンモデルの技術を活用し、Nemotronのデータセットや機能を強化するなど、エコシステム全体での発展を目指しています。開発者はGitHubやHugging Face、OpenRouterを通じてNemotronを利用開始できます。NVIDIA RTX PCユーザーはllama.cppフレームワーク経由でのアクセスも可能です。同社は今後もイベントなどを通じて、開発者コミュニティとの連携を深めていく方針です。

出典：NVIDIA公式

Cohere、企業価値70億ドルに到達、AMDと提携でNvidiaに対抗

2025年09月24日 OpenAI Anthropic NVIDIA ネットワーク投資家半導体 GPU 投資提携トランスフォーマー Cohere

詳細を見る

企業向けAIモデル開発のCohereは9月24日、1億ドルを追加で調達し、企業価値が70億ドルに達したと発表しました。これは8月の5億ドル調達に続くものです。同時に半導体大手AMDとの提携も締結し、NvidiaとOpenAIの連合に対抗する動きを見せています。この提携は、AI市場の勢力図に変化をもたらす可能性を秘めています。今回の提携の核心は、CohereのAIモデル群がAMDのGPU「Instinct」で動作可能になる点です。これは市場を独占するNvidia製GPUへの依存を減らす動きと言えるでしょう。さらに、AMD自身もCohereの顧客となり、自社内でAIモデルを活用します。CohereはNvidia製GPUのサポートも継続するとしています。 Cohereは2019年、生成AIブームの火付け役となった論文「Transformer」の共著者によって設立された有力企業です。しかし、OpenAI（企業価値5000億ドルとの報道）やAnthropic（同1830億ドル）といった競合に比べると、企業価値の規模では後塵を拝しているのが現状です。 Cohereは特に「AI主権」を重視する企業をターゲットにしています。これは、自社のデータやAIモデルを外部の事業者に委ねず、自国・自社内で管理したいというニーズに応える戦略です。今回のラウンドに国際的なネットワークを持つ投資家が新たに参加したことも、この戦略を裏付けています。

出典：TechCrunch

NVIDIA、AIでエネルギー効率化を加速脱炭素社会へ貢献

2025年09月23日 NVIDIA AI導入デザイン気象エンジニア推論 GPU インフラデータセンターエネルギースタートアップ投資

詳細を見る

NVIDIAは2025年9月23日からニューヨーク市で開催された「クライメート・ウィークNYC」で、AIがエネルギー効率化の鍵を握ることを発表しました。「アクセラレーテッド・コンピューティングは持続可能なコンピューティングである」と強調し、LLMの推論効率が過去10年で10万倍に向上した実績をその根拠として挙げています。 AIはエネルギー消費を増やすだけでなく、それを上回る削減効果をもたらすのでしょうか。調査によれば、AIの全面的な導入により2035年には産業・運輸・建設の3分野で約4.5%のエネルギー需要が削減されると予測されています。AIは電力網の異常を迅速に検知し、安定供給に貢献するなどインフラ最適化を可能にします。同社はスタートアップとの連携も加速させています。投資先のEmerald AI社と協力し、電力網に優しくエネルギー効率の高い「AIファクトリー」の新たな参照設計（リファレンスデザイン）を発表しました。あらゆるエネルギーが知能生成に直接貢献するよう最適化された、次世代データセンターの実現を目指します。 NVIDIAは自社製品の環境負荷低減にも注力しています。最新GPUプラットフォーム「HGX B200」は、前世代の「HGX H100」に比べ、実装炭素排出強度を24%削減しました。今後も新製品のカーボンフットプリント概要を公表し、透明性を高めていく方針です。自社オフィスも100%再生可能エネルギーで運営しています。さらに、AIは気候変動予測の精度向上にも貢献します。高解像度のAI気象モデルは、エネルギーシステムの強靭性を高めます。同社の「Earth-2」プラットフォームは、開発者が地球規模の気象・気候予測アプリケーションを構築するのを支援し、再生可能エネルギーの導入拡大にも繋がる重要な技術となっています。

出典：NVIDIA公式

Google Cloud、巨大AI企業追わずスタートアップ支援で勝負

2025年09月23日 Google OpenAI Anthropic Amazon オラクル AWS エコシステム GPU インフラスタートアップ投資

詳細を見る

Google Cloudのフランシス・デスーザ最高執行責任者（COO）が、ポッドキャスト番組で同社のAI戦略を語りました。競合がOpenAIなど巨大AI企業との大型契約を獲得する中、同社はスタートアップ企業の支援に注力することで差別化を図る方針です。AI業界の複雑な競争環境やGPU不足への対応についても言及し、独自の市場戦略を明らかにしました。 AmazonのAWSやOracleがOpenAIやAnthropicといった巨大AI企業との大型契約を獲得する一方、Google Cloudは異なる戦略をとります。特定の巨大企業に依存せず、幅広いスタートアップを顧客として取り込むことで、エコシステム全体の成長を促し、競争力を維持する考えです。 AI業界では、インフラ提供とアプリ開発で企業間の関係が複雑化しています。例えばGoogleは、Cloudサービスを提供しつつ、生成AI分野では自らが競合他社と争います。さらに競合企業に出資することもあり、協力と競争が入り混じる現状が指摘されました。 AI開発に不可欠なGPUの不足は業界全体の課題です。しかし、デスーザ氏はこの状況を顧客獲得の好機と捉えています。安定した計算資源を提供することで新規顧客を引きつけ、長期的な関係を築く戦略の一環として、この課題に取り組む姿勢を示しました。

出典：TechCrunch

LLMの情報漏洩対策、準同型暗号でデータを秘匿したまま処理

2025年09月23日 Google AI活用数学推論機械学習リスクデータ漏洩 GPU ハードウェアクラウドプライバシー ASI 医療プロンプト

詳細を見る

プライバシー技術専門企業のDuality社は、大規模言語モデル（LLM）への問い合わせを秘匿したまま処理するフレームワークを開発しました。データを暗号化したまま計算できる完全準同型暗号（FHE）という技術を活用し、ユーザーの質問とLLMの回答をすべて暗号化します。これにより、企業の機密情報や個人情報を含むやり取りでも、情報漏洩のリスクを懸念することなくLLMの恩恵を受けられるようになります。このフレームワークの核心は、FHEによるエンドツーエンドの機密性保護です。ユーザーが入力したプロンプトはまずFHEで暗号化され、LLMに送信されます。LLMはデータを復号することなく暗号化された状態で処理を行い、生成した回答も暗号化したままユーザーに返します。最終的な結果は、ユーザーの手元でのみ復号されるため、途中でデータが盗み見られる心配がありません。 Duality社が開発したプロトタイプは、現在GoogleのBERTモデルなど、比較的小規模なモデルに対応しています。FHEとLLMの互換性を確保するため、一部の複雑な数学関数を近似値に置き換えるなどの調整が施されています。しかし、この変更によってもモデルの再トレーニングは不要で、通常のLLMと同様に機能する点が特長です。 FHEは量子コンピュータにも耐えうる高い安全性を誇る一方、大きな課題も抱えています。それは計算速度の遅さです。暗号化によってデータサイズが膨張し、大量のメモリを消費します。また、暗号文のノイズを定期的に除去する「ブートストラッピング」という処理も計算負荷が高く、実用化のボトルネックとなってきました。 Duality社はこれらの課題に対し、アルゴリズムの改良で挑んでいます。特に機械学習に適した「CKKS」というFHE方式を改善し、効率的な計算を実現しました。同社はこの技術をオープンソースライブラリ「OpenFHE」で公開しており、コミュニティと連携して技術の発展を加速させています。アルゴリズムの改良に加え、ハードウェアによる高速化も重要な鍵となります。GPUやASIC（特定用途向け集積回路）といった専用ハードウェアを活用することで、FHEの処理速度を100倍から1000倍に向上させることが可能だとされています。Duality社もこの点を重視し、OpenFHEにハードウェアを切り替えられる設計を取り入れています。 FHEで保護されたLLMは、様々な分野で革新をもたらす可能性があります。例えば、医療分野では個人情報を秘匿したまま臨床結果を分析したり、金融機関では口座情報を明かすことなく不正検知を行ったりできます。機密データをクラウドで安全に扱う道も開かれ、AI活用の可能性が大きく広がるでしょう。

出典：spectrum.ieee.org

NVIDIA、OpenAIに最大14兆円投資巨大AI基盤構築

詳細を見る

半導体大手のNVIDIAと「ChatGPT」を開発するOpenAIは2025年9月22日、AI開発のインフラを共同で構築する戦略的パートナーシップを発表しました。NVIDIAは、OpenAIが建設するAIデータセンターの規模に応じて、最大1000億ドル（約14兆円）を段階的に投資します。OpenAIはNVIDIA製のGPUを数百万個規模で導入し、少なくとも10ギガワットの計算能力を確保する計画です。次世代AIモデルの開発・運用に不可欠な膨大な計算資源を確保する狙いがあります。今回の提携は、NVIDIAのジェンスン・フアンCEOが「史上最大のAIインフラプロジェクト」と評する大規模なものです。OpenAIは、NVIDIAの次世代プラットフォーム「Vera Rubin」を含むシステムを導入。OpenAIのサム・アルトマンCEOは「計算インフラは未来経済の基盤になる」と述べ、AIのブレークスルー創出への期待を示しました。今後のAI開発の行方を大きく左右する動きとなりそうです。 OpenAIはこれまで、最大の投資家であるMicrosoftのクラウドに大きく依存してきました。しかし、今年1月に提携内容を変更して以降、Oracleとの大規模契約など、計算資源の調達先を積極的に多様化しています。今回の提携もその戦略を加速させるものです。特定の企業への依存リスクを低減し、AI開発の主導権を維持する狙いがうかがえます。 NVIDIAによる投資は、OpenAIがNVIDIA製GPUを購入するための資金となり、最終的にNVIDIAの売上に還流する構造です。市場関係者はこれを「好循環」と見ており、AIインフラ市場における同社の支配的地位をさらに強固にする動きとして評価しています。AIの需要拡大が自社の成長に直結するビジネスモデルを確立したと言えるでしょう。計画されている10ギガワットという電力は、原子力発電所約10基分に相当します。AIデータセンターの電力消費は世界的に急増しており、国際エネルギー機関（IEA）も警鐘を鳴らしています。電力網への負担や環境への影響は、AIの普及における大きな課題となり、解決策として原子力などの活用も模索されています。 AIの能力向上を支えるインフラ投資競争は、業界全体で激化しています。Metaは2028年末までに6000億ドルを投じる計画で、MicrosoftやAmazonも原子力発電所と提携するなど、大規模なデータセンター建設と電力確保に奔走しています。AI競争は、もはやモデル開発だけでなくインフラ確保の競争でもあるのです。今回の計画では、最初のシステムが2026年後半に稼働を開始する予定です。AIが社会に浸透するにつれ、その頭脳を支える「AI工場」の重要性は増すばかりです。この巨大プロジェクトの成否は、AI業界全体の未来を左右する可能性があります。企業は自社のAI戦略において、計算資源の確保をどう進めるか問われています。

出典：The Verge | NVIDIA公式 | TechCrunch | Ars Technica | TechCrunch

Nvidia、Intelに50億ドル出資 AI半導体で共同開発へ

2025年09月18日 NVIDIA エコシステム AI導入推論半導体 GPU データセンター投資提携 Intel TSMC Jensen Huang

詳細を見る

AI半導体最大手のNvidiaは18日、米Intelに50億ドルを出資し戦略的提携を結ぶと発表しました。両社はデータセンターとPC向けの次世代半導体を共同開発します。AI市場の優位性を固めたいNvidiaと、巻き返しを図るIntelの思惑が一致した形で、業界の競争環境に大きな影響を与えそうです。データセンター向けでは、IntelがNvidiaのAI基盤に最適化したx86系CPUを製造します。両社のチップはNvidia独自の高速技術「NVLink」で接続。AIの膨大な処理に必要なチップ間のデータ転送を高速化し、大規模モデルの学習や推論を効率化します。この協力が企業のAI導入を加速させるかもしれません。 PC市場向けには、Intelのx86技術とNvidiaの高性能GPU「RTX」のチップレットを統合した新しいSoCを開発します。これにより、従来にない処理能力を持つ統合型ノートPCが生まれると期待されています。NvidiaのフアンCEOは年間1.5億台のノートPC市場への進出に意欲を示しています。近年、AI半導体開発で後れを取っていたIntelにとって、今回の提携は大きな転機です。Nvidiaとの協業は、AI市場でのシェア回復と競合AMDに対抗する足がかりとなります。発表を受けIntelの株価は一時30%以上急騰し、市場の高い期待感を映し出しました。一方、Nvidiaのジェンスン・フアンCEOは、提携が年間「250億ドルから500億ドル規模の事業機会」を生むと試算。IntelのCPU技術やエコシステムを活用し、自社のAIプラットフォームをさらに拡大する狙いです。フアンCEOはこの投資を「素晴らしいものになる」と強調しました。今回の発表では、Intelの半導体受託製造（ファウンドリ）をNvidiaが利用するかは明言されませんでした。Nvidiaは現在、製造の大部分を台湾のTSMCに依存しています。両社はまず製品協業を優先し、ファウンドリ活用は将来検討するとしており、今後の動向が注目されます。

出典：WIRED | TechCrunch

NVIDIAのBlackwell、AI工場を駆動する新プラットフォーム

2025年09月18日 NVIDIA 生産性ネットワーク推論半導体 GPU ハードウェアデータセンター

詳細を見る

NVIDIAは最新アーキテクチャ「Blackwell」を、単なる半導体チップではなく「AI工場」を駆動するプラットフォームだと説明します。次世代AIモデルはパラメータ数が1兆を超えると予測され、膨大な計算需要が生まれています。Blackwellはこうした需要に応えるべく、システム全体で性能を追求する設計思想に基づいています。その中核がラック規模システム「NVIDIA GB200 NVL72」です。これは単一の巨大GPUとして動作するよう設計され、AI推論の効率を劇的に高めます。重さ1.5トンのラックに60万以上の部品と約3.2kmの配線が詰め込まれ、ハードウェアとソフトウェアが密に統合されています。性能の源泉は、2つのBlackwell GPUと1つのGrace CPUを統合した「Grace Blackwellスーパーチップ」です。高速インターコネクト技術「NVIDIA NVLink」で直結し、CPUとGPUがメモリを直接共有します。これによりAIワークロードの遅延を減らし、スループットを高めます。 GB200 NVL72内では「NVLink Switch」が性能ボトルネックを防ぎます。5,000本以上の銅線ケーブルが72基のGPUを網の目のように接続。毎秒130テラバイトという驚異的な速度でデータを移動させます。これはインターネット全体のピーク時トラフィックを1秒未満で転送できる速度に匹敵します。 AI工場では数万台のGB200 NVL72が一体で機能する必要があります。これを「Spectrum-X Ethernet」や「Quantum-X800 InfiniBand」といったネットワーク技術が実現。データセンターレベルでの統一的な動作を可能にし、全GPUが工場内のデータネットワークへ直接接続される仕組みを構築します。データセンターという巨大なコンピュータを動かすOSが「NVIDIA Dynamo」です。多数のGPUにまたがるAI推論リクエストを調整・最適化し、需要に応じてGPUリソースを動的に割り当てます。これにより工場全体の生産性と収益性を最大化し、運用コストを低減します。 Blackwellはもはや単なるチップではなく、次世代の産業革命を支えるAI工場のエンジンです。すでに世界最大級のコンピューティングクラスターがこのアーキテクチャを基盤に構築されており、AIによるイノベーションをさらに加速させていくことが期待されます。

出典：NVIDIA公式

MS、鴻海旧工場跡に世界最強AIデータセンター建設

2025年09月18日 NVIDIA マイクロソフト GPU インフラデータセンターエネルギースーパーコンピューター米国投資

詳細を見る

マイクロソフトは2025年9月18日、米ウィスコンシン州にある鴻海（Foxconn）の旧工場跡地に、33億ドルを投じて「世界で最も強力」と謳うAIデータセンターを建設すると発表しました。2026年初頭の稼働を予定しており、AIのトレーニング能力を飛躍的に向上させる狙いです。この計画は、かつて頓挫したプロジェクト跡地を最先端のAIインフラ拠点として再生させるものです。この巨大なデータセンターは、一体どれほどの性能を持つのでしょうか。施設にはNVIDIAの最新GPU「GB200」を数十万基搭載し、その性能は現行の最速スーパーコンピュータの10倍に達すると同社は説明しています。この圧倒的な計算能力により、AIモデルのトレーニングが劇的に加速されることが期待されます。施設の規模も桁外れです。データセンターは315エーカー（約127ヘクタール）の敷地に3棟の建物が建設され、総面積は120万平方フィート（約11万平方メートル）に及びます。内部には地球4.5周分に相当する長さの光ファイバーが張り巡らされ、膨大なGPU群を接続します。近年、AIの膨大なエネルギー消費が問題視される中、マイクロソフトは環境への配慮を強調しています。水を一度充填すれば蒸発しないクローズドループ冷却システムを採用し、水資源への影響を最小限に抑えるとしています。持続可能性への取り組みをアピールする狙いもあるようです。建設地は、かつて鴻海が液晶パネル工場を建設すると発表しながらも計画が大幅に縮小された因縁の場所です。今回の投資は、この未利用地を米国のAI産業を支える重要拠点へと生まれ変わらせる試みといえるでしょう。地域経済への貢献も期待されています。マイクロソフトはウィスコンシン州の拠点に加え、米国内で複数の同様のAIデータセンター「Fairwater」を建設中であることを明らかにしました。これは、生成AIの普及に伴う爆発的な計算需要に対応する全社的な戦略の一環であり、今後のAI開発競争における同社の優位性を強固にするものです。

出典：The Verge

Nvidia追撃のGroqが7.5億ドル調達 AI推論特化LPUで69億ドル評価へ

資金調達と企業価値

新規調達額は7.5億ドルを達成

ポストマネー評価額69億ドルに到達

1年間で評価額が2.8倍に急伸

累計調達額は30億ドル超と推定

技術的優位性

NvidiaのGPUに挑む独自チップ LPUを採用

AIモデル実行（推論）特化の高性能エンジン

迅速性、効率性、低コストを実現

開発者200万人超が利用、市場浸透が加速

詳細を見る

AIチップベンチャーのGroqは先日、7億5000万ドルの新規資金調達を完了し、ポストマネー評価額が69億ドル（約1兆円）に到達したと発表しました。これは当初予想されていた額を上回る結果です。同社は、AIチップ市場を支配するNvidiaのGPUに対抗する存在として、推論特化の高性能なLPU（言語処理ユニット）を提供しており、投資家の高い関心を集めています。

Groqの核となるのは、従来のGPUとは異なる独自アーキテクチャのLPUです。これは、AIモデルを実際に実行する「推論（Inference）」に特化して最適化されており、推論エンジンと呼ばれます。この設計により、Groqは競合製品と比較して、AIパフォーマンスを維持または向上させつつ、大幅な低コストと高効率を実現しています。

Groqの技術は開発者や企業向けに急速に浸透しています。利用する開発者の数は、わずか1年で35万6000人から200万人以上へと急増しました。製品はクラウドサービスとして利用できるほか、オンプレミスのハードウェアクラスターとしても提供され、企業の多様なニーズに対応できる柔軟性も強みです。

今回の調達額は7.5億ドルですが、注目すべきはその評価額の伸びです。Groqの評価額は、2024年8月の前回の資金調達時（28億ドル）からわずか約1年で2.8倍以上に膨らみました。累計調達額は30億ドルを超えると推定されており、AIインフラ市場における同社の将来性に、DisruptiveやBlackRockなどの大手が確信を示しています。

創業者のジョナサン・ロス氏は、GoogleでTensor Processing Unit（TPU）の開発に携わっていた経歴を持ちます。TPUはGoogle CloudのAIサービスを支える専門プロセッサであり、ロス氏のディープラーニング向けチップ設計における豊富な経験が、Groq独自のLPU開発の基盤となっています。

出典：TechCrunch

StreamlabsがAI配信助手発表、RTXで制作作業を劇的に簡素化

2025年09月17日 NVIDIA 生産性 AI活用アシスタント専門家 GPU 音声コーディングエージェント Intel

主要な役割と機能

共同ホストとして会話の停滞を防ぐ

3Dアバターが質問に即時応答しゲームに集中

プロデューサー機能によるシーン自動切替

技術的なトラブルシューティングを代行

RTXによる高性能化

NVIDIA RTX GPUでローカル処理し低遅延を実現

ユーザー定義のトリガーで制作を自動化

リアルタイムビジョンモデルでゲーム状況把握

詳細を見る

Streamlabsは先日、NVIDIA RTX技術によって加速される「Intelligent Streaming Agent」を発表しました。このAIアシスタントは、ライブストリーマーが抱える「エンターテイナー、プロデューサー、ゲーマー」という多重業務の負担を軽減し、視聴者とのコミュニケーションというコアな活動に集中することを目的としています。この技術は、エージェントAIがリアルタイムで高度なタスクを代行する、生産性向上ソリューションの新たな事例として注目されます。

エージェントは主に3つの役割を果たします。第一に共同ホスト（Co-host）として、チャットが静かな際に3Dアバターが会話を繋いだり、視聴者の質問に答えたりします。これにより配信者はゲーム画面から離れる必要がありません。第二にプロデューサーとして、シーンの自動切替や音声・映像キューの実行を担い、複雑な制作作業をカスタマイズ可能なトリガーに基づいて自動化します。

さらに、このAIエージェントは技術アシスタントとしての役割も兼ね備え、ユーザーが直面するトラブルシューティングを支援します。特筆すべきは、NVIDIA GeForce RTX GPUによって加速されるリアルタイムビジョンモデルを活用している点です。これにより、ゲーム内での勝敗や体力低下などのイベントを瞬時に検出し、すべてをローカルで処理することで、極めて低遅延な応答性とシームレスな操作性を実現しています。

Streamlabsは長年、NVIDIAとともにエンコーディング技術やBroadcastアプリなどを通じて配信の敷居を下げてきました。今回のインテリジェント・エージェントは、その進化の集大成です。特に新人ストリーマーにとって、複雑な制作知識や高価な機材なしにプロフェッショナルな品質の配信が可能となります。このAI活用事例は、あらゆる分野で専門家レベルの業務代行が可能になるエージェントAI時代の到来を強く示唆しています。

出典：NVIDIA公式

AWSがGPT-OSS活用、エージェント構築加速へ

2025年09月17日 OpenAI Amazon AWS 生産性アシスタントワークフロー gpt-oss エンジニア専門家推論オープンウェイト GPU インフラデプロイエージェント

<span class='highlight'>主要構成要素</span>

OpenAIのGPT-OSS（オープンウェイトLLM）採用

モデルのデプロイ・管理にAmazon SageMaker AIを使用

エージェントの統合にAmazon Bedrock AgentCoreを活用

グラフベースのワークフロー構築にLangGraphを利用

<span class='highlight'>システム設計の要点</span>

複雑なタスクを専門エージェントに分業させる構造

高速推論を実現するvLLMサービングフレームワーク

スケーラブルでサーバーレスなエージェント運用基盤

低コストでの強力なオープンソースLLMの活用

詳細を見る

AWSは、OpenAIが公開したオープンウェイトの大規模言語モデル（LLM）である「GPT-OSS」を活用し、実用的なエージェントワークフローを構築する詳細なガイドを発表しました。Amazon SageMaker AIでモデルをデプロイし、Amazon Bedrock AgentCoreでマルチエージェントを統合運用するエンドツーエンドのソリューションです。これにより、複雑なタスクを自動化し、企業生産性を大幅に高める道筋が示されました。

このソリューションの核となるのは、高度な推論とエージェントワークフローに優れるGPT-OSSモデルです。MoE（Mixture of Experts）設計のこれらのモデルを、高速な推論フレームワークであるvLLMと組み合わせ、SageMaker AI上にデプロイします。この組み合わせにより、単一のGPU（L40sなど）上でも大規模なモデルを効率的に動かすことが可能となり、運用コストを抑えつつ高性能を実現しています。

現実世界の複雑なアプリケーションには、単なるLLM応答以上のワークフロー管理とツール利用能力が求められます。この課題を解決するため、グラフベースの状態管理フレームワークLangGraphを採用し、複数の専門エージェントの協調を設計しました。これらのエージェントは、Bedrock AgentCore Runtimeという統合レイヤー上でデプロイ・運用されます。

Amazon Bedrock AgentCoreは、エージェントのインフラストラクチャ管理、セッション管理、スケーラビリティといった重労働を抽象化します。開発者はロジックの構築に集中でき、エージェントの状態を複数の呼び出し間で維持できるため、大規模かつセキュアなAIエージェントシステムをサーバーレスで展開・運用することが可能になります。

具体例として、株価分析エージェントアシスタントが構築されました。このシステムは、データ収集エージェント、パフォーマンス分析エージェント、レポート生成エージェントの3つで構成されます。ユーザーの問い合わせに対し、専門化されたコンポーネントが連携し、株価データ収集から技術・ファンダメンタル分析、そして最終的なPDFレポート生成までを一気通貫で実行します。

このエージェントワークフローは、定型的な分析業務を自動化し、アナリストの生産性向上に大きく貢献します。処理時間の大幅な短縮に加え、スキルを持つ専門家が、より複雑な意思決定や顧客との関係構築といった高付加価値業務に注力できる環境を提供します。オープンソースLLMの力を最大限に引き出し、ビジネス価値に変える実践例です。

出典：AWS公式

米巨大テック、英国AIインフラに巨額投資合戦

2025年09月16日 Google OpenAI NVIDIA マイクロソフト GPU インフラデータセンターエネルギースーパーコンピューター安全保障米国イギリス投資提携スターゲイト・プロジェクトトランプ

投資競争の主役たち

MSは300億ドル（4.5兆円）を4年間で投資

Googleは68億ドル（1兆円）を今後2年間で

NVIDIAは最大150億ドル規模のR&D;投資

MSが23,000基超GPUの英国最大スパコン構築

英国の「主権AI」戦略

OpenAI/NVIDIA/NscaleによるStargate UK

専門用途向けに国内処理能力を確保

公共サービスや国家安全保障での利用を想定

ノースイーストにAI成長ゾーンを指定

詳細を見る

米国巨大テック企業群が、英国のAIインフラ構築に向け、同時期に巨額の投資計画を発表しました。特にマイクロソフトは300億ドル（約4.5兆円）という過去最大規模の投資を公表し、AI競争の主導権を握る構えです。これは英国のAI競争力強化、経済成長を目的としており、グーグルやOpenAI/NVIDIAもこれに追随する形で大規模なデータセンターやスーパーコンピューター構築を進めます。

マイクロソフトは2025年から2028年にかけ、総額300億ドルを投じます。このうち約半分を投じて、パートナー企業Nscaleと共同で23,000基超のGPUを搭載した英国最大のスーパーコンピューターを建設する計画です。同日にグーグル（アルファベット）も2年間で68億ドル（約1兆円）の投資と新データセンター開設を発表しましたが、マイクロソフトはこれを大きく上回る規模を強調しています。

一方、OpenAIはNVIDIA、Nscaleと提携し、「Stargate UK」と呼ばれるAIインフラパートナーシップを発表しました。これは英国の「主権コンピューティング能力」の強化を目的としています。OpenAIの最先端AIモデルを、公共サービスや金融、国家安全保障といった機密性の高い専門的なユースケースに利用するため、国内のローカルなコンピューティング能力で実行可能にします。

これらの投資は、ドナルド・トランプ大統領の訪英に合わせて発表され、米英両国間の強力な技術提携を象徴しています。英国政府は、AI分野で世界的なリーダーシップを確立することを目指しており、今回の巨額投資を「英国経済への強力な信任投票」と評価しています。計画には、北東部地域にAI成長ゾーンを指定する施策も含まれています。

AIインフラ構築に加え、各社は英国の労働力強化にも貢献します。OpenAIは、AI教育プログラムである「OpenAI Academy」を導入し、2030年までに750万人の労働者のスキルアップを目指す政府の目標を支援します。また、これらの投資は、データセンター関連事業を中心に、数千人規模の新規雇用創出につながる見込みです。

しかし、データセンターの乱立に対する懸念も高まっています。大規模なハイパースケールデータセンターは膨大な電力と水を消費するため、環境団体や市民団体は、気候目標達成の妨げや電力価格の高騰につながると強く批判しています。英国政府に対し、電力・水利用に関する戦略の見直しを求める声が上がっています。

出典：OpenAI公式 | The Verge | Google公式 | WIRED

SageMaker HyperPod、LLM学習の通信遅延を解消するトポロジー認識型スケジューリング導入

2025年09月15日 Amazon AWS 生産性ネットワークエンジニア GPU データセンター

導入された新機能の概要

物理的配置を考慮するトポロジー認識型スケジューリング

大規模AIワークロードの最適化を目的

Amazon EKSクラスター上でのリソース管理を効率化

LLM学習効率化への貢献

データセンター内のネットワーク遅延を最小化

ネットワークホップ削減による通信速度の向上

GPUクラスターの利用効率とスループットを改善

活用方法と技術要件

Kubernetesマニフェストでの必須/推奨トポロジー設定

SageMaker HyperPod CLIからのジョブ送信に対応

Task Governanceアドオン（v1.2.2以降）が必要

詳細を見る

Amazon Web Services（AWS）は、大規模な生成AI（LLM）モデルのトレーニング効率を飛躍的に向上させるため、Amazon SageMaker HyperPodのタスクガバナンス機能に「トポロジー認識型スケジューリング」を導入しました。この新機能は、GPUインスタンス間のネットワーク通信遅延という、LLM学習における最大のボトルネックの一つを解消します。

生成AIワークロードは通常、Amazon EC2インスタンス間で広範な通信を必要とし、ネットワーク帯域幅と遅延が学習時間全体に大きく影響します。データセンター内のインスタンス配置は階層的な構造を持っており、同じ物理単位内に配置されたインスタンス間の通信は、異なる単位間の通信よりもはるかに高速になるため、配置最適化が重要でした。

このトポロジー認識型スケジューリングは、EC2のネットワークトポロジー情報を活用し、ジョブ提出時に物理的な近接性を考慮してリソースを割り当てます。具体的には、クラスター内のインスタンスの配置をネットワークの階層構造（レイヤー1〜3）に基づいて把握し、通信頻度の高いポッドを最も近いネットワークノードに集中配置します。

企業にとっての最大のメリットは、AIイノベーションの加速と市場投入までの時間（Time to Market）の短縮です。タスクガバナンス機能により、管理者やデータサイエンティストはリソース調整に時間を費やすことなく、効率的に計算リソースを利用できます。これは大規模なGPUクラスターを持つ組織全体の生産性向上に直結します。

エンジニアは、この新機能をKubernetesマニフェストファイルを通じて簡単に利用できます。ジョブ実行時に、全てのポッドを同一ネットワークノードに配置することを「必須（required）」とするか、「推奨（preferred）」とするかを選択可能です。また、SageMaker HyperPod CLIからもトポロジー指定パラメータを用いてジョブを送信することができ、柔軟な運用が実現します。

出典：AWS公式

GPU（ハードウェア）に関するニュース一覧

GPU（ハードウェア）に関するニュース一覧

新たな事業モデル

AIファクトリー稼働

資金調達の概要

事業モデル

壮大な計画

立ちはだかる壁

モデルの概要

性能とコスト

費用削減の中身

技術と採用例

資金調達の概要

技術と実績

偶然の発見

省電力AIへの含意

1コマンドで起動

OpenAI互換で利用

用途と拡張

調達と出資元

技術と実績

買収の概要

狙いと競争

チップの概要

性能と狙い

今後の展開

発表の要点

技術と適用範囲

新GPUインスタンス

検索と学習の強化

キャンバスの新機能

エージェント強化

ベンチマークの狙い

評価手法と所見

TOP500を席巻

省電力でも首位

自律運用への転換

安全な実行基盤

シミュレーションで検証

実証では露呈しない欠陥

データ配信層の構築

新スパコン3基

性能と用途

発表の概要

性能と成果

NAIRRの成果

主要プロジェクト

脳と気候の解明

通信と量子の前進

GPU基盤の威力

新たなボトルネック

対応するストレージ層

SDKの中身

実機への展開

自律訓練の仕組み

ENPIREの構成

公開と展望

新チップの性能

搭載製品と展開

全部門で最速を達成

8192GPUへ大規模展開

新CPUと運用基盤

セキュリティと統治

世界初の実証

宇宙センサーの変革

ベンチマーク結果

性能の源泉

実運用への波及

発表の要点

検証の課題

ベンチマークの盲点

データ経路の価値

技術の中身

精度と実用性

nn.Linearの実態

MLPの融合効果

手書きカーネル

拡散方式の仕組み

性能と適用範囲

低コスト訓練の仕組み