Ollama(プロダクト)に関するニュース一覧

Google、最強オープンモデルGemma 4をApache 2.0で公開

モデル構成と性能

4種類のモデルを同時公開
31Bがオープン世界3位の性能
26B MoEは4Bの計算量で動作
E2B・E4Bはスマホ端末対応

技術的な特徴

テキスト・画像音声ネイティブ対応
関数呼び出しをモデルに組込み
最大256Kトークンの長文脈
140以上の言語事前学習

ライセンスと展開

Apache 2.0で商用利用自由
Ollamallama.cppで即日利用可能
NVIDIA GPUで最適化済み

Google DeepMindは2026年4月1日、オープンモデル「Gemma 4」を4サイズ同時に公開しました。最上位の31BモデルはArena AIリーダーボードでオープンモデル世界3位を獲得し、ライセンスは従来の独自条項からApache 2.0へ変更されました。

31B Denseは高品質な推論特化、26B MoEは128個の小規模エキスパートのうち8個だけを活性化し、31B級の性能を4B級の速度で実現します。AIME 2026で31Bが89.2%、MoEが88.3%を記録し、前世代Gemma 3の20.8%から飛躍的に向上しました。

エッジ向けのE2BE4Bは、スマートフォンやRaspberry Pi、Jetson Nanoで完全オフライン動作します。Per-Layer Embeddings技術により、E2Bは総パラメータ51億ながら実効2Bとして軽量に動き、音声認識もモデル内で処理できます。

全モデルが画像動画音声マルチモーダル入力に対応し、関数呼び出しもアーキテクチャレベルで統合されています。可変アスペクト比の画像処理、最大256Kトークンの長文脈、140以上の言語への対応により、エージェント型AIワークフローの構築基盤として設計されています。

Apache 2.0ライセンスへの移行は、企業導入における法的障壁を解消する重要な転換点です。NVIDIAとの協業によりRTX GPUからDGX Sparkまで最適化され、Ollamallama.cpp・Hugging Faceなど主要ツールが初日から対応しています。中国系モデルがオープン化を後退させる中、Google逆方向の戦略を明確にしました。

OllamaがApple MLX対応、Macでのローカル推論を大幅高速化

MLX対応の概要

Apple MLXフレームワーク対応開始
Ollama 0.19プレビューで提供
Qwen3.5-35Bモデルのみ対応
Apple Silicon搭載Mac・RAM32GB以上が必要

性能改善と圧縮技術

キャッシュ性能の向上を実現
Nvidia NVFP4圧縮形式に対応
メモリ使用効率の大幅改善

ローカルLLM需要の高まり

OpenClawGitHubで30万スター突破
クラウドAPIの料金・制限への不満が背景

ローカルLLM実行ツールOllamaは、Appleが開発したオープンソースの機械学習フレームワークMLXへの対応を発表しました。これにより、Apple Silicon搭載Macでの大規模言語モデルの推論性能が大幅に向上します。

今回の対応はOllama 0.19のプレビュー版として提供されており、現時点で対応モデルはAlibabaのQwen3.5-35Bパラメータ版のみです。利用にはApple Silicon搭載Macに加え、最低32GBのRAMが必要とされています。

MLX対応に加え、キャッシュ性能の改善やNvidiaNVFP4モデル圧縮形式への対応も同時に発表されました。NVFP4はモデルのメモリ使用量を大幅に削減する技術で、より効率的な推論環境の構築が可能になります。

ローカルモデル実行への関心は急速に高まっています。OpenClawGitHubで30万スター以上を獲得し、中国を中心に世界的な注目を集めています。研究者やホビイスト以外の層にもローカルLLMの活用が広がりつつあります。

背景には、Claude CodeChatGPT Codexなどのクラウドサービスにおけるレート制限や高額なサブスクリプション費用への開発者の不満があります。OllamaはVisual Studio Codeとの統合も拡充しており、ローカル開発環境の充実を進めています。

完全ローカル動作のAI議事録アプリTalatが登場

Talatの特徴

音声・議事録が端末外に出ない設計
買い切り49ドルでサブスク不要
アカウント作成や分析データ送信も不要
20MBの軽量Macアプリ

技術と拡張性

Apple Neural Engine音声認識実行
FluidAudio基盤の低遅延処理
LLM選択やObsidian連携に対応
MCPサーバーやWebhookも搭載

英国開発者Nick Payne氏が、完全ローカル動作のAI議事録アプリ「Talat」をMac向けに公開しました。評価額15億ドルのGranolaに対抗し、音声データがクラウドに送信されないプライバシー重視の設計が最大の特徴です。

TalatはZoom、Teams、Google Meetなどの会議アプリから音声を取得し、リアルタイムで文字起こしを行います。会議終了後にはローカルLLMが要約・要点・決定事項・アクションアイテムを自動生成します。話者の識別もリアルタイムで行われ、手動での再割り当ても可能です。

技術基盤にはFluidAudioというSwiftフレームワークを採用し、AppleNeural Engine上で高速な音声AI処理を実現しています。Payne氏が開発したオープンソースの音声ライブラリAudioTeeも活用されており、Apple独自のCore Audio Taps APIを通じてシステム音声を取得します。

要約モデルにはQwen3-4B-4bitをデフォルトで搭載し、比較的低スペックなハードウェアでも動作します。ユーザーは任意のクラウドLLMやNvidia製Parakeetモデル、Ollama経由のローカルモデルに切り替えることも可能で、高いカスタマイズ性を備えています。

価格はプレリリース版で買い切り49ドル、正式版では99ドルに値上げ予定です。M1以降のMacで利用でき、購入前に10時間の無料トライアルが可能です。開発者のPayne氏と共同創業者のMike Franklin氏はブートストラップで運営し、今後も買い切りモデルを維持する方針を示しています。

ByteDance、AIエージェント基盤DeerFlow 2.0をOSS公開

DeerFlow 2.0の特徴

MIT Licenseで商用利用可
Docker sandbox内で安全に実行
複数サブエージェントの並列処理
長時間タスクの自律実行に対応

企業導入の論点

完全ローカル運用が可能
GPU・VRAMの大量確保が必要
ByteDanceで規制審査の対象に
独立セキュリティ監査は未実施

ByteDanceは2026年2月、AIエージェント・オーケストレーション基盤「DeerFlow 2.0」をMITライセンスでオープンソース公開しました。複数のAIサブエージェントを統合し、数時間に及ぶ複雑なタスクを自律的に実行できる「SuperAgent」フレームワークです。

DeerFlow 2.0はDockerベースのサンドボックス環境を採用し、エージェントの実行をホストシステムから完全に分離しています。ブラウザ、シェル、永続ファイルシステムを備えた独立環境で、bashコマンドの実行やファイル操作を安全に行えます。

技術的にはLangGraph 1.0LangChainで全面的に書き直された新設計です。OpenAIAnthropicDeepSeekOllamaなどモデル非依存で動作し、Kubernetes上での分散実行やSlack・Telegram連携にも対応しています。

公開後わずか数週間でGitHub上で3万9千スターを獲得し、ML研究者やインフルエンサーの間で急速に注目が高まっています。SaaSエージェントサービスの価格破壊につながるとの見方も広がっています。

一方、企業導入には課題も残ります。セットアップにはDocker・YAML・CLIの知識が必要で、独立したセキュリティ監査は未実施です。またByteDanceが開発元であるため、金融・医療・防衛など規制業種ではソフトウェアの出自に関する審査が求められる可能性があります。

NVIDIAジェットソンがエッジAIの新標準に、重機から家庭まで展開

エッジ推論の実用例

キャタピラー重機に音声AIアシスタント搭載
クラウド不要のローカル推論を実現
Jetson Thorがリアルタイム処理を担保
ロボット・スマートホームにも展開

対応オープンモデル群

GemmaMistralQwen主要モデルに対応
GR00T N1.6でロボット動作を自律制御
vLLMで最大273トークン/秒を達成
2B〜30Bパラメータを柔軟に切り替え

NVIDIAは2026年のCESにおいて、エッジAIプラットフォーム「Jetson Thor」上でキャタピラーの小型油圧ショベル向け音声AIアシスタントのデモを公開した。Qwen3 4BモデルをvLLC経由でローカル動作させ、クラウド接続なしで低遅延な自然言語応答を実現している。

従来のオープンモデルはデータセンターで運用されてきたが、クラウド依存はレイテンシとコストの課題を抱える。Jetsonはシステムオンモジュールにコンピュートとメモリを統合し、メモリ不足による調達難を解消しながら、産業機器向けに安定したエッジ推論環境を提供する。

ロボティクス分野ではFranka RoboticsのFR3 DuoがオンボードでGR00T N1.6モデルを実行し、タスクスクリプト不要で知覚から動作まで完結させた。NYU・UIUCなどの研究機関もJetson Thor上でヒューマノイド制御や抹茶製造ロボットの開発に成功している。

個人開発者レベルでも活用が広がっており、Hugging FaceのAndré Marafiotiはエージェント型AIシステムをJetson AGX Orin上で構築し、タスク自律スケジューリングを実現した。CollabnixのAjeet Singh RainaはOpenClawをJetson Thor上で24時間稼働させ、メール・カレンダー管理を自動化している。

Jetson Thorは現在、Gemma 3・Mistral 3・Qwen 3.5・gpt-oss-20B・NVIDIA Cosmosなど主要オープンモデルを広くサポートしており、開発者はvLLM・Ollamallama.cppなど多様なフレームワークを選択できる。GTC 2026では産業自律化の未来をテーマにした展示も予定されている。

llama.cppにモデル動的管理機能が追加

ルーターモードの概要

動的なモデル切り替えが可能に
再起動なしでロード・アンロード
マルチプロセスで障害を分離

主な機能と使い方

キャッシュからの自動検出
LRU方式で自動アンロード
モデルごとの個別設定に対応
Web UIからもモデル選択可能

llama.cppサーバーに、複数モデルの動的管理を可能にするルーターモードが追加されました。モデルを指定せずにサーバーを起動すると、キャッシュやディレクトリからGGUFファイルを自動検出し、リクエストに応じてモデルを動的にロードします。

各モデルは独立したプロセスで実行されるため、一つのモデルがクラッシュしても他のモデルに影響しません。最大同時ロード数に達するとLRU方式で古いモデルが自動的にアンロードされ、VRAMを効率的に管理できます。

プリセットファイルを使えば、モデルごとにコンテキストサイズや温度などを個別に設定可能です。この機能は、Ollamaのようなモデル管理をllama.cppに求めるコミュニティの要望に応えたものです。

PowerToysのAI貼り付け、ローカル処理で無料・安全化

ローカルAI活用でコスト削減

NPU活用でAPI課金不要
データを守るオンデバイス処理
オフラインでも翻訳・要約が可能

多様なモデルへの対応拡大

GeminiMistralも選択可能
オープンソースのOllamaと連携
UI改善で操作性向上

MicrosoftWindows 11向けユーティリティ「PowerToys」を更新し、Advanced Paste機能を強化しました。ユーザーはクラウドを経由せず、デバイス上のAIモデルを利用して高度な貼り付けが可能になります。

特筆すべきは、NPU(ニューラル処理装置)を活用した完全ローカル処理です。これによりAPI利用料が不要になるほか、データが外部に送信されないため、機密情報を含むテキストも安心して扱えます。

具体的には、Microsoft Foundry LocalやOllamaを介してローカルモデルを実行します。クリップボードの内容を瞬時に翻訳・要約するなど、業務効率を飛躍的に高める機能が手軽に利用可能です。

さらに、連携可能な外部モデルも拡充されました。従来のOpenAIに加え、Azure OpenAIGeminiMistralに対応。用途や契約状況に応じて最適なAIモデルを柔軟に選択できる設計へと進化しています。

高性能LLMをローカルPCで、NVIDIAが活用ガイド公開

RTXでLLMを高速化

プライバシーと管理性をローカル環境で確保
サブスクリプション費用が不要
RTX GPU推論を高速化
高品質なオープンモデルを活用

主要な最適化ツール

簡単操作のOllamaで手軽に開始
多機能なLM Studioでモデルを試用
AnythingLLMで独自AIを構築
これらツールのパフォーマンス向上を実現

NVIDIAは、同社のRTX搭載PC上で大規模言語モデル(LLM)をローカル環境で実行するためのガイドを公開しました。プライバシー保護やサブスクリプション費用の削減を求める声が高まる中、OllamaやLM Studioといったオープンソースツールを最適化し、高性能なAI体験を手軽に実現する方法を提示しています。これにより、開発者や研究者だけでなく、一般ユーザーによるLLM活用も本格化しそうです。

これまでクラウド経由が主流だったLLMですが、なぜ今、ローカル環境での実行が注目されるのでしょうか。最大の理由は、プライバシーとデータ管理の向上です。機密情報を外部に出すことなく、手元のPCで安全に処理できます。また、月々の利用料も不要で、高品質なオープンモデルが登場したことも、この流れを後押ししています。

手軽に始めるための一つの選択肢が、オープンソースツール「Ollama」です。NVIDIAOllamaと協力し、RTX GPU上でのパフォーマンスを大幅に向上させました。特にOpenAIgpt-oss-20BモデルやGoogleGemma 3モデルで最適化が進んでおり、メモリ使用効率の改善やマルチGPU対応も強化されています。

より専門的な利用には、人気のllama.cppを基盤とする「LM Studio」が適しています。こちらもNVIDIAとの連携で最適化が進み、最新のNVIDIA Nemotron Nano v2モデルをサポート。さらに、推論を最大20%高速化するFlash Attentionが標準で有効になるなど、RTX GPUの性能を最大限に引き出します。

ローカルLLMの真価は、独自のAIアシスタント構築で発揮されます。例えば「AnythingLLM」を使えば、講義資料や教科書を読み込ませ、学生一人ひとりに合わせた学習支援ツールを作成できます。ファイル数や利用期間の制限なく対話できるため、長期間にわたる文脈を理解した、よりパーソナルなAIが実現可能です。

NVIDIAの取り組みは汎用ツールに留まりません。ゲームPCの最適化を支援するAIアシスタント「Project G-Assist」も更新され、音声やテキストでラップトップの設定を直接変更できるようになりました。AI技術をより身近なPC操作に統合する試みと言えるでしょう。このように、RTX PCを基盤としたローカルAIのエコシステムが着実に拡大しています。

プライバシーを確保しつつ、高速かつ低コストでAIを動かす環境が整いつつあります。NVIDIAの推進するローカルLLM活用は、経営者エンジニアにとって、自社のデータ資産を活かした新たな価値創出の好機となるでしょう。