Ollamaに関する最新ニュース（8件） | 【AI Times】生成AIやLLMの最新情報・ニュース

Google、最強オープンモデルGemma 4をApache 2.0で公開

2026年04月02日 Google NVIDIA ワークフロー Llama 推論事前学習 GPU 画像動画音声中国エージェント Hugging Face Ollama Gemma Google DeepMind

モデル構成と性能

4種類のモデルを同時公開

31Bがオープン世界3位の性能

26B MoEは4Bの計算量で動作

E2B・E4Bはスマホ端末対応

技術的な特徴

テキスト・画像・音声のネイティブ対応

関数呼び出しをモデルに組込み

最大256Kトークンの長文脈

140以上の言語を事前学習

ライセンスと展開

Apache 2.0で商用利用自由

Ollama・llama.cppで即日利用可能

NVIDIA GPUで最適化済み

詳細を見る

Google DeepMindは2026年4月1日、オープンモデル「Gemma 4」を4サイズ同時に公開しました。最上位の31BモデルはArena AIリーダーボードでオープンモデル世界3位を獲得し、ライセンスは従来の独自条項からApache 2.0へ変更されました。

31B Denseは高品質な推論特化、26B MoEは128個の小規模エキスパートのうち8個だけを活性化し、31B級の性能を4B級の速度で実現します。AIME 2026で31Bが89.2%、MoEが88.3%を記録し、前世代Gemma 3の20.8%から飛躍的に向上しました。

エッジ向けのE2BとE4Bは、スマートフォンやRaspberry Pi、Jetson Nanoで完全オフライン動作します。Per-Layer Embeddings技術により、E2Bは総パラメータ51億ながら実効2Bとして軽量に動き、音声認識もモデル内で処理できます。

全モデルが画像・動画・音声のマルチモーダル入力に対応し、関数呼び出しもアーキテクチャレベルで統合されています。可変アスペクト比の画像処理、最大256Kトークンの長文脈、140以上の言語への対応により、エージェント型AIワークフローの構築基盤として設計されています。

Apache 2.0ライセンスへの移行は、企業導入における法的障壁を解消する重要な転換点です。NVIDIAとの協業によりRTX GPUからDGX Sparkまで最適化され、Ollama・llama.cpp・Hugging Faceなど主要ツールが初日から対応しています。中国系モデルがオープン化を後退させる中、Googleは逆方向の戦略を明確にしました。

出典：NVIDIA公式 | DeepMind公式 | Ars Technica | VentureBeat | Hugging Face

OllamaがApple MLX対応、Macでのローカル推論を大幅高速化

2026年03月31日 NVIDIA Apple GitHub ChatGPT Claude Claude Code Codex Qwen OpenClaw Llama エンジニア推論機械学習クラウドクラウドサービス中国 Ollama

MLX対応の概要

Apple MLXフレームワーク対応開始

Ollama 0.19プレビューで提供

Qwen3.5-35Bモデルのみ対応

Apple Silicon搭載Mac・RAM32GB以上が必要

性能改善と圧縮技術

キャッシュ性能の向上を実現

Nvidia NVFP4圧縮形式に対応

メモリ使用効率の大幅改善

ローカルLLM需要の高まり

OpenClawがGitHubで30万スター突破

クラウドAPIの料金・制限への不満が背景

詳細を見る

ローカルLLM実行ツールOllamaは、Appleが開発したオープンソースの機械学習フレームワークMLXへの対応を発表しました。これにより、Apple Silicon搭載Macでの大規模言語モデルの推論性能が大幅に向上します。

今回の対応はOllama 0.19のプレビュー版として提供されており、現時点で対応モデルはAlibabaのQwen3.5-35Bパラメータ版のみです。利用にはApple Silicon搭載Macに加え、最低32GBのRAMが必要とされています。

MLX対応に加え、キャッシュ性能の改善やNvidiaのNVFP4モデル圧縮形式への対応も同時に発表されました。NVFP4はモデルのメモリ使用量を大幅に削減する技術で、より効率的な推論環境の構築が可能になります。

ローカルモデル実行への関心は急速に高まっています。OpenClawがGitHubで30万スター以上を獲得し、中国を中心に世界的な注目を集めています。研究者やホビイスト以外の層にもローカルLLMの活用が広がりつつあります。

背景には、Claude CodeやChatGPT Codexなどのクラウドサービスにおけるレート制限や高額なサブスクリプション費用への開発者の不満があります。OllamaはVisual Studio Codeとの統合も拡充しており、ローカル開発環境の充実を進めています。

出典：Ars Technica

完全ローカル動作のAI議事録アプリTalatが登場

2026年03月24日 Google NVIDIA Apple Qwen Obsidian Llama エンジニア創業者ハードウェアクラウドプライバシー音声イギリス評価額 MCP Ollama

Talatの特徴

音声・議事録が端末外に出ない設計

買い切り49ドルでサブスク不要

アカウント作成や分析データ送信も不要

20MBの軽量Macアプリ

技術と拡張性

Apple Neural Engineで音声認識実行

FluidAudio基盤の低遅延処理

LLM選択やObsidian連携に対応

MCPサーバーやWebhookも搭載

詳細を見る

英国の開発者Nick Payne氏が、完全ローカル動作のAI議事録アプリ「Talat」をMac向けに公開しました。評価額15億ドルのGranolaに対抗し、音声データがクラウドに送信されないプライバシー重視の設計が最大の特徴です。

TalatはZoom、Teams、Google Meetなどの会議アプリから音声を取得し、リアルタイムで文字起こしを行います。会議終了後にはローカルLLMが要約・要点・決定事項・アクションアイテムを自動生成します。話者の識別もリアルタイムで行われ、手動での再割り当ても可能です。

技術基盤にはFluidAudioというSwiftフレームワークを採用し、AppleのNeural Engine上で高速な音声AI処理を実現しています。Payne氏が開発したオープンソースの音声ライブラリAudioTeeも活用されており、Apple独自のCore Audio Taps APIを通じてシステム音声を取得します。

要約モデルにはQwen3-4B-4bitをデフォルトで搭載し、比較的低スペックなハードウェアでも動作します。ユーザーは任意のクラウドLLMやNvidia製Parakeetモデル、Ollama経由のローカルモデルに切り替えることも可能で、高いカスタマイズ性を備えています。

価格はプレリリース版で買い切り49ドル、正式版では99ドルに値上げ予定です。M1以降のMacで利用でき、購入前に10時間の無料トライアルが可能です。開発者のPayne氏と共同創業者のMike Franklin氏はブートストラップで運営し、今後も買い切りモデルを維持する方針を示しています。

出典：TechCrunch

ByteDance、AIエージェント基盤DeerFlow 2.0をOSS公開

2026年03月23日 OpenAI Anthropic GitHub LangChain DeepSeek Slack Flow Llama GPU セキュリティ医療 MIT エージェント ByteDance Ollama SaaS

DeerFlow 2.0の特徴

MIT Licenseで商用利用可

Docker sandbox内で安全に実行

複数サブエージェントの並列処理

長時間タスクの自律実行に対応

企業導入の論点

完全ローカル運用が可能

GPU・VRAMの大量確保が必要

ByteDance製で規制審査の対象に

独立セキュリティ監査は未実施

詳細を見る

ByteDanceは2026年2月、AIエージェント・オーケストレーション基盤「DeerFlow 2.0」をMITライセンスでオープンソース公開しました。複数のAIサブエージェントを統合し、数時間に及ぶ複雑なタスクを自律的に実行できる「SuperAgent」フレームワークです。

DeerFlow 2.0はDockerベースのサンドボックス環境を採用し、エージェントの実行をホストシステムから完全に分離しています。ブラウザ、シェル、永続ファイルシステムを備えた独立環境で、bashコマンドの実行やファイル操作を安全に行えます。

技術的にはLangGraph 1.0とLangChainで全面的に書き直された新設計です。OpenAI、Anthropic、DeepSeek、Ollamaなどモデル非依存で動作し、Kubernetes上での分散実行やSlack・Telegram連携にも対応しています。

公開後わずか数週間でGitHub上で3万9千スターを獲得し、ML研究者やインフルエンサーの間で急速に注目が高まっています。SaaS型エージェントサービスの価格破壊につながるとの見方も広がっています。

一方、企業導入には課題も残ります。セットアップにはDocker・YAML・CLIの知識が必要で、独立したセキュリティ監査は未実施です。またByteDanceが開発元であるため、金融・医療・防衛など規制業種ではソフトウェアの出自に関する審査が求められる可能性があります。

出典：VentureBeat

NVIDIAジェットソンがエッジAIの新標準に、重機から家庭まで展開

エッジ推論の実用例

キャタピラー重機に音声AIアシスタント搭載

クラウド不要のローカル推論を実現

Jetson Thorがリアルタイム処理を担保

ロボット・スマートホームにも展開

対応オープンモデル群

Gemma・Mistral・Qwen等主要モデルに対応

GR00T N1.6でロボット動作を自律制御

vLLMで最大273トークン/秒を達成

2B〜30Bパラメータを柔軟に切り替え

詳細を見る

NVIDIAは2026年のCESにおいて、エッジAIプラットフォーム「Jetson Thor」上でキャタピラーの小型油圧ショベル向け音声AIアシスタントのデモを公開した。Qwen3 4BモデルをvLLC経由でローカル動作させ、クラウド接続なしで低遅延な自然言語応答を実現している。

従来のオープンモデルはデータセンターで運用されてきたが、クラウド依存はレイテンシとコストの課題を抱える。Jetsonはシステムオンモジュールにコンピュートとメモリを統合し、メモリ不足による調達難を解消しながら、産業機器向けに安定したエッジ推論環境を提供する。

ロボティクス分野ではFranka RoboticsのFR3 DuoがオンボードでGR00T N1.6モデルを実行し、タスクスクリプト不要で知覚から動作まで完結させた。NYU・UIUCなどの研究機関もJetson Thor上でヒューマノイド制御や抹茶製造ロボットの開発に成功している。

個人開発者レベルでも活用が広がっており、Hugging FaceのAndré Marafiotiはエージェント型AIシステムをJetson AGX Orin上で構築し、タスク自律スケジューリングを実現した。CollabnixのAjeet Singh RainaはOpenClawをJetson Thor上で24時間稼働させ、メール・カレンダー管理を自動化している。

Jetson Thorは現在、Gemma 3・Mistral 3・Qwen 3.5・gpt-oss-20B・NVIDIA Cosmosなど主要オープンモデルを広くサポートしており、開発者はvLLM・Ollama・llama.cppなど多様なフレームワークを選択できる。GTC 2026では産業自律化の未来をテーマにした展示も予定されている。

出典：NVIDIA公式

llama.cppにモデル動的管理機能が追加

2025年12月11日 Llama コンテキスト Ollama

ルーターモードの概要

動的なモデル切り替えが可能に

再起動なしでロード・アンロード

マルチプロセスで障害を分離

主な機能と使い方

キャッシュからの自動検出

LRU方式で自動アンロード

モデルごとの個別設定に対応

Web UIからもモデル選択可能

詳細を見る

llama.cppサーバーに、複数モデルの動的管理を可能にするルーターモードが追加されました。モデルを指定せずにサーバーを起動すると、キャッシュやディレクトリからGGUFファイルを自動検出し、リクエストに応じてモデルを動的にロードします。

各モデルは独立したプロセスで実行されるため、一つのモデルがクラッシュしても他のモデルに影響しません。最大同時ロード数に達するとLRU方式で古いモデルが自動的にアンロードされ、VRAMを効率的に管理できます。

プリセットファイルを使えば、モデルごとにコンテキストサイズや温度などを個別に設定可能です。この機能は、Ollamaのようなモデル管理をllama.cppに求めるコミュニティの要望に応えたものです。

出典：Hugging Face

PowerToysのAI貼り付け、ローカル処理で無料・安全化

2025年11月20日 OpenAI マイクロソフト Gemini Windows AI活用業務効率 Llama オンデバイスクラウド Mistral Ollama

ローカルAI活用でコスト削減

NPU活用でAPI課金不要

データを守るオンデバイス処理

オフラインでも翻訳・要約が可能

多様なモデルへの対応拡大

GeminiやMistralも選択可能

オープンソースのOllamaと連携

UI改善で操作性向上

詳細を見る

MicrosoftはWindows 11向けユーティリティ「PowerToys」を更新し、Advanced Paste機能を強化しました。ユーザーはクラウドを経由せず、デバイス上のAIモデルを利用して高度な貼り付けが可能になります。

特筆すべきは、NPU（ニューラル処理装置）を活用した完全ローカル処理です。これによりAPI利用料が不要になるほか、データが外部に送信されないため、機密情報を含むテキストも安心して扱えます。

具体的には、Microsoft Foundry LocalやOllamaを介してローカルモデルを実行します。クリップボードの内容を瞬時に翻訳・要約するなど、業務効率を飛躍的に高める機能が手軽に利用可能です。

さらに、連携可能な外部モデルも拡充されました。従来のOpenAIに加え、Azure OpenAIやGemini、Mistralに対応。用途や契約状況に応じて最適なAIモデルを柔軟に選択できる設計へと進化しています。

出典：The Verge

高性能LLMをローカルPCで、NVIDIAが活用ガイド公開

2025年10月01日 Google OpenAI NVIDIA エコシステムアシスタント Llama gpt-oss エンジニア経営者学生推論 GPU クラウドプライバシー音声 Ollama Gemma

RTXでLLMを高速化

プライバシーと管理性をローカル環境で確保

サブスクリプション費用が不要

RTX GPUで推論を高速化

高品質なオープンモデルを活用

主要な最適化ツール

簡単操作のOllamaで手軽に開始

多機能なLM Studioでモデルを試用

AnythingLLMで独自AIを構築

これらツールのパフォーマンス向上を実現

詳細を見る

NVIDIAは、同社のRTX搭載PC上で大規模言語モデル（LLM）をローカル環境で実行するためのガイドを公開しました。プライバシー保護やサブスクリプション費用の削減を求める声が高まる中、OllamaやLM Studioといったオープンソースツールを最適化し、高性能なAI体験を手軽に実現する方法を提示しています。これにより、開発者や研究者だけでなく、一般ユーザーによるLLM活用も本格化しそうです。

これまでクラウド経由が主流だったLLMですが、なぜ今、ローカル環境での実行が注目されるのでしょうか。最大の理由は、プライバシーとデータ管理の向上です。機密情報を外部に出すことなく、手元のPCで安全に処理できます。また、月々の利用料も不要で、高品質なオープンモデルが登場したことも、この流れを後押ししています。

手軽に始めるための一つの選択肢が、オープンソースツール「Ollama」です。NVIDIAはOllamaと協力し、RTX GPU上でのパフォーマンスを大幅に向上させました。特にOpenAIのgpt-oss-20BモデルやGoogleのGemma 3モデルで最適化が進んでおり、メモリ使用効率の改善やマルチGPU対応も強化されています。

より専門的な利用には、人気のllama.cppを基盤とする「LM Studio」が適しています。こちらもNVIDIAとの連携で最適化が進み、最新のNVIDIA Nemotron Nano v2モデルをサポート。さらに、推論を最大20%高速化するFlash Attentionが標準で有効になるなど、RTX GPUの性能を最大限に引き出します。

ローカルLLMの真価は、独自のAIアシスタント構築で発揮されます。例えば「AnythingLLM」を使えば、講義資料や教科書を読み込ませ、学生一人ひとりに合わせた学習支援ツールを作成できます。ファイル数や利用期間の制限なく対話できるため、長期間にわたる文脈を理解した、よりパーソナルなAIが実現可能です。

NVIDIAの取り組みは汎用ツールに留まりません。ゲームPCの最適化を支援するAIアシスタント「Project G-Assist」も更新され、音声やテキストでラップトップの設定を直接変更できるようになりました。AI技術をより身近なPC操作に統合する試みと言えるでしょう。このように、RTX PCを基盤としたローカルAIのエコシステムが着実に拡大しています。

プライバシーを確保しつつ、高速かつ低コストでAIを動かす環境が整いつつあります。NVIDIAの推進するローカルLLM活用は、経営者やエンジニアにとって、自社のデータ資産を活かした新たな価値創出の好機となるでしょう。

出典：NVIDIA公式

Ollama（プロダクト）に関するニュース一覧

Ollama（プロダクト）に関するニュース一覧

モデル構成と性能

技術的な特徴

ライセンスと展開

MLX対応の概要

性能改善と圧縮技術

ローカルLLM需要の高まり

Talatの特徴

技術と拡張性

DeerFlow 2.0の特徴

企業導入の論点

エッジ推論の実用例

対応オープンモデル群

ルーターモードの概要

主な機能と使い方

ローカルAI活用でコスト削減

多様なモデルへの対応拡大

RTXでLLMを高速化

主要な最適化ツール

関連キーワード

同じカテゴリ

他カテゴリ