Hugging Face(企業)に関するニュース一覧

AIの不具合を通報できる共有サイトFLARE-AIが始動

通報サイトの仕組み

有害事例の集約報告サイト
オープンソースで検証可能
MITRE等へ報告を転送

背景と課題

中央集約の報告窓口が不在
32組織49名の専門家が開発
連邦法案とも連携
報告の殺到など運用課題

AI研究者のグループが2026年7月1日、AIの有害な挙動を報告・追跡するクラウドソーシング型サイト「FLARE-AI」を公開しました。チャットボットがマルウェアや爆弾製造の手順を生成したり、個人情報を漏らしたり、利用者の妄想を助長したりした場合に、誰もが警鐘を鳴らせる仕組みです。サービス障害を集計するDowndetectorのAI版とも言える存在です。

最大の狙いは、AIの不具合を通報する統一的な窓口の欠如を埋めることです。開発を主導したHuggingFaceのアビジット・ゴーシュ氏は「現在、AIシステムの欠陥を報告する中央集約された説明責任のある方法が存在しない」と指摘します。同システムのオープンソースコードにより、第三者が問題を検証し、モデル開発元や非営利団体MITREへ報告を振り分けられます。

この取り組みは32の組織から集まった49名のAI専門家との協働で開発されました。研究者らは論文の中で、AIの普及とエージェント型システムの高度化が進むほど、この仕組みが重要になると論じています。6月に発表された連邦議会の法案とも連動し、米国立標準技術研究所(NIST)が欠陥報告データベースを整備する構想も含まれます。

背景には、AIツールを巡る不具合の続発があります。今週はLayerX社が、OpenAIのAtlasやPerplexityCometといったAI搭載ブラウザのガードレールを回避する手口を公表しました。バグやサイバー攻撃だけでなく、心理的被害や差別、誤情報など問題は多岐にわたり、企業ごとに基準が異なる点も課題です。

一方で運用面の懸念も残ります。Humane Intelligenceのラムマン・チョウドリー氏は、深刻でない報告を含む大量の通報をどうさばくか、また信頼できる権威ある組織の裏付けをどう確保するかが課題だと指摘します。エージェント型システムの能力向上に伴い、AIの被害を報告する新たな手段の必要性は今後さらに高まりそうです。

Hugging FaceとCerebras、低遅延の音声AI実現

協業の概要

Cerebras高速推論採用
音声対話の遅延を短縮
人間並みの自然な応答

技術構成

Gemma 4 31Bを言語モデルに
モジュール式の完全公開設計
Reachy Miniロボットで実運用

Hugging FaceCerebrasは2026年7月1日、リアルタイム音声AIの新たなデモを公開しました。両社は音声から音声へと応答するspeech-to-speechのパイプラインを構築し、Cerebrasの高速推論を組み合わせることで、従来課題だった応答遅延を大幅に短縮しました。人間同士の会話に近い、自然でよどみないやり取りを実現している点が特徴です。

音声AIでは、応答までの遅延が利用体験を左右する重要な要素です。モデルの品質は着実に向上してきた一方で、多くの実用システムでは中央値の応答速度は許容できても、P95のような一部の遅い応答が数秒に及び、会話の信頼性を損なっていました。両社はこのばらつきの大きい「ロングテール」の遅延こそが問題だと指摘します。

パイプラインは、音声認識にNvidiaのParakeet、言語モデルにGoogle DeepMindGemma 4 31B音声合成にAlibabaのQwen3TTSを用いる構成です。各層はいずれもオープンで、開発者が検査・改変・拡張できるモジュール式になっており、アシスタントロボット、研究用途に合わせて自由に差し替えられます。

Cerebrasが担うのは、パイプライン最大のボトルネックである言語モデルの応答時間の解消です。推論を高速かつ安定させることで、他の構成要素の性能も引き出せると両社は説明します。採用の狙いはコスト削減ではなく、低遅延と予測可能な性能にあるといいます。

この音声パイプラインは、すでに9,000台超が稼働するReachy Miniロボットを支えています。ロボット音声アシスタント、身体性を持つAIにとって、応答の速さは体験を「生きている」ように感じさせる核心的な要素です。両社はデモとコードを公開し、次世代の対話型AIに向けた開発者の参加を呼びかけています。

AIの専門特化は必然、LeCun氏ら論文が理論で裏付け

4分野が同じ結論

最適化理論のノーフリーランチ定理
進化生物学のニッチ適応
競争市場の選択淘汰
機械学習負の転移

汎用化への反証

有限資源では適合が広さに勝る
AlphaFoldなど単一課題特化
MoEは内部での専門化

Hugging Faceのブログで2026年6月30日、AI開発企業Dharma AIが、AIの専門特化は必然だと論じる解説記事を公開しました。ニューヨーク大学のヤン・ルカン氏らが著した2026年の論文「AI must embrace specialization」を読み解き、最適化理論、生物学、市場経済、機械学習という4つの分野がいずれも同じ結論に至ると整理した内容です。AIが高性能になるほど汎用化するという通念に対し、実際には特定領域に絞った系こそ最大の成果を上げると指摘しています。

理論的な根拠は、1997年にウォルパート氏らが証明したノーフリーランチ定理です。あらゆる問題を平均すれば、どの汎用アルゴリズムも他をしのぐことはなく、ある分布で得をすれば別の分布で必ず損をすると示しました。論文はここから「アルゴリズムは対象問題への適合によって勝つ」と導きます。計算資源やデータが有限である現実では、課題を絞って資源を集中させる方が、無限に広げるよりも高い性能を生むという論理です。

同じ予測は生物学と市場でも独立に現れていると著者らは説きます。生物では、ある環境への適応は別の能力を犠牲にするため、すべてに最適な万能型ではなく、局所条件に適合した専門種がニッチを埋める結果になります。市場でも、性能基準を満たせない組織や戦略は退出や資金引き揚げによって淘汰され、能力を分散させた主体より集中させた主体が勝ち残ります。仕組みは全く異なるのに、資源の希少性という同じ制約が同じ帰結を生むという見立てです。

機械学習の現場も繰り返し専門化を再発見してきました。複数課題を同時に学習させると性能が下がる負の転移は、有限の表現容量を競合する課題に分割した結果として記録されています。フロンティアモデルが採用するMixture-of-Experts構造も、入力ごとに専門化した部分回路へ振り分けることで広さを実現しており、論文はこれを汎用系が内部で専門化を取り戻している証左と解釈します。タンパク質構造予測のAlphaFoldも、課題特化の設計によって飛躍を遂げた代表例として挙げられています。

特化を疑う最大の論拠とされるのが、計算量の拡大が手作業の領域知識に勝るとするサットン氏の「苦い教訓」です。これに対し論文は、領域知識と領域特化は別物だと切り分けます。スケーリングが変えるのは系がデータから何を学べるかであり、有限の課題集合に資源を集中させる方が有利だという制約そのものは変わらないという主張です。両者は別の次元の話で、同時に成り立つと結論づけています。

記事は、専門特化を好みや一時的な工夫ではなく、有限の資源が性能要求と出会ったときに必然的に現れる構造だと締めくくります。経営者エンジニアにとっては、汎用モデル一辺倒ではなく領域を絞ったAI戦略を検討する根拠となる議論です。調達や内製化の判断において、適合と集中という観点が改めて問われることになりそうです。

OpenAI、計算生物学の判断力を測る新基準

GeneBench-Proとは

計算生物学向けの研究水準ベンチマーク
10領域129問で構成
曖昧なデータでの判断力を評価
全問を合成データで作成

モデルの成績

GPT-5.6 Solが最高31.5%
GPT-5は当初5%未満
推論量の増加で正答率向上

OpenAIは6月30日、計算生物学における研究水準の判断力を測る新ベンチマーク「GeneBench-Pro」を発表しました。ゲノミクス、定量生物学、トランスレーショナル医療にまたがる129問で構成され、曖昧で雑然としたデータからAIエージェントが適切な解析手法を選び、意思決定に直結する結論へ至れるかを問います。事実の暗記や定型作業ではなく、研究現場で求められる高次の判断を評価対象とした点が特徴です。

同社はこうした判断力を研究のセンスと定義します。どの問いをデータが支えられるか、初期の診断結果に応じて推定対象をどう変えるか、当初の計画をいつ修正すべきか、といった一連の判断の連鎖を指します。各問題は現実的で乱れたデータセットと簡潔な実験背景、そして下流の意思決定に結びついた推定対象を与え、モデルに探索と試行錯誤を求めます。

ベンチマークの信頼性を保つため、全問題が合成データで作られています。データ生成過程を完全に把握しているため、複雑さを調整でき、もっともらしいが誤った解析が確実に不正解となることを検証できます。さらにトレース分析で情報漏えいや抜け道を点検し、正解が正しい解析経路の選択に依存するよう設計しました。

評価では、同社最強のGPT-5.6 Solが最高推論レベルで28.7%、Proモードで31.5%の正答率を記録しました。初代GeneBench開発当初のGPT-5が5%未満だったことと比べ、大きな前進です。テスト時の計算量を増やすほど成績が伸び、最高レベルではGPT-5.2の約6倍の問題を3分の2のトークンで解いたといいます。

外部の専門家による評価では、1問あたり人間の専門家20〜40時間を要すると見積もられました。時給200ドル換算で1問の人件費は数千ドルに達する一方、AIの推論コストは1問あたり数ドルにとどまります。現状のエージェント専門家を置き換えるほど信頼できないものの、部分的な自動化でも経済的・科学的価値が生まれる可能性があります。

OpenAIは代表的な10問をHugging Faceで公開し、近く第三者評価向けに50問の部分セットも提供する予定です。シーケンスコストの低下で生物学の制約はデータ生成から解析へ移りつつあり、この種の解析を自動化できれば創薬の標的選定や仮説の絞り込みを加速し、科学的発見を後押しすると同社は見ています。

Meituanが1.6兆規模コーディングAIを国産チップで開発し公開

モデルの概要

1.6兆パラメータのMoE構成
100万トークンの長文脈対応
MITライセンスで商用自由
匿名モデルOwl Alphaの正体

性能とコスト

SWE-bench ProでGPT-5.5超え
キャッシュ命中は無料
国産ASIC5万基で訓練

中国の生活サービス大手Meituanは6月30日、巨大なAIコーディングモデル「LongCat-2.0」をGitHubHugging Face上で公開しました。1.6兆パラメータのMixture-of-Experts(MoE)構成で、100万トークンの文脈を扱え、商用利用に寛容なMITライセンスで提供されます。同社はこのモデルが、過去2カ月にわたりOpenRouterの開発者ランキング上位を占めてきた匿名モデル「Owl Alpha」の正体だと明かしました。

最大の注目点は、訓練を米NvidiaGPUに頼らず、5万基を超える中国国産ASICで完結させた点です。near-frontier級のモデルを国産シリコンだけで構築できることを示し、Nvidia優位の構造に変化を迫る出来事だと位置づけられています。米国が自国の主要モデルへのアクセスを制限する動きを強める中で、安価で高性能な中国製オープンモデルが世界の開発者の選択肢として浮上しています。

性能面では、ソフトウェア工学のベンチマークSWE-bench Proで59.5を記録し、OpenAIGPT-5.5の58.6をわずかに上回りました。Terminal-Benchで70.8、SWE-bench Multilingualで77.3を示すなど、対話よりも自律的な開発タスクに特化した設計です。汎用性ではClaude Opus 4.8など最上位モデルに及ばないものの、コーディング領域では競争力を持つとされています。

技術的には、合計1.6兆パラメータのうち1トークンあたり平均480億パラメータのみを動かす積極的なスパース化を採用しました。100万トークンの文脈を支えるため、DeepSeek Sparse Attentionを発展させた独自の「LongCat Sparse Attention」を導入し、ハードウェアに沿った効率的なメモリアクセスを実現しています。後処理では、Agent・Reasoning・Interactionの3つの専門家群に最適化を分離する「MOPD」と呼ぶ枠組みを使い、推論・ツール実行・安全性を両立させています。

商用面では、通常の従量課金APIに加え、北京時間の決まった時刻に1日4回の数量限定セールで提供する「Token Pack」を用意しました。最大の特徴は文脈キャッシュの再利用が完全無料になる点で、同じ巨大なコードベースを繰り返し読み込む自律エージェントのコスト構造を大きく変えるとしています。Meituanは2010年創業の出前・生活サービス大手で、利益率低下を背景にAIと国産チップへ多額の投資を進めてきました。

Hugging Face、評価結果をモデルページに統合

統合の中身

EEE結果をCommunity Evalsへ送信可能
EEE記録からYAMLを自動生成
モデルカードとリーダーボードに反映
結果に出所バッジと元記録への逆リンク

規模と仕組み

22.9万件の評価結果を蓄積
2.2万モデル・2200指標を横断
対応は4ベンチマークに限定
明示確認まで自動公開しない設計

Hugging Faceは6月30日、AIモデルの評価結果を集約する取り組み「Every Eval Ever(EEE)」の成果を、同社のモデルページ機能「Community Evals」へ統合したと発表しました。両プロジェクトはともに2026年2月に始動しており、今回の連携で評価結果の報告と閲覧が一つの流れにまとまります。誰がどのモデルをどう測ったかを、利用者が追跡しやすくなる狙いです。

背景には、評価結果が論文やリーダーボード、ブログ、ログなどに散在し、比較が難しいという課題があります。同じモデルを同じベンチマークで測っても、実施者や手法によって数値が変わることが珍しくありません。記事は一例として、LLaMA 65BのMMLUスコアが63.7と48.8の両方で報告されてきた点を挙げ、未記載の評価設定がこうした差を生むと指摘しています。

EEEはこの報告側の問題に対する解決策で、評価結果を単一のJSONスキーマで記録します。実施者、対象モデル、アクセス方法、生成設定、指標の意味などを構造化し、ハーネスのログ、リーダーボードの収集データ、論文の数値を同じ形に揃えます。発足以来、データストアには約22.9万件の評価結果が集まり、2.2万を超えるモデルと2200のベンチマーク、31の報告形式を横断しています。

今回の新機能は、貢献者がEEEの記録をHugging Faceが求めるYAMLファイルへ変換するツールです。これにより、同じ結果を二つの形式で手作業管理する必要がなくなります。ベンチマークはデータセットリポジトリに登録され、モデルのスコアはリポジトリ内の.eval_results配下のYAMLとして保存され、モデルカードと対応するリーダーボードの両方に表示されます。

各スコアには、著者提出・コミュニティ提出・第三者検証のいずれかを示すバッジが付きます。組織の公式アカウント経由で提出すると検証済みチェックマークが表示され、数値が出所から直接来たことを読者に示します。変換ツールは公開前に既存のYAMLを点検し、重複や数値の食い違いを検出したうえで、利用者が「OPEN PRS」と入力するまで一切公開しません。

対応するのは現時点でMMLU-Pro、GPQA、HLE、GSM8Kの4ベンチマークに限られます。それでも、評価データを再生成すれば数十万ドル規模の費用がかかるとされる中で、一度作られた結果を散逸させずに共有できる意義は小さくありません。モデル選定や安全性の評価を担う経営者エンジニアにとって、信頼できる比較材料が整いつつあると言えるでしょう。

Allen AI、密度とスコア同時推定の新モデル公開

DiScoFormerとは

密度とスコアを単一推論で同時推定
再学習なしの汎用モデル
Transformer交差注意を活用

性能と意義

100次元でKDE比誤差大幅減
未学習分布へも高精度に適応
生成AIや科学計算で再利用可能

Allen Institute for AIは6月29日、データ点の集合から分布の密度とスコアを一度の順伝播で同時推定する新モデル「DiScoFormer」をHugging Face上で発表しました。従来は手法ごとに汎用性と精度のどちらかを犠牲にしていましたが、本モデルは再学習なしで両者を両立する点が特徴です。

機械学習や科学の多くの課題は、観測データから元の分布を復元する作業に帰着します。その鍵となるのが密度と、対数密度の勾配であるスコアです。スコアは確率の高い領域へ向かう方向を示し、Stable DiffusionやDALL-Eといった拡散モデルの画像生成や、ベイズ推論、プラズマなどの粒子シミュレーションを支えています。

DiScoFormerはTransformerブロックを積み重ね、サンプル全体を密度とスコアへ写像します。交差注意によりデータのない点でも評価でき、共有バックボーンに密度用とスコア用の2つの出力ヘッドを持たせました。スコアは対数密度の勾配という関係を利用し、両者のずれをラベル不要の整合性損失として推論時に数ステップ最適化することで、未知の入力へその場で適応します。

注意機構はカーネル密度推定(KDE)の一般化にあたります。1つの注意ヘッドの重みはデータ上のガウスカーネルにほぼ等しく、交差注意ブロック1つでKDEを再現できると数学的に示されました。さらに複数のスケールを同時に学習してデータに適応させ、KDEを特殊例として包含しつつ改善する設計です。

学習にはガウス混合モデル(GMM)を用いました。GMMは万能な密度近似器であり、密度とスコアの厳密な閉形式を持つため、バッチごとに新たなGMMを引いて正確な教師信号として供給でき、事実上無制限の学習例を確保できます。

性能面ではKDEを密度・スコアの双方で上回り、100次元ではスコア誤差を約6.5倍、密度誤差を37倍以上低減しました。学習時より多くのモードを持つ混合分布やラプラス分布などにも高精度を保ちます。スコア推定は生成モデルやベイズ推論、科学計算に共通する依存処理であり、再学習不要の汎用推定器は多分野のコストを一括で削減する可能性があると同社は示しています。

DeepSeekが推論高速化技術DSparkをMIT公開

技術の中身

投機的デコードの新手法
ドラフトが先読みし本体が検証
半自己回帰生成で精度両立
負荷に応じた検証量調整

性能と適用範囲

ユーザー体感で最大85%高速化
QwenGemmaにも適用可能
自社ホスト型モデルが対象

中国DeepSeekが2026年6月の週末に、大規模言語モデル(LLM)の推論を高速化する新フレームワークDSparkをオープンソース公開しました。商用利用も認める寛容なMITライセンスで、GitHubHugging Faceから入手できます。出力内容を変えずに応答速度を高める点が特徴で、開発者や企業が自由に研究・転用できます。

DSparkが採用するのは投機的デコードと呼ばれる手法です。LLMは通常、文章を1トークンずつ順番に生成するため処理が遅くなりますが、軽量な「ドラフト」が次の数トークンを先読みして提案し、本体モデルがまとめて検証します。推測が当たれば一気に複数トークン進み、外れた部分だけ破棄して作り直す仕組みです。

今回の核心は2つの工夫にあります。1つは半自己回帰生成で、並列処理の速さと逐次処理の一貫性を両立させ、不自然な語のつながりを抑えます。もう1つは確信度に応じた検証で、ハードウェアを意識したスケジューラーがサーバー負荷に合わせて検証するトークン量を柔軟に変え、無駄な計算を減らします。

DeepSeekの本番環境テストでは、自社モデルのV4-Flashで最大85%、V4-Proで最大78%のユーザー体感速度向上を記録しました。さらに厳しい速度目標下では総処理量が661%増えたとも報告しています。前者は「乗り心地の速さ」、後者は「道路がさばける交通量」を測った指標だと同社は説明します。

重要なのは、この技術がDeepSeek専用ではない点です。同社の検証ではアリババのQwenやグーグルのGemmaでも受理長が改善し、自社でモデルの重みとサーバー基盤を管理する企業なら、独自のドラフトモジュールを学習させて適用できます。ただしAPI経由の利用者は外部から後付けできず、自己ホスト型インフラの優位性を裏付ける結果となりました。

DSparkは、モデル本体の構造を変えなくても推論層に大きな性能の余地が残ることを示しました。AI各社がモデル品質や価格で競う中、デコード効率は新たな主戦場になりつつあります。今後の性能向上は巨大モデルだけでなく、手元のモデルをいかに賢く動かすかにかかっていると言えるでしょう。

HF JobsでvLLMサーバー1コマンド起動

1コマンドで起動

hf jobs runで即起動
vllm-openai公式イメージ使用
--flavorでGPU指定

OpenAI互換で利用

HFトークンで認証必須
OpenAIクライアント流用可
秒単位課金で都度停止

用途と拡張

大規模モデルはGPU分散対応
本番用途はEndpoints推奨

Hugging Faceは2026年6月26日、HF Jobs上でvLLMサーバーを1コマンドで起動する手順を公式ブログで公開しました。テストや評価、バッチ生成のために、モデルを最速で立ち上げる方法として紹介しています。

手順の中心はhf jobs runコマンドです。これはHFインフラ向けのdocker runにあたり、公式のvllm-openaiイメージを指定し、--flavorでGPUを、--exposeでポート8000を公開します。起動後はジョブIDとアクセス用のURLが表示され、数分でサーバーが稼働します。

公開されたサーバーはOpenAI API互換で、リクエストにはHFトークンをベアラートークンとして付与します。curlのほか、OpenAIクライアントのbase_urlを向けるだけでPythonからも呼び出せます。エンドポイントは公開ではなく、トークンを持つ本人や組織に限定されたゲート方式です。

課金は秒単位で、a10g-largeは1時間あたり1.50ドルです。使い終わったらhf jobs cancelで明示的に停止する方がコストを抑えられます。--timeoutは自動停止の安全網として機能します。

大規模モデルにも同じコマンドが使えます。--flavorで強力なGPUを選び、--tensor-parallel-sizeでモデルをGPU間に分散させることで、122BのQwen3.5などもH200×2で動かせます。SSH接続やGradioによるUI、コーディングエージェントの基盤としての利用も可能です。

記事は使い分けの指針も示しています。最大限の柔軟性と制御がほしい実験や単発の評価にはHF Jobsが適し、アクセス制御やゼロスケールなど本番運用向けの機能が必要ならInference Endpointsを選ぶよう勧めています。

NVIDIA、MoE学習を最大3.7倍高速化

発表の要点

import1行で3.4〜3.7倍高速化
GPUメモリ最大32%削減
Transformers v5を土台に拡張
HF互換APIで既存コード不変

技術と適用範囲

Expert Parallelismで専門家を分散
DeepEPが通信と計算を融合
550Bモデルの全層調整も実現

NVIDIAは6月24日、HuggingFace Transformersの上に構築するオープンライブラリ「NeMo AutoModel」を公開しました。import文を1行変えるだけで、MoE(混合専門家)モデルのファインチューニングTransformers v5比で3.4〜3.7倍高速化し、GPUメモリを29〜32%削減します。from_pretrained()など既存APIはそのまま使え、コード改変は不要です。

MoEモデルの学習には固有の難しさがあります。数百の専門家へトークンを振り分け、行列積を一つのカーネルに融合し、重みをGPU間で分割し、通信と計算を重ね合わせる処理が必要だからです。Transformers v5は専門家バックエンドや動的な重み読み込みでこれに対応しましたが、通信と計算を重ねるDeepEPは未実装でした。

NeMo AutoModelはこの欠けた部分を補います。AutoModelForCausalLMを継承し、Expert Parallelism(EP)、DeepEPによる全対全ディスパッチTransformerEngineカーネルを追加しました。EPは専門家の重みをGPU間で物理的に分割し、8GPUなら各GPU専門家の8分の1だけを保持します。これにより、従来は約55GiB必要だった専門家の重みが1GPUあたり約6.8GiBに収まります。

性能評価は2つの規模で実施されました。8GPU単一ノードのQwen3-30B-A3Bでは、v5比でスループットが3.69倍、ピークメモリは29%減。Nemotron 3 Nano 30Bでも3.36倍、メモリ32%減を記録しました。高速化の源はEPによるメモリ削減、DeepEPの通信融合、TransformerEngineの最適化カーネルの3点です。

大規模側では、550BパラメータのNemotron 3 Ultraの全層ファインチューニング16ノード128GPUで実行しました。Transformers v5はこの規模でメモリ不足になり動作しませんが、EPが専門家を分散することで学習が可能になります。EPが本領を発揮するのは、まさにこの大規模領域です。

NeMo AutoModelの出力は標準的なHF形式のsafetensorsであるため、save_pretrained()で保存した重みはvLLMやSGLangといった推論基盤にそのまま載せられます。NVIDIAは、Transformers v5を使うユーザーにとって本ライブラリが摩擦のない次の一歩になると位置づけています。

Hugging Faceが遠距離音声認識の公開ベンチマーク公開

ベンチマークの狙い

遠距離音声認識の初の公開基準
残響・雑音・距離を再現
クリーン環境との性能差を可視化
Treble主導でHugging Faceが共催

評価手法と所見

9条件で評価、主要4条件で順位
WERとRTFxを併記
低SNRで誤りが数倍に悪化

Treble TechnologiesとHugging Faceは6月24日、遠距離音声認識(Far-Field ASR)の精度を実環境に近い音響条件で測る初のオープンなベンチマークFFASRリーダーボード」を公開しました。残響や背景雑音、マイクとの距離を再現し、コミュニティが自由にモデルを投稿して結果を比較できます。音声エージェントや会議室の文字起こしなど、遠隔マイク利用の増加が背景にあります。

従来のASR評価は、マイクを口元に近づけたクリーンな音声を前提としてきました。しかしLibriSpeechなどの近接環境で高得点を出すモデルでも、実際の部屋の音響が加わると精度が大きく落ちることが知られています。FFASRはこの性能差を標準化した形で継続的に計測することを目的に設計されました。

評価は9条件で行われ、順位を決める主要4条件は、無響室で測ったクリーン音声と、高・中・低の3段階のSNR(信号対雑音比)下での遠距離音声です。音響データはTrebleのハイブリッドシミュレーションエンジンで生成し、回折や散乱といった現実の現象を再現します。浴室から教室、レストランまで20〜470立方メートルの14室を用意し、咳などの突発音とHVACなどの連続音を加えています。

精度を示すWERに加え、リーダーボードはNVIDIA L4 GPU上で測った処理速度の指標RTFxも併記します。精度と速度の両方が実運用では重要だとして、両者のトレードオフをパレートフロントとして可視化し、用途に合うモデルを選べるようにしています。

公開後に浮かび上がった共通の傾向は、近接環境と遠距離環境の性能差が大きく、SNRが下がるほど急拡大する点です。低SNRの遠距離WERは近接時の数倍に達することも多く、従来は社内評価でしか見えにくかった劣化が比較可能になりました。

投稿はSubmitタブにHugging FaceのモデルIDを貼るだけで、サーバー側で非公開の評価データに対して実行されます。WhisperやIBM Granite Speech、Cohere Transcribeなど主要なASRアーキテクチャに対応し、複数話者やマイクアレイ、エコー除去への対応を今後のロードマップに挙げています。

Hugging Face、AIで週次リリースを自動化

リリース頻度の刷新

4〜6週から週次へ短縮
単一のGitHub Actionsで実行
オープン基盤のみで構築
リリースノート作成を自動化

信頼性の担保策

モデル下書き+人間が判断
決定論的検証でPR欠落を防止
ドキュメント差分を文脈に投入
1回あたり約0.25ドル

AI開発企業のHugging Faceは2026年6月23日、Pythonクライアント「huggingface_hub」のリリース作業をAIで自動化し、配信頻度を従来の4〜6週ごとから週1回へ高めたと自社ブログで明らかにしました。単一のGitHub Actionsワークフローで処理し、オープンソースツールとオープンウェイトのモデルだけで構築した点が特徴です。

従来の作業は一部が自動化されていたものの、リリースノートの執筆や告知文の作成は毎回手作業でした。数十件のPRをテーマ別に整理して書く作業に数時間を要し、小規模な更新でも実質半日仕事になっていたといいます。

同社はまず作業を機械的な処理と判断を要する作業に分けました。バージョン更新やコミット、タグ付けなどは自動化し、文章作成や強調点の選定といった「頭を使う部分」の下書きをAIに担わせる設計です。

信頼性の核となるのが「モデルが下書きし、人間が決める」という原則です。リリース対象のPR番号を事前にスクリプトで抽出して正解リストとし、モデルの出力に欠落や混入がないか決定論的に照合します。不一致があれば該当PRだけを修正させる反復処理で、PRの取りこぼしや誤記載を防ぎます。

精度面では、各PRが変更したドキュメントの差分をモデルの文脈に渡すことで、実在しないコード例の生成を抑えています。公開後はAIの初稿のみが下書きとして残り、担当者が15分程度の編集で仕上げてから正式版を配信する流れです。

セキュリティ面ではPyPIのTrusted Publishingを採用し、長期保管するトークンを排除しました。1回のリリースにかかる推論費用は約0.25ドルにとどまります。同社はこの「信頼するが検証する」仕組みを汎用的な手法として公開し、他のPythonライブラリにも展開する考えです。

GitHub、カリフォルニア州AI透明化法の修正を要求

連合での要求

GitHubがOSS連合に参加
Hugging Faceやモジラと共同
AI透明化法の修正要望

争点と代替案

ライセンス取消条項が問題
OSSは永続・取消不可が前提
供給網への不確実性懸念
EUのAI法に整合する案を提示

コード共有基盤のGitHubは6月23日、Black Forest Labs、Hugging Face、モジラと共にオープンソース連合を結成し、米カリフォルニア州のAI透明化法(SB942、修正案SB1000)に対し的を絞った修正を求める書簡を公表しました。規制の趣旨は保ちつつ、オープンソースのライセンス慣行との衝突を解消する狙いです。

争点は法案のライセンス取消条項にあります。オープンソースのライセンスは永続的かつ取消不可を前提に設計されており、開発者が安心してコードを再利用・共有できる仕組みを支えています。しかし法案は、下流の利用者が一定の義務を満たさない場合に開発者へライセンス取消を義務づけており、これが広く使われるライセンスと両立しないと指摘します。

連合はこの要件が法案の目的達成に不要だと主張します。AIシステムを改変・展開する開発者はすでに法の対象であり、執行の仕組みも維持されるためです。代替案として、オープンソースの特性を認め、下流利用者へ最良慣行を文書で通知すれば十分とするEUのAI法透明性行動規範への整合を挙げています。

GitHubは、透明性という法案の目的を保ちながらオープンソース開発との互換性を維持できるとして、これらの修正を支持しています。AIの説明責任と開かれた協調的なイノベーションを両立させるうえで、この均衡をどう取るかが重要だと強調しました。

同社は政策立案者への意見表明も呼びかけています。開発者や市民社会を含む技術的に根拠ある声が、オープンソースの基盤を損なわずに透明性要件を機能させる鍵になるとしています。

ブラウザのAIモデル重複保存を解消する新API提案

課題

オリジン分離でキャッシュ非共有
同一モデルの重複ダウンロード
Wasm実行環境の二重保存
ディスク容量と通信の浪費

提案するAPI

ハッシュでファイル識別
navigator.crossOriginStorage導入
オリジン横断の単一キャッシュ
書き込み時のハッシュ検証

Hugging Faceは2026年6月23日、ブラウザ向けAIライブラリTransformers.jsで提案中のCross-Origin Storage(COS)APIを試した結果をブログで公開しました。COSは、複数のサイト間でAIモデルやWebAssemblyの実行環境を重複なく共有することを狙う初期段階の仕様提案です。

問題の背景は、ブラウザのキャッシュがオリジンごとに分離されている点にあります。同じモデルでも別ドメインのアプリを開くと再ダウンロードが必要で、記事の例では177MBもの重複ダウンロードと保存が発生します。これはセキュリティプライバシー保護のため、キャッシュをサイト単位で隔離している設計に由来します。

さらに、利用するモデルが異なるアプリ同士でも、土台となるONNX Runtimeの共通Wasmファイルを別々に取得・保存してしまいます。最終的なCDNのURLが同一でも、ネットワーク分離キーが一致しないためキャッシュは再利用されません。

COSは、ファイルをURLやオリジンではなく暗号学的ハッシュで識別する仕組みです。navigator.crossOriginStorageというインターフェースを通じ、ハッシュが一致すれば取得元を問わず同一ファイルとして認識し、一度の保存を全サイトで使い回せます。

公開範囲は開発者が制御できます。AIモデルやWasmのように広く共有したい資源はすべてのオリジンに開放し、社内専用モデルは特定オリジンに限定できます。可視性は拡大はできても縮小はできないため、公開資源を悪意ある第三者が制限し直す攻撃を防ぎます。

加えてCOSは書き込み時にハッシュを検証するため、宣言と異なるデータは保存に失敗します。これによりモデルの重みが正しいバイト列かを自動で整合性確認でき、公式CDNでも有志のミラーでも信頼して利用できる点が利点です。

Krea、画像生成AIを2秒のオープンウェイト公開

公開モデルの概要

学習用のRawと高速版Turbo
2秒での画像生成
120億パラメータの新設計

ライセンス条件

50席超は有償の企業契約
違法画像防止の技術対策を義務化
生成物の著作権は利用者

AI創作ツール新興企業のKreaは6月、新たな画像生成AI「Krea 2」のオープンウェイト版を公開しました。学習向けの「Krea 2 Raw」と高速生成向けの「Krea 2 Turbo」の2種で、いずれもHugging Faceから誰でもダウンロードできます。同社はAI画像が画一的になりがちな課題を踏まえ、表現の多様性と高い指示再現性の両立を掲げます。

技術的な中核は、ゼロから構築した120億パラメータの拡散トランスフォーマーです。Turboは知識蒸留により生成工程を8ステップまで圧縮し、一般的な消費者向けハードでも2K解像度の画像を約2秒で描き出します。一方のRawは事後学習や人間のフィードバックによる調整を施さない素の状態で、独自スタイルの追加学習に向く「白紙のキャンバス」と位置づけられています。

想定される使い方は「Rawで学習し、Turboで生成する」という流れです。Rawは作り込まれた作風の偏りがないため、建築製図や特定ブランドの素材といった独自表現を高い忠実度で吸収できます。学習したLoRAはそのままTurboへ移植でき、高速な試作と反復に活用できる仕組みです。

ライセンスは独自の「Krea 2 コミュニティライセンス契約」を採用しました。個人や小規模事業者は無償で商用利用や成果物の収益化ができ、Kreaは生成物の著作権を主張しないと明記しています。一方で席数が50を超える組織は企業向けの有償契約が必要となり、APIの利用も生成ごとに課金される別建てのサービスです。

従来のMITやApache 2.0と異なり、この契約には下流の行動規範が課されています。モデルを自社運用する事業者は、違法素材や同意なき性的画像、児童性的虐待素材、名誉毀損的な生成物を防ぐための入出力フィルターの実装を義務づけられます。怠れば契約違反となり、Kreaは重みの更新やアクセス停止を行う権利を持ちます。

Kreaは2022年にサンフランシスコで創業し、これまでに計8300万ドルを調達、利用者は191カ国で3000万人を超えると説明しています。複数のAIエンジンを束ねる集約サービスから、自社開発モデルを提供する企業への転換を進めてきました。今回の公開は、閉鎖的なAPIに対し制作者の自由度を重視する選択肢として、オープンウェイト市場での競争を一段と高めるものと位置づけられます。

PaddleOCRが50言語対応の軽量OCR新版を公開

3階層のモデル

パラメータ1.5M〜34.5M
tiny/small/mediumの3層
用途別に最適サイズ選択
共通バックボーン採用

性能と展開

medium認識精度83.2%
v5比で検出・認識向上
50言語を1モデルで対応
Hugging Faceで提供

中国の百度系PaddleOCRは6月22日、汎用OCRモデルの最新世代「PP-OCRv6」をHugging Faceで公開しました。文書やスクリーンショット、多言語画像、産業ラベルなど実環境のテキスト検出・認識を狙い、1.5M〜34.5Mパラメータの3階層で軽量さと精度を両立します。VLM全盛の時代に専用OCRの実用価値を示す動きです。

モデルはtiny、small、mediumの3層で構成されます。最小のtinyはエッジ端末向け、mediumはサーバー側の高精度処理向けと、用途に応じてサイズと精度を選べる設計です。small以上の2層は簡体字・繁体字・英語・日本語を含む50言語に対応します。

精度面では、PaddleOCR独自の複数シナリオ評価でmediumが検出Hmean86.2%、認識精度83.2%を記録しました。前世代のPP-OCRv5_serverと比べ、検出で4.6ポイント、認識で5.1ポイント向上しています。

技術面では、検出に大カーネルの軽量特徴ピラミッド「RepLKFPN」、認識に局所文脈と全体注意を組み合わせた「EncoderWithLightSVTR」を採用しました。小さく回転した文字や低解像度、複雑な背景といった難しい入力への対応力を高めています。

展開の柔軟性も特徴です。Transformers、ONNX Runtime、Paddle Inferenceの3つの推論基盤に対応し、`pip install paddleocr`で導入できます。出力は可視化画像と構造化JSONで保存でき、文書解析や検索RAGエージェントの処理に組み込めます。

リサーチAIの検索ログから機密漏洩、新手法で大幅抑制

モザイク漏洩の脅威

検索クエリ経由の情報漏洩
断片の組み合わせで機密復元
観測対象は外部クエリ履歴のみ

性能と機密の対立

性能向上訓練で漏洩悪化
禁止指示の効果は限定的
ベンチマークは1001連鎖

新手法PA-DRの成果

強連鎖成功率58.7%
漏洩を34%から9.9%

ServiceNowとHugging Faceの研究チームは6月18日、ディープリサーチAIが外部検索を通じて社内機密を漏らす危険を測る新ベンチマークMosaicLeaksを公開しました。社内文書とWeb検索を併用するAIは、一見無害なクエリを重ねるうちに、断片を統合すれば機密が復元できるモザイク効果を招きます。攻撃者は検索ログだけから企業情報を推測できる点が核心です。

漏洩は三段階で測定されます。検索ログから調査の意図を推測する意図漏洩、ログに基づき機密の質問へ回答できる答え漏洩、そして何を探すか指示されずとも真の機密を述べられる完全情報漏洩です。後者ほど深刻で、観測者が能動的に機密事実を発見できる状態を意味します。

ベンチマークは社内文書とWeb文書をまたぐ1001件の多段推論連鎖で構成されます。各連鎖では前段の回答が次段の橋渡し情報となり、AIは社内情報を取得しなければ次のWeb検索を組めない設計です。漏洩を誘発しやすい一方、漏らさずに解くことも可能な課題が狙いとされています。

検証では、AIに検索性能だけを学習させると逆効果が生じました。強連鎖成功率は48.7%から59.3%へ上がった一方、答えや完全情報の漏洩は34.0%から51.7%へ悪化したのです。より多くの文脈を検索文に詰める挙動が、性能には寄与しつつ機密保護を損なう構図が浮かび上がりました。

そこで提案されたのが、機密配慮型の強化学習手法PA-DRです。段階ごとの状況報酬と、クエリの漏洩リスクを推定する学習済み報酬を組み合わせ、ログを露見させた計画判断に的確に罰を与えます。結果、強連鎖成功率を58.7%とほぼ維持しつつ、漏洩9.9%まで削減しました。

注目すべきは、検索回数を減らして安全性を得たのではない点です。PA-DRはむしろWeb検索を増やしながら、具体的な数値や年など機密につながる詳細を落とし、適切な公開文書には到達します。社内情報を外部に持ち出さない検索の作法を、AI自身が学べる可能性を示した成果と言えるでしょう。

HuggingFaceがLoRA超え検証、最適手法は用途次第

LoRA一強の現状

モデルカードの98.4%LoRA
画像生成でも95%占有
人気が自己強化する構図

公平な比較基盤

同条件で40以上の手法を評価
論文の自社有利な比較を回避
VRAM・忘却・速度も計測

用途別の最適解

画像生成ではOFTが上回る
config一行で手法切替

米AI企業のHugging Faceは2026年6月18日、自社ブログでパラメータ効率の良い微調整手法(PEFT)の比較検証結果を公表しました。広く使われるLoRAが本当に最適かを同社の標準ライブラリで検証し、用途によっては他手法が上回ると結論づけています。経営者エンジニアが開いたモデルを自社データで調整する際の指針となる内容です。

PEFTは、モデル全体を何度も載せる必要がある微調整のメモリ負荷を大幅に下げる技術群です。少ないメモリで量子化モデルも調整でき、チェックポイントが小さく、既存知識を忘れにくい利点があります。同社が開発するPEFTライブラリは、多数の手法を統一APIで扱える点が特徴です。

LoRAは早期に登場し効果が高かったため、現在は圧倒的な普及率を誇ります。同社の調査では、PEFT手法を一つだけ挙げたモデルカードの98.4%LoRAで、画像生成のチェックポイントでも約95%を占めました。ただしこれは性能の証明ではなく、解説や周辺対応の充実が人気を呼ぶ自己強化の可能性も指摘しています。

論文に基づく手法選びには問題があると同社は警告します。研究者は既存指標を超える結果を出す圧力にさらされ、比較対象や評価基準も論文ごとに異なるため、再現が難しいのです。実際、学習率の調整だけでLoRAが他手法に並ぶという研究もあります。

そこで同社は同一の基盤モデル・データ・ハードウェアで全手法を評価する基準を整備しました。数学データセットでの推論学習と、猫のぬいぐるみという新概念を学ぶ画像生成の二つを用意し、テスト性能に加えVRAM使用量や忘却、実行時間、チェックポイント容量まで追跡しています。

結果として、数学課題ではLoRAが性能とメモリの均衡点に位置する一方、画像生成ではOFTが高い類似度と低メモリで上回りました。同社は、LoRAが悪い選択ではないものの自動的な既定にすべきではなく、config一行で手法を切り替えて自分の用途に最適な手法を試すよう促しています。

Hugging Faceがエージェント向けツール検証手法を公開

評価手法の狙い

過程まで計測する評価
正解だけでなく手数を測定
ツール改善効果の可視化

検証で得た発見

CLIとSkillで大型は高速化
小型モデルでは精度低下
Qwen3-14Bは正答率半減
Skillの誤認識が失敗要因

AI開発企業のHugging Faceは2026年6月18日、コーディングエージェントが特定のソフトウェアをどれだけ効率的に扱えるかを測る検証手法を公開しました。同社のライブラリ「transformers」を題材に、最終的な正解だけでなく、答えにたどり着くまでの手数やトークン量、所要時間を計測する点が特徴です。

従来のベンチマークの多くは、エージェントが最終的に正しい答えを出せたかどうかだけを見てきました。しかし同じ結果でも、1コマンドで完了する場合と、40行のスクリプトを書いて何度も再実行する場合では、コストや失敗率が大きく異なります。同社はこの過程の差こそが、ライブラリの設計改善に重要だと指摘します。

検証では各タスクを3つの条件で実行しました。素のインストール状態、ソース全体を複製した状態、そしてCLIの文書と利用例をまとめた「Skill」を読み込ませた状態です。すべてHugging Face Jobs上で同一ハードウェアを使い、モデル・改訂版・タスクの組み合わせごとに並列実行しています。

結果として、CLIとSkillを追加した変更は大型の高性能モデルの作業時間を短縮しました。一方で小型モデルでは逆効果となる場面が確認されています。例えばQwen3-14Bは、Skillを加えると全体の正答率が67%から43%へ低下し、感情分類タスクでは100%から0%まで崩れました。

原因をたどると、小型モデルがSkillを実行可能なツールと誤認し、シェルから動かすべきCLIを直接呼び出そうとして処理を断念していたことがわかりました。同社は、エージェント向けのAPIはモデル規模ごとに評価すべきだと結論づけ、検証手法を自社ライブラリにも適用できる形で公開しています。

Z AI、長時間作業向けGLM-5.2を公開

モデルの特徴

MITライセンスで完全オープン
100万トークンの長文脈対応
思考の努力度を切替可能
パラメータ規模は753B

性能と用途

コーディングオープン最強
Opus 4.8に肉薄する精度
Claude Code等から利用可能

中国のZ AIは2026年6月17日、長時間タスク向けに設計した大規模言語モデルGLM-5.2を公開しました。最大100万トークンの文脈長と、地域制限のないMITライセンスでの完全オープン提供が柱です。モデルの重みはHuggingFaceとModelScopeで配布され、coding agentとして実用できる点を前面に打ち出しました。

最大の狙いは、単にトークン数を増やすのではなく、長く乱雑なコーディング作業の軌跡でも品質を保つことにあります。同社は実装やデバッグ、性能最適化といった長時間タスク向けの訓練を大幅に拡充しました。その成果として、数時間規模の技術プロジェクトを評価するFrontierSWEなどの長期ベンチマークで、いずれもオープンソース首位を確保しています。

標準的なコーディング指標でも前世代から大きく前進しました。Terminal-Bench 2.1では前版の63.5から81.0へ、SWE-bench Proでも58.4から62.1へ伸び、クローズドな最先端モデルとの差を詰めています。Terminal-Bench 2.1ではClaude Opus 4.8(85.0)に数ポイント差まで迫り、Gemini 3.1 Proを上回りました。

技術面では、4層ごとに同じインデクサを共有するIndexShareを導入しました。これにより100万トークン時のトークン当たり計算量を2.9倍削減し、長文脈の計算コストを抑えています。投機的デコーディング用のMTP層も改良し、受理長を最大20%向上させました。

利用者は努力度を明示的に指定し、性能と速度・計算コストのバランスを調整できます。最も負荷の高いMaxモードでは難タスクに計算資源を追加配分でき、用途に応じた使い分けが可能です。GLM-5.2はZCode、Claude Code、OpenCodeなどから利用でき、Coding Plan契約者には既に展開済みです。

なお同社は、検証可能な合否報酬を悪用する報酬ハッキングへの対策も公表しました。ルールベースの検出とLLM判定を組み合わせ、不正なツール呼び出しを遮断しつつ学習を継続させる仕組みです。オープンな最先端モデルとして、透明性の高い開発のあり方も示した発表と言えます。

AWSがロボット制御をエージェントに統合するSDK公開

SDKの中身

AWS製オープンソースSDK
LeRobot機能をAgentTool化
Apache2.0ライセンス
記録・学習・推論を一括統合

実機への展開

引数1つでシミュから実機へ
同一データ形式を共有
Zenoh活用の群制御
人間承認で安全担保

AWSは6月17日、ロボット開発の各工程を一つのAIエージェントから自然言語で操作できるオープンソースSDK「Strands Robots」を公開しました。Hugging Faceロボット学習基盤LeRobotの機能をエージェント用ツールとして束ね、これまで記録・学習・シミュレーション・実機展開・複数台連携の5つに分かれていた作業を一本化します。ライセンスはApache2.0です。

最大の特徴は、シミュレーションと実機のコードがほぼ同一である点です。ロボットを生成する関数は標準でMuJoCoベースの仮想環境を返し、引数をmode="real"に変えるだけで物理ロボットに切り替わります。仮想環境で記録したデータも実機の記録も同じLeRobotDataset形式で保存されるため、片方向けに書いた学習スクリプトをもう片方でもそのまま使えます。

ポリシー推論も共通の入口で扱えます。NVIDIAGR00Tやローカル推論、MolmoAct2のチェックポイントを同じインターフェースで呼び出せるほか、ACTやSmolVLA、π0なども利用可能です。GPUやDocker、Hugging Face認証情報がなくても、模擬ポリシーを使えばノートパソコン上でシミュレーションを最後まで動かせる設計です。

複数台の連携には、ブローカー不要のP2PプロトコルZenohを使ったメッシュ機能を採用しました。新しいロボットは起動した瞬間にメッシュへ参加し、エージェントが一斉に指示を出せます。IPアドレスの管理や探索コードの記述は不要です。

物理的に動作する命令には人間の承認を介在させる仕組みが標準で入っています。一斉送信や緊急停止などはLLMの引数とは別経路で操作者の許可を求めるため、プロンプトインジェクションで承認を偽装する攻撃を防げます。本番運用ではmTLS認証が必須とされ、信頼できないデータを与えない設計が推奨されています。

この統合の狙いは、LeRobotが持つ資産を作り直さず、エージェントから扱える表層だけを足すことにあります。Hub上のあらゆるデータセットがエージェントの拡張・学習・展開の対象になり、仮想と実機の境界は設計上の分断ではなく単なる展開手順の違いになります。AWSArmと協力した本番向けネットワーク層「Device Connect」も用意しており、コードを変えずに規模を広げられるとしています。

AIエージェントが実行時にツールを探す新標準ARD公開

ARDの狙い

事前導入なしの実行時探索
ツール・スキル・エージェントを横断検索
選択をLLM外に移す設計
製品ではなく業界共通の標準

HFの実装

参照実装Discover Toolを提供
Spacesを意味検索しスキル化
REST・CLI・MCPで利用可能

MicrosoftGoogleHugging Faceなどの貢献者が2026年6月17日、AIエージェントがツールやスキル、他のエージェントを実行時に発見するためのオープン仕様Agentic Resource Discovery(ARD)を公開しました。設定ファイルへ事前に組み込む現在の方式に代わり、連合型レジストリ越しに能力を検索できる発見層を定めるドラフト仕様です。製品やマーケットプレイスではなく、どの企業も独自に実装できる共通標準と位置づけられています。

従来のエージェントは「先に導入し後で使う」方式が前提でした。開発者MCPサーバーのURLを設定に固定するやり方は日常的に使う数個のツールには有効ですが、無数の臨時的な用途には拡張できません。全ツールの説明をLLMのコンテキストに詰め込む代替策も、コンテキスト予算の制約を受けます。

ARDはこの選択処理をLLMの外へ移します。レジストリが発行者情報や代表的な問い合わせ例、コンプライアンス証明、タグといった豊富な信号で能力を索引化し、REST経由で公開します。クライアントが自然言語で検索し、モデルはその結果を呼び出すだけ。手動導入の静的カタログから意図ベースの検索へと転換し、MCPツールやA2Aエージェントを事前設定なしに広く利用できます。

仕様は2つの要素を定義します。発行者が能力を周知URLで公開する静的マニフェスト「ai-catalog.json」と、ライブで順位付けされた検索を返す動的なレジストリAPI「POST /search」です。Hugging FaceDiscover Toolはその参照実装で、Hubの既存の意味検索をARDのカタログ形式に変換し、数千のSkillsやMLアプリ、MCPサーバーへの検索アクセスを提供します。

利用方法も整備されています。Hugging Face CLIに組み込まれた「hf discover search」コマンドや、well-known URLで公開されるカタログ、直接叩けるREST APIとMCPエンドポイントから検索できます。今後は仕様の連合モードとの統合強化や、ユーザー・組織プロフィールでの静的マニフェスト対応が予定されており、あらゆる発行者が標準的な仕組みで自らの能力を広告できるようになります。

Z.aiの公開重みGLM-5.2、低コストでGPT-5.5を上回る

性能と価格

SWE-benchでGPT-5.5超え
API出力料金は6分の1
MITライセンスで無制限利用
1Mトークンの長文脈対応

技術と展開

IndexShareで計算量2.9倍削減
Claude CodeなどでDay1対応
開発者から高評価

中国のAIスタートアップZ.aiは6月16日、7530億パラメータの公開重みモデルGLM-5.2を即日リリースしました。長時間にわたる自律的なコーディングや開発作業に特化して設計され、Hugging FaceやZ.aiのAPI、20以上のサードパーティ開発環境で利用できます。月額12.6ドルからの料金体系と100万トークンの文脈長を備え、企業のAI活用を狙います。

最大の特徴はMITライセンスでの重み公開です。企業はモデルを自由にダウンロードし、改変・微調整したうえで自社インフラ上やローカルで運用できます。先週、トランプ政権がAnthropicClaude Fable 5への外国人アクセスを禁じる輸出規制を発令し、同社がモデルを全面停止した経緯もあり、地理的な制約を回避できる選択肢として注目されます。

ベンチマークでも存在感を示します。長時間タスクを測るSWE-bench Proで62.1点を記録し、GPT-5.5の58.6点を明確に上回りました。MCP-AtlasやFrontierSWEではClaude Opus 4.8と接戦を演じ、設計タスクのDesign Arenaでは1位を獲得しています。一方でTerminal-Bench 2.1の生スコアでは上位2モデルにわずかに及びません。

技術面ではIndexShareと呼ぶ最適化を導入しました。4つのスパースアテンション層ごとに同一のインデクサーを再利用することで、100万トークン時のトークンあたり計算量を2.9倍削減します。さらに思考の強度を「Max」「High」で切り替えられ、Highでは性能をほぼ保ちつつ出力トークン量を半減できます。

コスト優位は鮮明です。API料金は入力100万トークンあたり1.4ドル、出力4.4ドルで、出力30ドルのGPT-5.5や25ドルのClaude Opus 4.8を大きく下回ります。開発者向けにはGLM Coding Planも用意し、Claude CodeやCline、Kilo Codeなど主要なコーディングツールに即日対応しました。Cline IDEは「オープン重みの復活」と評し、開発者コミュニティから歓迎されています。

新研究、LLMの文脈を16倍圧縮しKVキャッシュ超え

技術の中身

入力を事前圧縮する新方式
デコーダ手前で16倍圧縮
従来比8.8倍高速
符号化器0.6Bと復号器4Bの構成

精度と実用性

4倍圧縮で精度91.76%維持
100万トークンも単一GPUで処理
RAG連携には調整が必要

米ニューヨーク大学やコロンビア大学などの研究チームは2026年6月11日、大規模言語モデル(LLM)の入力文脈を圧縮する新手法「潜在文脈言語モデル(LCLM)」を発表しました。デコーダに到達する前に入力トークン列を圧縮することで、長大化する文脈が生む計算コストと処理速度の課題を解決します。モデルはHuggingFace上でオープンソース公開されました。

従来主流のKVキャッシュ圧縮は、全キャッシュを生成してから不要部分を削除します。これに対しLCLMはデコーダのprefill前に入力そのものを圧縮するため、高い圧縮率がそのまま計算量とメモリの削減に直結します。論文によると、長文脈ベンチマーク「RULER」で16倍圧縮時、KVキャッシュ基準より出力が8.8倍高速になりました。

精度の劣化が小さい点も特徴です。4倍圧縮では文脈を4分の1に減らしながら精度91.76%を保ち、無圧縮の94.41%から3ポイント未満の低下にとどまりました。16倍圧縮で入力の93.75%を除いた場合でも精度は75.06%で、同条件のKVキャッシュ手法をすべて上回りました。

アーキテクチャは0.6Bの符号化器4Bの復号器を組み合わせ、3500億トークン超で訓練されました。継続事前学習推論や長文脈タスクの教師ありデータ、細部を保持させる補助的な再構成タスクの3種を混ぜることで、圧縮と汎用性能の両立という従来の課題を克服しています。探索の結果、符号化器より復号器を拡大する方が効果的と判明しました。

実用面では既存のLLMと差し替えて使える設計です。共同責任者でコロンビア大学のミカ・ゴールドブラム氏は、文書を文脈に投入する前に圧縮器を通すだけだと説明します。人間が内容をざっと読んでから重要箇所を精読する動きに近く、エージェントが必要なテキストだけ選択的に復元する仕組みも示されました。

一方で課題も残ります。RAGパイプラインを持つ企業は、導入前に検索品質の指標に対して圧縮の挙動を検証する必要があります。さらに推論トレースのオンライン圧縮は未解決で、生成中に随時圧縮する素朴な手法が機能するかは今後の検証次第とされています。コードとモデルはGitHubHuggingFaceで公開されています。

Hugging Face、PyTorchの推論最適化を解説

nn.Linearの実態

転置はメタデータ書換のみ
バイアス加算はGEMM融合
addmmが単一カーネル化
compileは融合余地なし

MLPの融合効果

MLP1回で5カーネル
compileがGeLUとmulを融合
中間テンソルのHBM往復削減

手書きカーネル

Ligerは形状非依存で再コンパイル不要

Hugging Faceは6月11日、PyTorchの処理を可視化するプロファイリング連載の第2回を公開しました。今回は深層学習の基本部品であるnn.Linearを題材に、GPUカーネルの実際の挙動を追い、torch.compileやLiger製の手書きカーネルとの違いを実測値で示しています。対象読者はモデルの推論速度を詰めたいエンジニアです。

まず単一のnn.Linearでは、行列積と転置、バイアス加算が一見すると別々の処理に見えますが、実態は異なります。転置を担うaten::tはGPU上でカーネルを起動せず、テンソルの形状とストライドというメタデータを書き換えるだけです。バイアス加算もcuBLASのGEMMカーネル末尾に折り込む「エピローグ」として統合され、最終的にaten::addmmという単一カーネルで完結します。

そのため単一のLinearではtorch.compileが融合する余地はほぼ残っていません。compileが消すのはGPUの計算ではなく、ビュー処理を発行するCPU側の数マイクロ秒のオーバーヘッドです。Inductorがコンパイル時にストライドを計算し、addmmを直接呼び出すよう書き換えるため、GPUの計算内容は変わりません。

効果が表れるのは三つのLinearを積んだMLPです。GeGLU構成のMLPは1回の順伝播で3つのGEMMとGeLU、乗算の計5カーネルを起動します。torch.compileはこのうちGeLUと乗算、リシェイプを1つのTriton融合カーネルにまとめ、約50MBの中間テンソルがHBMを往復する無駄を排除します。これがコンパイルによる最大の改善点です。

記事は最後に、人手で調整したLiger製カーネルを比較対象に挙げます。Ligerの実行時間は92.8マイクロ秒で、特定形状向けに最適化されたInductorの89.4マイクロ秒よりわずかに遅く見えます。しかしInductorは入力形状が変わるたびに再トレースとコンパイルが必要で、Ligerは形状が変わっても再コンパイル不要です。数マイクロ秒と引き換えに形状変化への頑健さを得ているわけです。

筆者が一貫して勧めるのは「先に予想し、それから見る」という習慣です。トレースを開く前にカーネル数や種類を予測し、想定と食い違った点こそ最も学びが多いと説きます。次回はMLPからアテンション、最終的には完全なモデルへと解説を進める予定です。

Google、テキスト拡散モデルDiffusionGemmaを公開

モデルの技術的特徴

256トークンを同時生成
Gemma 4ベースの26B MoE構成
推論時は3.8Bパラメータのみ起動
Apache 2.0でオープン公開

性能と対応環境

H100で毎秒1000トークン超
RTX 5090で毎秒約700トークン
自己回帰モデル比最大4倍高速
NVIDIAが各GPU向けに最適化

Google DeepMindは2026年6月10日、テキスト拡散モデル「DiffusionGemma」をApache 2.0ライセンスで公開しました。従来の自己回帰型LLMが1トークンずつ逐次的にテキストを生成するのに対し、DiffusionGemma画像生成AIと同様の拡散手法を用いて最大256トークンを同時に生成します。これにより、GPU上でのテキスト生成速度が最大4倍に向上します。

モデルはGemma 4ファミリーをベースとした26B規模のMixture of Experts構成で、推論時に起動するパラメータは3.8Bにとどまります。そのため量子化により高性能コンシューマーGPUVRAM 18GBに収まります。双方向アテンションにより、インライン編集やコード補完、数理グラフなど非線形な生成タスクで従来モデルより優位性を発揮します。

NVIDIAは同日、DiffusionGemmaを自社GPU群で最適化したことを発表しました。単一のH100で毎秒1000トークン超RTX 5090で毎秒約700トークン推論速度を実現しています。DGX Spark、RTX PRO 6000、DGX Stationでも動作し、ローカル環境でのエージェント処理や対話型ワークフローに適しています。

Googleはこのモデルを実験的な位置づけとし、品質面では標準的なGemma 4が依然として推奨されると明記しています。一方で、速度重視のローカル推論やリアルタイムの対話型アプリケーション開発において、拡散ベースのテキスト生成が新たな選択肢になると強調しています。Hugging Face TransformersやvLLM、Unslothなど主要ツールで即日利用可能です。

Hugging Face JobsでGitHub CI実行が可能に

仕組みと導入手順

GitHub Actionsのruns-onラベル1行変更で移行
dispatcher SpaceがWebhookを受けJobを起動
GitHub Appでリポジトリと連携しトークン自動管理
GPU含む多様なハードウェア選択が可能

性能と実用性

CPU CI実行時間が約30%短縮
GPU CIをt4-smallで45秒・1セント未満で実行
Dockerイメージの自由な選択でさらに高速化
CLIからのログ取得でデバッグが容易

Hugging Faceは2026年6月9日、GitHub ActionsのCIジョブをHugging Face Jobs上で実行するための移行ガイドを公開しました。GitHub Actionsのワークフローファイルでruns-onラベルを1行変更するだけで、Hugging Faceのサーバーレスインフラ上でCIを実行できるようになります。CPUだけでなくGPUハードウェアも選択可能で、機械学習プロジェクトのテストに特に有用です。

この仕組みの中核はjobs-actions-dispatcherと呼ばれるDocker Spaceです。GitHubworkflow_job.queued Webhookを受信すると、対応するハードウェアフレーバーのHF Jobを起動し、エフェメラルなGitHub Actionsランナーとして登録します。GitHub側からは通常のセルフホステッドランナーとして認識されるため、既存のワークフロー定義をほぼそのまま利用できます。

導入にはまずdispatcher Spaceを自分のHugging Face名前空間に複製し、次にGitHub Appを作成してリポジトリにインストールします。GitHub Appはワークフロージョブの監視とランナー登録トークンの発行に必要な権限を持ちます。セットアップはブラウザでもCLIでも実行可能で、エージェントによる自動化にも対応しています。

実際の性能面では、GradioチームのTrackioプロジェクトで検証が行われました。CPUジョブではGitHub標準の1分40秒に対し、Playwrightイメージを使用することで1分10秒と約30%の短縮を達成しています。GPU CIではt4-smallラベルを使い45秒で完了し、コストは1セント未満でした。GitHub側にはGPUホステッドランナーの同等オプションがないため、ML系プロジェクトにとって大きな利点となります。

さらに、HF JobsはDockerイメージの自由な指定やボリュームマウントにも対応しており、データセットやモデルのロードを伴うCIにも柔軟に対応できます。ログはCLIから簡単に取得でき、ローカルツールやコーディングエージェントでの解析にも適しています。オープンソースの機械学習プロジェクトがGPU CIを手軽に導入できる実用的な選択肢として注目されます。

Cohereがコーディング特化の30Bオープンモデルを公開

モデルの設計と性能

30BパラメータのMoE構造
トークンあたり3Bが稼働
単一H100で動作可能
Apache 2.0ライセンスで公開

訓練手法と実用性

3種のエージェント足場で訓練
7万超の検証可能タスクで強化学習
出力トークン量は競合の約3倍
高頻度運用時のコスト増に注意

Cohereは2026年6月9日、エージェント型ソフトウェア開発に特化したオープンソースモデルNorth Mini Code」を発表しました。30億パラメータが実際に稼働する300億パラメータのMixture-of-Experts(MoE)モデルで、256Kトークンのコンテキストウィンドウを備え、Apache 2.0ライセンスのもとHugging Faceで公開されています。単一のH100 GPUやMac Studio上でも動作する軽量さが特徴です。

技術的には128個のエキスパートのうちトークンごとに8個が活性化する疎なMoE構造を採用しています。訓練では2段階の教師あり微調整の後、約5,000リポジトリから収集した7万件超の検証可能タスクを使った強化学習(RLVR)を実施しました。SWE-BenchやTerminal-Bench v2との重複を排除し、評価の公正性も確保しています。

注目すべきは、単一のエージェント足場に最適化するのではなく、SWE-Agent、mini-SWE-Agent、OpenCodeの3種類のハーネスで訓練した点です。これにより、OpenCode評価で10ポイントの性能向上を達成しつつ、SWE-Agent上の性能も維持しています。異なるツール環境間でのスキル転移が正の効果を生むことが示されました。

一方、独立評価機関Artificial Analysisのテストでは、出力速度で127モデル中8位にランクインしたものの、同等モデルと比較して約3倍の出力トークンを生成する傾向が確認されました。大量のエージェントパイプラインを運用する場合、この冗長性が推論コストとレイテンシに直結する課題となります。

共同創業者のNick Frosst氏は「小さく、コスト効率が高く、オープンソースでローカル展開可能。これがLLMの進むべき方向だ」と述べ、Claude Fable 5の100万出力トークンあたり50ドルという価格設定との対比を強調しました。企業にとっては、マネージドサービスの利便性とオンプレミス運用によるコスト管理・データ主権の間で、実際のワークロードに基づいた選択が求められます。

AIエージェントがHugging Face Spacesを連鎖し3Dギャラリーを自動構築

ビルディングブロック経済の実践

agents.mdでSpace APIを標準公開
画像生成3D再構成を自動連鎖
統合コードなしでモデル間を接続

マルチメディア開発の変革

パリ・日本・エジプトのギャラリーを量産
新ギャラリーの限界費用は説明文1行分
人間の介入は審美的判断のみ

Hugging FaceエンジニアMishig Davaadorj氏が2026年6月9日、AIコーディングエージェントが2つのHugging Face Spacesを連鎖させてパリの名所を3Dガウシアンスプラットで表示するギャラリーサイトを自動構築した事例をブログで公開しました。画像生成にはIdeogram4、単一画像からの3D再構成にはTripoSplatが使われ、エージェント画像生成からファイル圧縮、ビューア構築、デプロイまでを一貫して実行しました。

この事例の技術的な核となるのが、Gradio Spaceが自動公開するagents.mdという仕様ファイルです。agents.mdにはAPIスキーマのURL、エンドポイントの呼び出し方法、ファイルアップロード手順、認証方式がプレーンテキストで記載されており、エージェントはクライアントライブラリやSDKなしでSpaceを操作できます。これにより、異なる組織が開発した最先端モデル同士を統合コードゼロで連鎖させることが可能になります。

Davaadorj氏はMitchell Hashimoto氏が提唱する「ビルディングブロック経済」の概念を引用し、AIがゼロからの構築よりも実績あるコンポーネントの組み合わせに優れている点を強調しています。従来コードライブラリの文脈で語られてきたこの考え方が、画像生成動画音声・3Dなどマルチメディア領域にも波及しつつあるという見解を示しました。

実用性を示す証拠として、パリのギャラリー構築後に同じパイプラインで日本とエジプトのギャラリーも「1文の指示」で量産できたことが報告されています。エッフェル塔やカルナック神殿、姫路城など各国6つの名所が3Dスプラットで再構成され、Three.jsベースのビューアにスクロール切替やドラッグ回転のUIが実装されました。人間が介入したのは「もう少しズームアウトして」「オベリスクを別の建造物に差し替えて」といった審美的な判断のみでした。

この事例は、モデルの統合に伴うSDK管理やGPU確保、入力形式の変換といった障壁がagents.mdによって大幅に低下したことを示しています。「プロンプトから回転する3Dモニュメントを生成する」という作業が、かつてはプロジェクト単位の取り組みだったものが、パイプラインの1ステップに縮小されたとDavaadorj氏は述べています。

OpenEnvがコミュニティ主導のエージェント強化学習標準に

標準化の狙いと体制

MetaNVIDIAら参画の運営委員会発足
Gymnasium式APIで環境を統一
HTTP・WebSocket・MCP対応

今後のロードマップ

データセット連携でタスク定義を標準化
外部報酬関数の統合対応
TRL・Unslothでの訓練例整備
環境品質の自動検証機能

Hugging Faceは2026年6月8日、エージェント強化学習(RL)の実行環境を標準化するオープンソースライブラリOpenEnvを、コミュニティ主導のガバナンス体制へ移行すると発表しました。新たに設置された運営委員会にはMeta(PyTorch Foundation)、NVIDIA、Reflection、Unsloth、Modal、Prime Intellect、Mercor、Fleet AIなどが参画し、リポジトリもhuggingface/OpenEnvとして公開されています。

OpenEnvが解決するのは、オープンソースモデルにおけるエージェント訓練の断片化です。Claude CodeCodexといったフロンティア企業のエージェントは、モデルとハーネスが一体で最適化されていますが、オープンソースではモデル・ハーネス・推論エンジンがばらばらに組み合わされます。OpenEnvはこれらの間に共通のインターフェース層を提供し、どの組み合わせでもエージェントを効率的に訓練できるようにします。

技術的には、Gymnasium互換のAPI(reset・step・state)をクライアント/サーバー構成で提供します。環境はDockerでパッケージ化され、HTTPやWebSocketといった標準プロトコルで通信します。さらにMCP(Model Context Protocol)をファーストクラスでサポートしており、訓練・評価時のシミュレーション環境と本番環境で同じ環境定義を一貫して利用できます。

重要な設計方針として、OpenEnvは報酬関数や訓練ループの定義には踏み込みません。あくまでRL環境の公開・デプロイ・消費を標準化する「プロトコル層」と位置づけ、報酬設計やスコアリングは既存の専門ライブラリに委ねます。今後はデータセット連携(RFC 006)、外部報酬統合(RFC 007)、環境品質の自動検証(RFC 008)などが計画されています。

PyTorch Foundation、vLLM、Lightning AI、Scale AIStanford Scaling Intelligence Labなど幅広い組織がすでにOpenEnvの採用・支援を表明しています。オープンソースのエージェント訓練基盤として事実上の標準となるか、今後の普及が注目されます。

Hugging Faceハッカソンで小規模モデルのゲーム生成に挫折

試行錯誤と失敗の過程

Nemotron 30Bでゲーム生成を試行
長文プロンプトでは動作せず
スキルカードでコンテキスト超過
RAG併用も画面は真っ白

方針転換と得られた教訓

複雑なゲームを断念しHTML生成に転換
時計やToDoリストは生成可能
Tetris級の複雑さで破綻
小規模モデルの限界が明確に

Hugging Face主催のBuild Smallハッカソンで、参加者がNVIDIANemotron 30Bモデルを使い、Three.jsベースのゲームを自動生成するプロジェクトに挑戦しました。アニメ「The Amazing Digital Circus」に着想を得た「デジタルペット」が冒険=ゲームを生成するというコンセプトでしたが、最終的にゲーム生成は実現できませんでした。

開発者はまず長文プロンプトでモデルに指示を与えましたが、生成されたゲームは正常に動作しませんでした。次にGitHub Copilotのスキルカードを導入したところ、短く設定していたコンテキストウィンドウを圧迫。ウィンドウを拡大しても問題は解消されませんでした。

さらにCodexでスキル情報を要約し、RAGで参照させる方式も試みました。この手法ではモデルの応答品質がやや改善したものの、生成されるゲームには必ず不具合があり、画面が真っ白になるケースが続出しました。

最終的にゲーム生成を断念し、シンプルなHTML生成ツールへと方針を転換しています。時計やToDoリスト、SnakeやBreakoutといった単純なゲームはワンショットで生成できるものの、Tetris級の複雑さになると破綻するとのことです。小規模モデルでの複雑なコード生成には依然として大きな壁があることを示す事例といえます。

5ラボの小型モデルでマルチモデル経済ゲームを構築

設計の核心

4ラボの小型モデルで構成
エージェント異質な思考
全モデル32B以下で運用可能
摩擦はサービング層に集中

信頼性の作り込み

秘密情報の漏洩ゼロを実証
寛容なJSON修復で無停止
履歴は要約のみでプロンプト肥大回避

AI開発企業Hugging Faceは2026年6月6日、小型モデル活用ハッカソンの第2弾レポートを公開しました。経済シミュレーションゲーム「Thousand Token Wood」のv2では、登場する各エージェントが異なるラボの小型モデルで動作し、プレイヤーは裏で糸を引く金融家「森の庇護者」を演じます。単に眺めるだけだった初代から、操作して遊べるゲームへと再構築した点が大きな変化です。

中核となるのはモデルの異質性です。v2はgpt-oss-20bOpenAI)、MiniCPM3-4B(OpenBMB)、Nemotron-Mini-4B(NVIDIA)、自作の微調整済みQwen 0.5Bという4ラボのモデルを同時に走らせます。異なるデータと事後学習で訓練されたモデルが議論することで、市場参加者が本当に異なる「生きた論争」が生まれると筆者は説明します。

技術的な学びは、難所がモデリングではなくサービング層にあった点です。vLLMがCUDAツールキットを要求するためにベースイメージを修正したり、モデルごとにtrust_remote_codeなどの一行設定が必要だったりと、個別の落とし穴が存在しました。それでも、出力を寛容に解析・修復するJSON層を一度作れば、モデル追加は設定の追記で済む構造を実現しています。

ゲームの劇的な核となるのが情報の非対称性です。プレイヤーは真偽不明の密告をささやけますが、その真偽フラグはエージェントに絶対見せてはならないセキュリティ要件として扱われます。フラグはプロンプト外に置き、毎ターン全プロンプトを走査して禁止語の混入を検査するテストが、最も重要な防御線として機能します。

永続的な記憶も、エージェントを生き生きと見せる安価な手段です。各キャラクターは庇護者や仲間への好悪を整数で保持し、敵対すれば融資を拒み、同盟すればカルテルのように振る舞います。ただし生の履歴ではなく一行の要約のみをプロンプトに渡すことで、小型モデルが情報に溺れる事態を防いでいます。

代表的な実行では、微調整済み0.5Bが自己購入0%・有効提案100%を達成し、3Bの教師モデルを上回りました。筆者は、小型モデルは信頼できる形式生成器だが推論は不安定であり、規模ではなく構造・プロンプト・小さな微調整でその差を埋めるべきだと結論づけています。

ServiceNow、企業向け音声AIの評価基盤EVA-Bench 2.0を公開

3領域121ツールに拡張

航空・IT・医療HRの3領域をカバー
213シナリオで約4倍に拡大
121ツールによる実務的評価
GPT-5.4等3モデルで解決可能性を検証

評価設計の特徴

音声通話を前提としたシナリオ設計
認証フロー失敗の再現性を重視
敵対的シナリオも含む多様な構成
多言語対応の拡張を予告

ServiceNowは2026年6月4日、企業向け音声AIエージェントを評価するためのベンチマーク「EVA-Bench Data 2.0」をオープンソースで公開しました。航空カスタマーサービス、企業ITサービス管理、医療人事サービスの3領域にわたり、121のツールと213の評価シナリオを収録しています。初版から約4倍のシナリオ拡大となります。

音声エージェントの失敗はドメイン固有であるという課題意識がこのベンチマークの出発点です。航空業界で確認コードを正確に処理できるシステムでも、医療HR領域の複雑なポリシー対応では失敗することがあります。EVA-Bench 2.0は、各領域の実際の業務フローに基づいたシナリオを設計し、単一意図・複数意図・敵対的呼び出しの3タイプを網羅しています。

データの信頼性確保にも注力しています。すべてのシナリオは、OpenAI GPT-5.4、Google Gemini 3.1 Pro、Anthropic Claude Opus 4.6の3つのフロンティアモデルで解決可能であることを検証済みです。シナリオ生成にはグラフベースの合成データパイプライン「SyGra」を使用し、ユーザー目標・初期データベース・期待される最終状態を一貫して生成することで再現性を担保しています。

今後は英語以外の多言語対応も予定しています。名前や地名、電話番号をローカライズし、フランス語など各言語での評価を可能にする計画です。データセット、評価フレームワーク、リーダーボードはすべてMITライセンスでHugging FaceおよびGitHubから利用できます。

NVIDIA、コンテンツ安全モデルNemotron 3.5を公開

主な新機能

カスタムポリシー対応で業種別運用が可能に
推論トレースによる判定根拠の監査
テキストと画像を統合した安全性判定
12言語を明示学習、約140言語にゼロショット対応

性能と実用性

マルチモーダル安全ベンチで平均約85%の精度
多言語Aegisで平均96.5%の分類精度
4Bパラメータで8GB以上のGPUに展開可能
競合比で3倍低いレイテンシを実現

NVIDIAは2026年6月4日、企業向けAIコンテンツ安全モデル「Nemotron 3.5 Content Safety」をHugging Face上で公開しましたGemma 3 4Bをベースとする40億パラメータのモデルで、テキストと画像を同時に評価し、両者の組み合わせから生じるポリシー違反も一括で検出します。NVIDIAオープンモデルライセンスのもと、研究・商用いずれの用途にも利用できます。

最大の進化点は、カスタムポリシー機能の追加です。従来は固定の安全分類体系に依存していましたが、3.5では推論時に自然言語で記述した独自ポリシーを入力できるようになりました。これにより、医療・金融・教育など業種固有のリスク基準に合わせた安全判定が可能になります。不要なカテゴリの抑制や、組織独自のリスクカテゴリの追加にも対応しています。

もう一つの注目機能が、推論トレース(THINKモード)です。モデルが安全・不安全の判定に至るまでのステップを段階的に出力することで、判定根拠を監査可能にします。規制産業で求められるコンプライアンスログや、人間によるレビュー、ポリシーの反復改善に活用できます。推論トレースは大規模モデルで生成後、3文以内に要約する2段階プロセスで簡潔化されており、レイテンシへの影響を抑えています。

多言語対応も強化されています。英語・日本語・中国語など12言語を明示的に学習し、ベースモデルのGemma 3から継承した能力により約140言語へのゼロショット汎化も可能です。多言語Aegisベンチマークでは12言語平均96.5%の分類精度を達成しました。マルチモーダル安全ベンチマーク全体では平均約85%の精度を記録しています。

実運用面では、4Bパラメータの軽量設計により8GB以上のVRAMを搭載したGPUで動作します。競合するマルチモーダル安全モデルと比較してエンドツーエンドのレイテンシは3分の1で、推論モード有効時でもトークン生成量は最大50%少なく済みます。訓練データセットも同時公開され、実写真が99%を占める点がマルチモーダル安全研究の既知の課題に対処しています。

Hugging FaceがCLIをAIエージェント最適化に再設計

エージェント対応の設計思想

環境変数で自動検出し出力形式を切替
対話プロンプト排除と安全なリトライ設計
次コマンドのヒント表示でステップ削減

ベンチマーク結果

curl/SDK比で最大6分の1のトークン消費
Claude CodeCodexで成功率94%と93%
スキル導入でツール呼出が約30%減少

Hugging Faceは2026年6月4日、同社の公式コマンドラインツール「hf CLI」をAIコーディングエージェント向けに再設計したことを発表しました。Claude CodeCodexなどのエージェントからのHub利用が急増しており、Claude Code単体で約4万ユーザー・4900万リクエストに達したことが背景にあります。

再設計の核心は、人間とエージェントで同じコマンドの出力を自動的に切り替える仕組みです。エージェント利用時は環境変数を検出し、ANSIカラーや省略表示を排除した完全なTSV形式で出力します。さらに対話プロンプトを廃止し、破壊的操作にはエラーメッセージに修正コマンドを含めることで、エージェントが自律的に作業を進められるようにしました。

ベンチマークでは18の実用的なHubタスクを用意し、hf CLIとcurl/Python SDKを比較しています。Claude CodeSonnet 4.6)での成功率はhf CLIが94%に対しcurl/SDKは84%にとどまりました。トークン消費量では、バケット作成・同期・削除といった複雑なマルチステップタスクでcurl/SDKがCLIの最大6倍を消費するという結果が出ています。

加えて、hf CLIの全コマンド体系をコンパクトにまとめた「スキル」機能も提供されています。エージェントが初回からコマンド構造を把握できるため、--helpの探索が不要になり、タスクあたりのツール呼び出しが約10回から7回へと約30%削減されました。スキルは`hf skills add --claude`で導入できます。

Hugging Faceエージェントを「Hubの実際のユーザー」と位置づけ、モデル訓練やデータセット構築、Spacesデモの公開といった作業をエージェント経由で行うケースが標準化しつつあるとしています。エージェントのツール効率を高めることが、その背後にいる人間のユーザー体験向上に直結するという考え方です。

NVIDIA、物理AIエージェントスキルをCVPRで公開

自動運転研究の革新

Neural Reconstructionで3Dシーン再構築
Alpamayo 2 Super、320億パラメータのVLAモデル
AlpaGym強化学習を大規模並列化

ロボットとビジョンAI

GraspGen-X、任意グリッパー対応の把持基盤モデル
Isaac Sim 6.0でシミュレーション自動化
Metropolisスキルで異常検知用合成データ生成

研究基盤の拡充

NitroGen、ゲームで訓練した汎用エージェント
物理AIデータセットが1500万DL突破

2026年6月3日、NVIDIAはデンバーで開催中のCVPR 2026において、自動運転車・ロボット・ビジョンAIの開発を加速する物理AIエージェントスキル群を発表しました。先日公開されたオープン基盤モデルCosmos 3と連携し、シーン再構築から合成データ生成、ポリシー訓練、評価までの断片的だったワークフローを一気通貫で自動化します。すべてのツールはGitHubでオープン公開されています。

自動運転分野では、走行データから編集可能な3Dシーンを生成するNeural Reconstructionスキルや、数千GPU強化学習を並列実行するオープンソースフレームワークAlpaGymを提供します。さらに320億パラメータの推論型VLAモデルAlpamayo 2 Superは、認識から計画・行動までの全スタックを統合し、レベル4自動運転の開発基盤となります。研究論文LCDriveは、テキスト推論を潜在表現に圧縮することでトークン数を約半分に削減し、車載ハードウェアでの高速推論を実現しました。

ロボティクス分野では、Isaac Sim 6.0とIsaac Labにエージェント対応スキルを統合し、シーン作成からシミュレーション実行、データ取得まで自動化しました。注目すべきは研究論文GraspGen-Xです。20億回のシミュレーション把持データで訓練された初の把持基盤モデルで、未知のグリッパーと未知の物体に対してゼロショットで把持姿勢を生成できます。ロボット開発者がグリッパーごとに訓練し直す必要がなくなるのでしょうか。

ビジョンAIでは、Metropolisスキルが合成異常データの生成や疑似ラベリングを自動化し、外観検査モデルの精度向上を支援します。また、ゲーム環境で訓練した汎用エージェント基盤モデルNitroGenは1,000以上のゲームと4万時間の操作データから学習し、少数データ環境で従来手法比52%の性能向上を達成しました。NVIDIAの物理AIデータセットはHugging Faceで累計1,500万ダウンロードを超え、研究インフラとしての存在感を強めています。

Hugging Faceがロボットに遠隔MCPツール追加の手法を公開

MCPリモートツールの仕組み

MCP対応のGradio Spaceをコマンド1つで追加
ツールはプロファイルのtools.txtで有効化を管理
リモートツール名は名前空間で衝突を防止
ローカルにコードをダウンロードせず安全に動作

実証と現在の制約

Web検索と天気取得の2つのカナリアツールで検証
プロンプト設計で並列呼び出しを誘導
認証付きSpaceや非Gradio Spaceは未対応
誰でもツールを公開・共有できるエコシステム構想

2026年6月3日、Hugging Faceはオープンソースの小型ロボットReachy MiniにリモートMCPツールを追加する方法を公式ブログで公開しました。従来ロボットの会話アプリで使えるツールはすべてローカルのPythonコードに限られていましたが、今回の拡張によりHugging FaceのGradio Spaceとして公開されたMCP対応ツールネットワーク経由で利用できるようになります。

Reachy Miniにはもともと頭部の動作制御やダンス再生、感情表現、カメラ撮影などのローカルツールが搭載されています。しかしWeb検索や天気情報の取得といったロボット本体と無関係な機能をローカルに実装すると、共有や更新のたびにPythonファイルのやり取りが必要でした。リモートツールはこの課題を解決し、ステートレスな外部機能をアプリ本体に手を加えずに追加できます。

実証実験ではPollen Roboticsが公開したWeb検索ツール天気取得ツールの2つのカナリアSpaceが使われました。コマンド1つでインストールとプロファイルへの登録が完了し、会話中にモデルが自動的にツールを呼び出します。「今日ボルドーでジャケットは必要か、夜のイベントは何があるか」といった複合的な質問では、プロンプトの工夫により両ツールの並列呼び出しを促してレイテンシを抑える設計が施されています。

現時点では公開済みのMCP対応Gradio Spaceのみサポートしており、認証が必要なSpaceや非Gradioサーバーには未対応です。また並列ツール実行はプロンプトで誘導するのみで、確実な並列実行が必要な場合はコード側での制御が求められます。Hugging Faceはツール開発者に対し、Spaceにreachy-mini-toolmcpタグを付けて公開するよう呼びかけており、コミュニティ主導のロボット機能拡張エコシステムの構築を目指しています。

Google、ノートPCで動くGemma 4 12Bを公開

エンコーダ不要の新設計

エンコーダ廃止音声画像を直接処理
視覚処理は3500万パラメータの軽量モジュールで代替
音声は生波形をそのまま埋め込み空間に投影
推論遅延とメモリ消費を同時に削減

ローカル実行の実力

16GBのRAMまたはVRAMで動作可能
26B MoEモデルに迫るベンチマーク性能
256Kトークンの長大コンテキスト対応
Apache 2.0ライセンスで商用利用自由

企業導入の判断基準

機密データのオフライン処理に最適
エージェント構築向け関数呼び出しを標準搭載
音声30秒・動画60秒の入力上限に注意

Googleは2026年6月3日、オープンウェイトの大規模言語モデルGemma 4 12Bを公開しました。約120億パラメータながら16GBのRAMまたはVRAMで動作し、一般的なノートPCでマルチモーダルAIをローカル実行できます。4月に発表されたGemma 4ファミリーのモバイル向けモデルとデータセンター向け26Bモデルの間を埋める位置づけです。

最大の技術的特徴はエンコーダ不要の統合アーキテクチャです。従来のマルチモーダルモデルは画像音声を処理する専用エンコーダを別途必要としていましたが、Gemma 4 12Bは視覚パッチと生の音声波形をLLM本体の埋め込み空間に直接投影します。視覚エンコーダは単一の行列演算による3500万パラメータの軽量モジュールで置き換えられ、音声エンコーダは完全に廃止されました。この設計により推論遅延とメモリ使用量の両方が低減されています。

性能面では、メモリフットプリントが26B MoEモデルの半分以下でありながら、ベンチマークではそれに迫るスコアを達成しています。256Kトークンのコンテキストウィンドウを備え、長大な財務レポートやコードベースの処理にも対応します。ネイティブの関数呼び出し機能やステップバイステップの推論モードも搭載しており、自律型エージェントの構築基盤として設計されています。

企業にとっての実用的価値はどこにあるのでしょうか。医療・金融・防衛など機密データを外部APIに送信できない規制業界では、完全ローカルでのマルチモーダル処理が可能になります。Apache 2.0ライセンスで商用利用も自由です。一方、音声入力は30秒、動画は60秒という処理上限があり、長時間メディアの処理には向きません。Hugging Face・Kaggle・vLLM・llama.cppなど主要エコシステムとの統合も初日から対応しており、即座に本番導入を検討できる状態です。

Holo3.1、量子化対応のPC操作AIモデルをローカル実行可能に

モデルの主な特徴

4サイズ展開(0.8B〜35B)
FP8・Q4 GGUF・NVFP4の量子化対応
Web・デスクトップ・モバイル対応
関数呼び出しプロトコル新規対応

ローカル推論の性能

NVFP4でBF16比1.74倍の処理速度
エージェント応答を6.8秒から3.3秒に短縮
Apple Silicon等の民生機でも動作
AndroidWorldで79.3%達成

H Companyは2026年6月2日、PC操作を自動化するコンピュータユースエージェント向けモデル「Holo3.1」ファミリーをリリースしました。Qwenベースの本モデルは0.8B・4B・9B・35B-A3Bの4サイズで提供され、初めて量子化チェックポイント(FP8・Q4 GGUF・NVFP4)に対応したことで、クラウドだけでなくローカル環境での高速推論が可能になっています。

前バージョンのHolo3ではブラウザとデスクトップが主な対象でしたが、Holo3.1ではモバイル環境への対応を大幅に強化しました。AndroidWorldベンチマークでは35B-A3Bモデルが67%から79.3%へ、4Bおよび9Bモデルも58%から72%へと精度が向上しています。また、JSON出力に加えて関数呼び出しプロトコルをネイティブサポートし、サードパーティのエージェントフレームワークとの統合を容易にしました。

ローカル推論の高速化も大きな進展です。NVIDIAのDGX Spark上でNVFP4量子化を適用した場合、BF16比で1.74倍のトークンスループットを達成しました。エージェントハーネスの最適化と組み合わせることで、平均ステップ時間は6.8秒から3.3秒へと約2倍の高速化を実現しています。

Q4 GGUF形式のチェックポイントにより、WindowsやMacの民生ハードウェア上でも完全にローカルで動作させることが可能です。Apple Siliconでの動作も確認されており、データがユーザーのネットワーク外に出ないプライバシー重視の運用ができます。モデルはHugging Faceおよび専用APIで公開されています。

NVIDIA、物理AI向け統合基盤モデルCosmos 3を公開

単一モデルで統合

推論と生成の統合モデル
テキスト・映像・音・動作対応
MoTアーキテクチャ採用
従来の4モデルを1つに集約

用途と公開形態

ロボット・自動運転・スマート空間
合成データ生成を支援
16Bと64Bの2サイズ提供
Hugging Faceオープン公開

NVIDIAは6月1日、物理AI向けの世界基盤モデル「Cosmos 3」を発表しました。COMPUTEXのGTC台北で公開された本モデルは、テキスト・映像・画像・音・動作という複数のモダリティを単一モデルで処理し、ロボットや自動運転車、スマート空間が現実世界を理解・予測・行動するための基盤を提供します。

最大の特徴は、これまで世界生成・制御生成・シーン理解・方策生成という用途ごとに別々のモデルを使い分けていたものを、1つのモデルに統合した点です。Mixture-of-Transformers(MoT)アーキテクチャを採用し、推論を担う自己回帰部分と生成を担う拡散部分が共同注意で連携します。これにより、視覚言語モデル、映像生成、ロボット方策などを構造を変えずに切り替えられます。

物理AIにとって重要なのは、画像や映像だけでなく動作信号を扱える点です。Cosmos 3はロボットの関節角度やグリッパー位置、軌道点といった数値的な動作データを直接生成でき、ピック&プレース作業などの学習に役立ちます。開発者は特定のロボットや作業環境に合わせて追加学習することも可能です。

活用事例も広がっています。NVIDIAのGEARチームは映像動作モデルの開発に、Agile Robotsは産業用ヒューマノイドの方策開発向けデータ生成に本モデルを利用しています。Linker Visionはスマートシティ向けに数千のカメラ映像を解析し、根本原因分析などに活用しています。

公開形態として、16BのNanoと64BのSuperの2サイズが用意され、いずれもHugging Faceでオープンに提供されます。NanoはRTX PRO 6000など作業用GPUで動作し、Superは大規模な合成データ生成や研究向けです。Linux FoundationのOpenMDW 1.1ライセンスのもと、重みやデータセット、コードを単一ライセンスで扱えます。

性能面でも、Cosmos 3はArtificial Analysisのオープン重みリーダーボードで首位に立ち、Physics-IQやR-Benchなど複数の世界生成ベンチマークでトップを記録しています。衝突や稀なエッジケースなど、現実では安全に再現しにくい場面を合成データで補える点が、物理AI開発の加速につながりそうです。

JetBrainsがMoE型コードモデルMellum2公開

モデルの特徴

総120億パラメータのMoE構成
トークン毎は25億のみ活性化
推論速度が2倍以上高速
Apache 2.0で商用利用可

想定用途

ルーティングや要約など軽量処理
エージェントの補助タスク
自社環境へのプライベート展開

開発ツール大手のJetBrainsは6月1日、120億パラメータのMixture-of-Experts(MoE)モデル「Mellum2」を公開しました。テキストとコードを対象に一から学習したモデルで、ライセンスは商用利用も可能なApache 2.0です。コード補完から出発したMellumの後継として、より広範なソフトウェア開発タスクへ用途を広げています。

最大の特徴は効率性にあります。総パラメータは120億ですが、MoE構成により1トークンあたり25億パラメータのみを活性化させ、モデル全体の容量を保ちつつ推論コストを抑えます。同社によれば、同規模のオープンモデルと競合する性能を保ちながら、推論速度は2倍以上に達するといいます。

JetBrainsはMellum2を、最大のモデルを必要としない低レイテンシ処理向けと位置づけます。具体的には、プロンプト分類やツール選択といったルーティング、文脈圧縮や要約を含む検索後処理、エージェントの計画・検証・変換などの補助タスクが対象です。これらは頻度が高く速度が重要なため、軽量モデルが適しているという考え方です。

同社はこうした役割を「focal(焦点)」モデルと表現します。大規模システム内の高頻度タスクに最適化した、速く役割の明確なモデルという位置づけです。スタック内の全モデルを置き換えるのではなく、システム全体を「より速く、安く、制御しやすく」することを目的に掲げています。

オープンかつ効率的に運用できる点から、独自コードや社内データを扱う自社ホスト環境への展開も想定されています。モデルはHugging Faceで公開され、アーキテクチャや評価手法は技術レポートで確認できます。IDE内やRAGパイプライン、エージェントワークフローなど、実運用での試用が可能な状態です。

Hugging FaceがPyTorchプロファイラ入門を公開

トレースの読み方

行列演算でプロファイラの基本を解説
CPU時間とGPU時間の比較でボトルネック特定
オーバーヘッド律速と計算律速の判別法
ウォームアップによる初回コストの除外

torch.compileの実態

演算子融合はディスパッチャレベルで実現
カーネル自体はcuBLASのまま変化なし
CPU側オーバーヘッドはeagerの約2倍に増加
小規模演算ではコンパイル税が上回る

Hugging Faceは2026年5月29日、PyTorchのプロファイリング入門ブログシリーズの第1回を公開しました。torch.profilerの使い方を、行列積とバイアス加算という最小構成の演算から段階的に解説する内容です。著者はAritra Roy Gosthipatyら5名で、NVIDIA A100 GPU上での実行トレースを題材に、プロファイラが出力するテーブルとトレースの読み解き方を丁寧に示しています。

記事ではまず64x64の小さな行列演算をプロファイリングし、CPU時間が2.3ms、GPU時間がわずか23μsとなるオーバーヘッド律速の典型例を示します。行列サイズを4096x4096に拡大すると、CPU・GPU双方がミリ秒オーダーとなり、計算律速へ移行することを確認しています。この比較を通じて、GPUが遊んでいるかどうかをプロファイラの数値から即座に判断する方法を読者に教えています。

トレースの可視化にはPerfetto UIを使用し、CPUレーンとGPUレーンの対応関係を視覚的に解説しています。初回ステップが長い理由として、cuBLASのヒューリスティクスやワークスペース確保といったコールドスタートコストを特定。ウォームアップの追加で計測対象から除外する手法も紹介されています。また、同一カーネルでも実行時間がばらつく現象について、GPUクロックや温度管理が原因であると指摘しています。

後半ではtorch.compileを適用した場合のトレースを分析しています。torch.add + torch.matmulがaten::addmmに統合されますが、これはディスパッチャレベルの融合であり、GPU上では依然として同じcuBLASカーネルが実行されます。バイアスのDevice-to-Deviceコピーが発生し、真のカーネル融合には至っていない実態が明かされています。

さらに、torch.compileのランタイムアーキテクチャとして、TorchDynamoのキャッシュルックアップ、AOTDispatcherのラッパー、CompiledFxGraphの実行という3層構造を解説しています。小規模な演算ではこれらのスタックがオーバーヘッドとなり、ステップあたりのCPU時間がeagerモードの約2倍に増加することも示されました。シリーズ第2回以降ではnn.LinearやLLMへと対象を拡大する予定です。

Reachy Miniが完全ローカルAI会話に対応

完全ローカル音声パイプライン

クラウド不要で音声AI会話を実現
VAD・STT・LLM・TTSの4段構成
Silero VADとParakeet STTを採用
Qwen3-TTSで多言語音声合成

柔軟なLLM構成と導入手順

llama.cppやMLXなど複数推論基盤に対応
Gemma 4推奨、vLLMも利用可能
brew一発でインストール完了
LAN経由でロボットと接続

Hugging Faceは2026年5月27日、小型ヒューマノイドロボット「Reachy Mini」の音声会話機能を完全にローカル環境で実行する方法を公開しました。従来はクラウドへの音声送信が必要でしたが、同社のspeech-to-speechライブラリを使い、VAD(音声区間検出)からSTT(音声認識)、LLM(大規模言語モデル)、TTS(音声合成)までの全パイプラインをローカルマシン上で動作させることが可能になりました。

技術構成はカスケード方式を採用しています。音声区間検出にはSilero VAD v5、音声認識にはParakeet-TDT 0.6B v3、音声合成にはQwen3-TTSを推奨構成として選定しています。各コンポーネントは独立しており、より高品質なモデルが登場すれば個別に差し替えられる設計です。

LLMの推論基盤はllama.cpp、MLX、Transformers、vLLMなど複数の選択肢に対応しています。推奨モデルはGemma 4のE4B量子化版で、llama.cppでは`brew install`一発で導入でき、64Kコンテキストウィンドウとフラッシュアテンションによる高速推論が可能です。Apple Silicon搭載MacではMLX経由でQwen3-4Bも低遅延で動作します。

プライバシーとコスト面のメリットも大きいです。音声データが一切外部に送信されず、APIの従量課金も不要になります。ロボット推論サーバーを別マシンで動かす場合も、LAN内のIPアドレスを指定するだけで接続できます。

Responses APIプロトコルに準拠しているため、ローカル推論だけでなくHugging Face Inference EndpointsやOpenAI互換プロバイダーへの接続も同じインターフェースで切り替え可能です。vLLM 0.21.0以降ではMulti-Token Predictionによるさらなる低遅延化も実現しています。

MiniMax、M3モデルで長文推論を16倍高速化

M2の技術的到達点

2300億パラメータのMoE構造採用
98億パラメータのみ活性化し効率確保
全層フルアテンションで推論精度を維持
サブ二次手法は精度劣化で不採用

M3の革新と展望

独自のスパースアテンション機構MSA導入
デコード速度15.6倍の高速化実現
100万トークン長文処理を実用域に
エージェント大規模展開のコスト障壁を解消

中国AIスタートアップMiniMaxが、次期大規模言語モデル「M3」に搭載する新しいスパースアテンション機構「MiniMax Sparse Attention(MSA)」の技術概要を公開しました。MSAにより、100万トークンの長文コンテキストにおいてデコード速度が従来比15.6倍、プリフィル処理が9.7倍高速化されると報告しています。この成果は、長文処理AIエージェントの大規模展開を経済的に実現可能にするものです。

今回の発表に先立ち、MiniMaxはM2シリーズの詳細な技術レポートHugging Faceで公開しました。M2は総パラメータ数2299億、1トークンあたりの活性化パラメータは98億という効率的なMixture-of-Experts構造を採用しています。開発過程では、スライディングウィンドウアテンションやリニアアテンションなどのサブ二次手法を徹底検証しましたが、128Kコンテキストの複雑なタスクでスコアが90.0から72.0に低下するなど深刻な精度劣化が判明し、全層フルアテンションを維持する判断に至りました。

M3で導入されるMSAは、DeepSeekのMulti-head Latent Attention(MLA)とは異なるアプローチをとります。MLAがキーとバリューを低次元の潜在空間に圧縮するのに対し、MSAは標準的なGrouped Query Attention基盤の上でブロック単位の選択的アテンションを行います。圧縮せず実データ上で処理するため、精度低下やプレフィックスキャッシュの問題を回避できます。

プロダクト面では、MiniMaxは強化学習基盤「Forge」を構築し、エージェント能力の訓練を体系化しています。M2.7はこの基盤から生まれた自己進化型モデルで、自身の学習パイプラインの30〜50%を自律的に管理できます。OpenAIのMLE Bench Liteではメダル率66.6%を達成し、GoogleGemini 3.1 Proに並ぶ水準です。MSAの詳細技術ブログも近日公開予定で、M3が長文AIエージェントの実用化を加速させるか注目されます。

HF、差分同期で1兆パラメータ更新を高速化

差分同期の仕組み

bf16精度で99%の重みが不変
変化要素のみ疎形式で送信
ペイロードが1.2GBから最大35MBに
推論の停止時間を約1秒に短縮

分散学習の実現

Hub Bucketで重みを中継
訓練と推論がクラスタ不要で分離
vLLM拡張で30行の実装
Spacesで完全分散学習を実証

Hugging Faceは、非同期強化学習における重み同期のボトルネックを解消する「Delta Weight Sync」をTRLライブラリに実装しました。従来、非同期RLでは訓練ステップごとにモデル全体を推論エンジンに転送する必要があり、7Bモデルで14GB、1兆パラメータ規模では約1TBものデータ転送が発生していました。この技術はオープンソースとしてTRLのPR #5417で公開されています。

Delta Weight Syncの核心は、bf16精度における重み更新の数学的特性にあります。bf16の仮数部は7ビットしかなく、RLの学習率で生じる微小な更新の大部分はbf16の丸めに吸収されるため、連続する2ステップ間でおよそ99%の重みがビット単位で同一のままです。この性質を利用し、変化した要素だけをsafetensors形式のスパースファイルとして符号化することで、Qwen3-0.6Bモデルでは1ステップあたりの転送量を1.2GBから20〜35MBへと大幅に削減しました。

アーキテクチャはHub Bucketを介した3ボックス構成を採用しています。訓練ノードがスパースな差分をBucketにアップロードし、vLLMの推論サーバーがそれをダウンロードして適用します。訓練側と推論側が直接通信する必要はなく、共有クラスタもRDMAもVPNも不要です。vLLM側の実装はWeightTransferEngineの拡張としてわずか30行程度で、フォークなしで既存のvLLMに組み込めます。

実証実験では、訓練用GPU、vLLMを動かすHugging Face Space、Wordle環境を動かす別のSpaceという3つの独立したマシンで完全な分散学習を実行しました。いずれもネットワークを共有せず、Hub Bucketのみで接続されています。報酬は順調に上昇し、差分ペイロードは20〜35MBの範囲を維持しました。

Llama-3.1-405Bに適用した場合の試算では、従来のNCCLによる全同期で約8秒かかる推論停止が、差分転送では数秒に短縮され、転送量は約130分の1になると見込まれています。1兆パラメータ規模ではFireworksの実測値で約50倍の削減が示されており、クラウド間をまたぐ分散学習においてオブジェクトストレージ経由の差分同期が唯一の現実的な選択肢になりつつあります。

Hugging FaceがAIエージェント用語集を公開

主要用語の整理

ハーネスはモデル実行層
スキャフォールドは振る舞い定義層
エージェント=モデル+ハーネスの定式化

訓練と実装の概念

ポリシーは行動確率分布を定義
スキルはツールより高次の再利用単位
サブエージェントによる自律的分業
RL環境・報酬設計の用語も網羅

Hugging Faceは2026年5月25日、AIエージェント分野で混乱しがちな専門用語を整理した用語集「Harness, Scaffold, and the AI Agent Terms Worth Getting Right」を公開しました。ICLR 2026での議論をきっかけに、ハーネススキャフォールドといった用語の定義が人によって異なる問題を解消することを目的としています。

用語集の核心は、エージェントを構成する要素の分離です。モデルはテキストを入出力するLLMそのもので、単体ではループも記憶も持ちません。スキャフォールドはシステムプロンプトやツール定義、コンテキスト管理などモデルの振る舞いを規定する層です。ハーネスはモデルを呼び出しツールコールを処理し停止条件を判断する実行層で、「Agent = Model + Harness」という定式が示されています。

実務に直結する概念も体系化されています。コンテキストエンジニアリングは各ステップでモデルが参照する情報を設計する技術で、短期記憶と長期記憶の管理を含みます。スキルはツール(単一アクション)より高次の再利用可能な知識パッケージで、バグ調査から修正までの一連の手順を束ねるものです。サブエージェントは別のエージェントから呼ばれ、独自に推論しツールを使い結果を返す自律的な単位として定義されています。

訓練領域の用語も整理されています。RL環境はエージェントが行動を入力し観察を受け取る対話対象、トレーナーは多数のエピソードを実行し報酬に基づきモデルの重みを更新する仕組みです。報酬はテスト合否のような検証可能なものからLLM-as-judgeのような学習型まで分類され、ルーブリックによる多次元評価も紹介されています。

Claude CodeCodexCursorといった製品は同じモデルを使っていてもハーネスの設計次第で体験が大きく変わると指摘されており、エージェント開発者にとって各層の役割を正確に理解する重要性が強調されています。用語の統一的な定義はまだ存在しないものの、議論を円滑にする実用的な共通言語として活用できる内容です。

拡散型言語モデルでNVIDIAが推論6倍速を実現

3つの推論モードを統合

自己回帰と拡散生成を1モデルに統合
自己投機モードで精度維持と高速化を両立
3B・8B・14Bの3サイズで提供
商用利用可能なライセンスで公開

速度と精度の両立

拡散モードでAR比2.6倍の生成効率
自己投機で最大6.4倍の高速化を達成
8BモデルがQwen3 8Bを精度1.2%上回る
B200で毎秒約865トークンを記録

NVIDIAは2026年5月23日、自己回帰(AR)と拡散(Diffusion)の両方の生成方式を1つのモデルに統合した言語モデルファミリー「Nemotron-Labs Diffusion」を公開しました。3B・8B・14Bのテキストモデルと8Bのビジョン言語モデルをHugging Face上で提供し、商用利用可能なライセンスで配布しています。

従来の大規模言語モデルはトークンを1つずつ逐次生成する自己回帰方式を採用しており、GPUの演算能力を十分に活用できないという課題がありました。Nemotron-Labs Diffusionは複数トークンを並列に生成し、段階的に修正する拡散方式を導入することで、この制約を突破します。生成済みトークンの修正も可能なため、誤りの伝播を抑制できます。

同モデルは3つの推論モードを備えています。従来通りの自己回帰モード、32トークン単位でブロック生成する拡散モード、そして拡散で下書きし自己回帰で検証する自己投機モードです。自己投機モードでは温度0で自己回帰と同一の出力品質を維持しながら、大幅な高速化を実現します。

性能面では、8BモデルがQwen3 8Bに対し平均精度で1.2ポイント上回りました。推論速度はハードウェア非依存の指標であるTPF(tokens per forward pass)で、拡散モードがAR比2.6倍、自己投機モードが最大6.4倍を達成しています。NVIDIA B200上のベンチマークでは毎秒約865トークンの生成速度を記録しました。

学習にはNVIDIAのNemotron事前学習データセットから1.3兆トークン、ファインチューニングに450億トークンを使用しています。推論エンジンSGLangでの対応が進んでおり、設定1行の変更で3モードを切り替え可能です。学習コードもMegatron Bridgeフレームワーク経由で公開されており、開発者はすぐに利用を開始できます。

フィジカルAIの進化、OSS基盤と人体インターフェースの両輪で加速

OSSロボAIの急拡大

Hugging Faceのロボデータセットが5万8千超に急増
NVIDIAがCosmos・GR00T・Isaacを公開
Alibaba等も基盤モデルをOSS化
参入障壁低下で専門家もロボ開発可能に

人間側の接続革新

Wetour Roboticsが身体をインターフェース
筋電位で動作50〜80ms前に意図を検出
視覚・空間・ジェスチャーをリアルタイム融合
エッジ推論100ms以内の制御ループ実現

フィジカルAI(物理世界で動作するAI)の進化が、オープンソースの基盤モデルと人間側のインターフェース革新という二つの方向から加速しています。Hugging FaceNVIDIA、Alibabaといった大手企業がロボティクス向けAIモデルやツールを相次いで公開し、かつて専門家だけの領域だったロボット開発の裾野が急速に広がっています。

オープンソースの影響は数字に表れています。Hugging Faceが2024年5月に立ち上げたLeRobotプラットフォームでは、ロボティクス用データセットが2024年末の1,145件から5万8,000件超へと約50倍に増加しました。NVIDIAは合成データ生成のCosmos、タスク推論のGR00T、開発統合のIsaacという包括的なオープンソーススタックを整備しています。

一方、ロボットを賢くするだけでは不十分だという視点も浮上しています。Wetour Roboticsは「ボトルネックはロボット側ではなく人間側にある」と主張し、人体そのものをコンピューティングネットワークの一部として扱う「Spatial Intent Fusion」技術を開発しました。表面筋電位(sEMG)センサーで指の動作が完了する50〜80ミリ秒前に意図を検出し、視覚情報や空間位置と融合して100ミリ秒以内にデバイスへ指令を送ります。

オープンソース化の加速には商業的動機が絡む点も指摘されています。オレゴン州立大学のBill Smart教授は、AI出身の新規参入者がロボティクスで既に解決済みの問題に取り組むケースがあると懸念を示しつつも、参加者の多様化と裾野の拡大は本物だと評価しています。ロボット側の能力向上と人間側の接続改善が同じ未来の両輪として進展する構図が鮮明になっています。

LLM記憶を0.12%の追加パラメータで実現する新手法

delta-memの仕組み

固定サイズ行列に履歴を圧縮
モデル本体の重みは凍結のまま
デルタルール学習で動的に更新
ゲート機構で忘却と記憶を制御

性能と効率の両立

Memory Agent Benchで29%→38%に向上
テスト時学習は26→50点にほぼ倍増
GPU消費量は未修正モデルとほぼ同等

実用化の方向性

RAGとのハイブリッド構成が現実解

Mind Labと複数大学の研究チームは2025年5月、LLMエージェントの長期記憶問題を解決する新手法「delta-mem」を発表しました。この手法はエージェントの過去のやり取りを固定サイズの行列に圧縮し、モデル本体を変更せずに動的な記憶を実現します。追加パラメータはバックボーンモデルのわずか0.12%にとどまり、競合手法の76.40%と比較して圧倒的に軽量です。

従来のアプローチには大きな課題がありました。コンテキストウィンドウの拡張はコストが増大し、トークン数が増えるほど二次関数的に計算量が膨れ上がります。RAGは外部検索の遅延や統合の複雑さを伴います。パラメトリック手法は学習後に固定され、推論時の新情報に適応できません。delta-memはこれらの問題を、連想記憶の「オンライン状態」として履歴を保持することで解決しています。

技術的には、LLMの隠れ状態を行列に射影して過去の記憶を検索し、数値的な補正としてモデルの推論に適用します。更新は「ゲート付きデルタルール」で制御され、どの程度の旧記憶を保持し、新記憶をどれだけ反映するかを自動調整します。更新戦略は3種類あり、大規模モデルにはシーケンス単位の書き込み、小規模モデルにはマルチステート書き込みが有効と判明しました。

Qwen3-4B-Instructでの評価では、平均スコアが凍結ベースラインの46.79%から51.66%に向上しました。記憶集約型のMemory Agent Benchでは29.54%から38.85%へ改善し、テスト時学習サブタスクでは26.14から50.50へとほぼ倍増しています。32,000トークンの推論テストでも、GPU消費量は未修正モデルとほぼ同一でした。

研究チームはコードをGitHub、学習済みアダプタの重みをHugging Faceで公開しています。共著者のJingdi Lei氏は、delta-memは高速で継続的に更新される「作業記憶」として最適であり、正確な事実の検索にはRAGが依然として適していると述べています。企業のAIスタックは今後、モデル内部の短期作業記憶とRAGによる長期明示記憶の階層構造へ進化していくとの見通しを示しました。

AIコーディングでロボット操作、誰でもロボティクスの時代へ

コードでロボット制御

OpenClawCodexロボットアーム操作
赤いボール把持プログラムを自動生成
AIモデル訓練もエージェントが支援
従来数時間の設定作業を大幅短縮

CaP研究の進展

UC Berkeley等がCaP-Xベンチマーク開発
ロボット制御ではGeminiが最高性能
Nvidiaと共同で実用化を推進
Spencer Huangが社内ハッカソン主導

WIREDの記者Will Knight氏が、AIエージェントOpenClawOpenAICodexを使い、オープンソースのロボットアーム「LeRobot 101」をバイブコーディングで制御する実験を行いました。従来は専門知識が必要だったロボットの設定・制御が、AIコーディングによって飛躍的に簡単になりつつあります。

LeRobot 101はHuggingFaceが提供するオープンソースのロボットアームで、コントローラーアームとカメラ付きフォロワーアームの2本で構成されます。Knight氏は手動での接続・キャリブレーションに数時間を費やし、モーターの過熱トラブルにも見舞われました。しかしOpenClawCodexを用いると、接続設定やジョイントの校正を自動で処理し、赤いボールを検出して掴むPythonスクリプトまで生成できました。

さらにOpenClawの支援のもと、ロボットアームを制御するAIモデルの訓練にも成功しています。エージェントがトレーニングプロセスを案内し、各訓練後のエラー率を確認するなど、専門家なしでもモデル開発が可能であることを示しました。ハルシネーションによるバグは残る課題ですが、成果は十分に実用的なレベルです。

この手法は2022年の論文で提唱された「Code as Policy」に基づいています。UC BerkeleyのKen Goldberg教授らはNvidia、カーネギーメロン大学、スタンフォード大学と共同で、コーディングモデルのロボット制御能力を測るCaP-Xベンチマークを開発しました。興味深いことに、ロボット制御で最も高い性能を示したのはClaudeChatGPTではなくGoogleGeminiでした。マルチモーダル学習と物理世界の理解に注力してきた成果とみられます。

NvidiaJensen Huang CEOの息子であるSpencer Huang氏は、社内ハッカソンでバイブコーディングによるロボット制御の実験を推進しています。Goldberg教授との共同研究では、Code as Policyをより多くのロボットソフトウェアツールと互換性を持たせることを目指しています。「ほぼ誰でもロボティクスに参入できるようになること、それが真のブレークスルーだ」とHuang氏は語っており、音声やテキストでロボットを操作できる未来が近づいています。

NanoClaw、買収を蹴り1200万ドル調達

急成長と資金調達の背景

Valley Capital Partners主導で1200万ドル調達
Docker・VercelHugging Face CEOら参加
初コード作成から6週間でタームシート締結
約2000万ドルの買収提案を辞退

エンタープライズ展開戦略

従業員1対1のAIアシスタント提供
Docker Sandboxでゼロトラスト実行環境構築
MITライセンス維持しつつ管理サービスで収益化
GitHub星2.9万・25万DL突破

セキュリティ重視のオープンソースAIエージェント基盤NanoClawを開発するNanoCo AIが、Valley Capital Partners主導で1200万ドルのシードラウンドを完了しました。Docker、Vercel、monday.com、Hugging Face CEOのClem Delangue氏らが出資に参加しています。創業者のGavriel Cohen氏とLazer Cohen氏の兄弟は、約2000万ドル規模の買収提案を断り、独立した事業成長を選択しました。

NanoClawは、OpenClawのセキュアな代替として誕生しました。OpenClawが40万行に膨れ上がったのに対し、NanoClawのコアロジックは約500行のTypeScriptに抑えられ、人間のセキュリティチームが約8分で監査可能です。すべてのエージェントはDockerのMicroVMベースのサンドボックス内で隔離実行され、APIクレデンシャルがエージェントに直接渡ることはありません。

同社のエンタープライズ戦略の核は、従業員1人に1つのAIアシスタントを提供する「プロフェッショナルアシスタント」モデルです。メールや文書、会議メモを取り込みながら動的なナレッジグラフを構築し、Andrej Karpathy氏が提唱する「LLMナレッジベース」に近い仕組みで業務を支援します。Cohen氏は「1人のエージェント生産性が2〜3倍になれば、むしろ人員を増やしたくなる」と述べ、人員削減ではなく生産性の倍増を訴求しています。

シンガポール外相のVivian Balakrishnan氏がNanoClawを「セカンドブレイン」と公言したことで注目が急拡大しました。Cohen氏はシンガポールのカンファレンスで300人の聴衆に自身のエージェントを同時操作させるライブデモを実施し、悪意あるアクセス試行を遮断しつつ正当な予約だけを通すゼロトラストアーキテクチャの堅牢性を実証しています。

オープンソースのMITライセンスは維持したまま、自社でインフラを構築・運用できない企業向けにマネージド展開サービスで収益化を図ります。GitHub星数は2万9000近く、ダウンロード数は25万を突破しており、AmazonGoogleMeta、Accentureなど大手企業の幹部が個人利用から社内展開を検討する段階に入っています。

Cohere、218B言語モデルをOSSで初公開

高効率なMoE構造

218B中25Bのみ稼働
4bit量子化でほぼ性能劣化なし
H100わずか2基で推論可能

企業向け実用機能

出典を明示する引用生成
48言語対応の新トークナイザ
128Kコンテキストで文書処理

完全オープンソース化

Apache 2.0で商用利用自由
自社環境での独立運用が可能

カナダのAI企業Cohereは2026年5月20日、218億パラメータの大規模言語モデルCommand A+を発表しました。同社として初めてApache 2.0ライセンスで公開され、企業や開発者が商用目的で自由に利用・改変・再配布できます。「Attention Is All You Need」の共著者でもあるCEOのAidan Gomez氏が主導した今回のリリースは、企業が自社環境でAIを完全に制御する「ソブリンAI」構想の具体化です。

Command A+の最大の特徴は、Sparse Mixture-of-Experts(MoE)アーキテクチャにあります。218Bの総パラメータのうち、推論時に稼働するのはわずか25Bです。これにより、OpenAIAnthropicの数兆パラメータ規模のモデルと比較して、大幅に少ない計算資源で動作します。

さらに注目すべきはロスレス量子化技術です。MoEエキスパート部分のみを4bitに圧縮し、注意機構は高精度のまま維持する手法により、ほぼ性能を損なわずに圧縮を実現しました。その結果、NVIDIA B200 1基またはH100 2基で動作可能となり、出力速度は前世代比で最大63%向上、レイテンシは17%低減しています。

ベンチマーク性能も大幅に改善されています。複雑な推論テストτ²-Bench Telecomで37%から85%へ、数学のAIME 25で57%から90%へと飛躍しました。エージェントコーディングではDeepSeekやGLMに後れを取るものの、25Bの稼働パラメータでこの成績は際立っています。

企業利用で重要なネイティブ引用生成機能も搭載されています。外部ツールから取得した情報について、出典元を明示的にリンクする仕組みです。金融・医療・法務など規制の厳しい業界では、ハルシネーションリスク低減に直結します。マルチモーダル対応や128Kトークンのコンテキスト長、48言語対応の新トークナイザにより、グローバル企業の多様なニーズに応えます。

Apache 2.0での公開は、これまでCC-BY-NC 4.0で非商用に限定していたCohereの方針転換を意味します。企業は自社サーバーやエアギャップ環境でモデルを自由にファインチューニングデプロイでき、ベンダー依存から完全に解放されます。Hugging FaceやvLLMとの即日連携も実現しており、オープンソースAIエコシステムの成熟を示すリリースといえます。

Hugging Face、全サイズで最高精度のリランカー6モデルを公開

Ettinリランカーの性能

17Mから1Bまで6サイズ展開
全サイズで既存モデル超えの精度
1Bモデルは教師モデルと同等精度
150Mが600M未満で最強性能

蒸留による学習手法

MSE蒸留教師モデルを圧縮
約1.4億トリプルの学習データ公開
学習スクリプト約150行で再現可能

推論速度の優位性

17Mモデルが最速の毎秒7517ペア
1Bモデルは教師2.4倍高速

Hugging Face開発者Tom Aarsen氏は2026年5月19日、Sentence Transformers向けのクロスエンコーダー型リランカー「Ettin Reranker」ファミリーとして、17Mから1Bパラメータまで6つのモデルを公開しました。いずれもジョンズ・ホプキンス大学が開発したModernBERTベースのEttinエンコーダーを基盤としており、学習データと学習スクリプトもあわせてオープンソースで提供されています。

学習手法には、既存の高性能リランカーmxbai-rerank-large-v2(15.4億パラメータ)を教師モデルとしたポイントワイズMSE蒸留が採用されています。約1億4300万件のクエリ・文書・スコアのトリプルで学習し、学習率とバッチサイズ以外のハイパーパラメータは全サイズ共通です。学習スクリプトはわずか約150行で、誰でも同じレシピを再現できます。

ベンチマーク結果では、すべてのモデルが同サイズ帯で最高精度を達成しました。17Mモデルは従来広く使われていたms-marco-MiniLM-L12-v2(33Mパラメータ)をNDCG@10で+0.051上回り、32Mモデルは17倍のパラメータを持つBAAI/bge-reranker-v2-m3(568M)を+0.025超えています。最大の1Bモデルは教師モデルとのMTEBスコア差がわずか0.0001に収まりました。

推論速度でも大きな優位性があります。17MモデルはH100 GPU上で毎秒7517ペアを処理し、MiniLM-L6-v2の約2倍の速度を実現しました。1Bモデルは教師モデルの2.4倍の速度で、精度をほぼ維持しながら大幅な高速化を達成しています。この速度差は、モジュラーTransformerアーキテクチャによるアンパディング処理とFlash Attention 2の組み合わせによるものです。

検索システムの実務では、高速な埋め込みモデルで候補を絞り込み、リランカーで最終順位を決める「retrieve-then-rerank」パターンが標準的です。Ettinリランカーは全モデルが最大8192トークンのコンテキストに対応し、Apache 2.0ライセンスで公開されているため、既存のMiniLM系リランカーからの移行が容易です。

AllenAI、衛星画像AI「OlmoEarth v1.1」で計算コスト3分の1に

効率化の技術的手法

トークン統合で系列長を3分の1に短縮
Sentinel-2の3解像度帯を単一トークンに統合
事前学習手法の改良で精度低下を抑制

実用面の影響

推論・学習コストが最大3倍効率化
地球規模の地図更新頻度向上が可能に
Base・Tiny・Nanoの3サイズで公開
学習コードと重みをオープンソースで提供

AI研究機関AllenAIは2026年5月19日、衛星リモートセンシング向け基盤モデルOlmoEarth v1.1」を公開しました。前バージョンと同等の性能を維持しながら、計算コストを最大3分の1に削減したモデルファミリーです。マングローブの変化追跡や森林減少要因の分類、国規模の作物マッピングなど、環境保護に関わるパートナー組織の活用拡大を目指しています。

効率化の鍵は、Transformerモデルのトークン系列長の短縮にあります。従来のOlmoEarth v1では、Sentinel-2衛星画像の10m・20m・60mという3つの解像度帯ごとに別々のトークンを生成していました。v1.1ではこれらを単一トークンに統合し、トークン数を3分の1に圧縮しています。Transformerの計算量は系列長の二乗に比例するため、この削減が大幅なコスト低減につながります。

ただし、解像度帯の単純な統合は精度低下を招きます。実際、素朴な統合ではm-eurosat kNNベンチマーク10ポイントもの精度低下が確認されました。AllenAIは事前学習の手法を改良することでこの課題を克服し、v1と同等の性能を実現しています。学習データセットはv1と同一のため、手法変更の効果を厳密に分離して検証できる点も研究面で価値があります。

モデルはBase・Tiny・Nanoの3サイズで提供され、Hugging Face上で重みと学習コードがオープンソースとして公開されています。AllenAIは、より効率的なモデルにより自組織のプラットフォームでより多くのパートナーを支援でき、独自運用するチームにとっても惑星規模の地図更新がより手頃になると説明しています。

PaddleOCR 3.5、Transformers推論に対応

主な変更点

Transformersを推論バックエンドに追加
engineパラメータでバックエンド切替可能
dtype・デバイス配置等を柔軟に設定
パイプライン管理はPaddleOCR側が担当

開発者への影響

HuggingFace中心の環境と自然に統合
RAG・文書AI構築の前処理が容易に
Hub経由のモデル配布に対応
高スループット用途にはpaddle_staticを推奨

PaddleOCR 3.5が2026年5月18日にリリースされ、Hugging Face Transformersを推論バックエンドとして選択できるようになりました。PP-OCRv5やPaddleOCR-VL 1.5といったOCR・文書解析モデルを、engineパラメータひとつでTransformersバックエンドに切り替えて実行できます。

RAGや文書エージェントの構築では、PDFやスキャン画像を構造化データに変換する前処理が精度を左右します。PaddleOCRはこの文書取り込み工程を担うOCR・文書解析モデルを提供してきましたが、従来はPaddlePaddle固有の推論エンジンが前提でした。今回の対応により、PyTorch/Transformersベースのインフラを使うチームでも統合の手間が大幅に減ります

使い方はシンプルで、PaddleOCRのコンストラクタにengine="transformers"を指定するだけです。engine_configでdtypeやアテンション実装の選択も可能で、開発環境に合わせた最適化ができます。Hugging Face Spacesではライブデモも公開されています。

注意点として、OCR・文書解析のスループットを最大化したい場合は、PaddleOCRのデフォルトであるpaddle_staticバックエンドが引き続き推奨されます。Transformersバックエンドは既存のバックエンドを置き換えるものではなく、開発スタックに応じて推論バックエンドを選べる柔軟性を提供するものです。

AIエージェント総合ベンチマークが公開

評価フレームワークの設計

6種のベンチマークを統合
品質とコストの両面を計測
モデルでなくシステム全体を評価
統一プロトコルで横断比較を実現

主要な知見と公開物

同一モデルでもエージェント設計で成績が変動
汎用エージェントが専用型に匹敵
OSS重み モデルは先端比18〜29pt差
評価基盤Exgenticを完全公開

IBM ResearchとHugging Faceは2026年5月18日、AIエージェントシステムを総合的に比較評価するオープンベンチマーク「Open Agent Leaderboard」を公開しました。従来のベンチマークがモデル単体の性能を測定していたのに対し、本リーダーボードはツール選択・計画立案・エラー回復などを含むエージェントシステム全体を評価対象とし、品質とコストの両面を報告します。

評価にはSWE-Bench Verified(コード修正)、BrowseComp+(Web調査)、AppWorld(アプリ操作)、tau2-Benchの航空・小売・通信(顧客対応)の6種類のベンチマークを採用しています。それぞれ異なるタスク領域を扱うことで、エージェントの汎用性を多角的に測定できる設計です。各ベンチマークは統一プロトコルで標準化され、異なるエージェントが共通のインターフェースで接続できます。

注目すべき発見は、同一モデルでもエージェントアーキテクチャの違いでスコアとコストに大きな差が出る点です。上位3構成は同じモデルを使用しながら、エージェント設計の違いにより異なる結果を示しました。また汎用エージェントベンチマーク専用にチューニングされたシステムと同等以上の成績を収めるケースも確認されています。

失敗時の挙動にも差があり、失敗した実行は成功時より20〜54%高コストになることが判明しました。ツールの事前絞り込みがモデルを問わず性能を改善する効果も確認されており、エージェント設計が結果を左右する要因として存在感を増しています。

リーダーボード本体に加え、評価の再現と実行を可能にするフレームワーク「Exgentic」、手法と分析を記述した論文がすべてオープンソースで公開されています。オープンウェイトモデル(DeepSeek V3.2、Kimi K2.5)の結果も追加されましたが、フロンティア閉鎖モデルとの平均差は18〜29ポイントと報告されています。コミュニティからの新エージェントベンチマーク・モデルの追加投稿を受け付けています。

Cosmos動画生成モデルのLoRA微調整手法を公開

効率的な微調整手法

LoRA・DoRAでアダプタ注入
2Bパラメータモデルを単一GPUで学習可能
rank32で約5000万の学習パラメータ
アダプタ切替で複数ドメイン対応

ロボット動画生成への応用

92本のロボット操作動画で学習
人間の手の幻覚を微調整で解消
指示追従と物理的妥当性が大幅に向上
8基のH100で約2.5時間で学習完了

NVIDIAHugging Faceは、大規模動画生成モデルCosmos Predict 2.5をLoRAおよびDoRAで効率的に微調整する手法を公開しました。20億パラメータのモデル全体を再学習する代わりに、注意機構やフィードフォワード層に小規模なアダプタモジュールを注入することで、単一のGPUでも微調整が可能になります。ロボット操作の合成動画生成を主な応用先として、92本の実ロボット動画を使った学習手順が示されています。

微調整にはrectified flowの定式化が用いられ、ノイズサンプルからクリーンデータへ線形に輸送する速度をモデルが学習します。VAE、テキストエンコーダ、DiTの基盤重みはすべて凍結され、LoRAアダプタのパラメータのみが更新されます。数値安定性のため、アダプタの重みはfloat32にキャストされ、bf16混合精度で学習が進みます。

評価では、Sampson誤差による幾何的整合性と、Cosmos Reason2をLLM審査員とした物理的妥当性・指示追従性の3指標が用いられました。微調整前のベースモデルでは、ロボットの手が人間の手に置き換わる幻覚や、指定された手の左右が無視される問題が発生していましたが、LoRA・DoRAによる微調整でこれらが解消されました。

rank 8とrank 32の比較では、高ランクが指示追従性を向上させる一方、幾何的整合性や物理的妥当性はランク8でも十分という結果が得られました。これは物理的な事前知識が凍結された基盤モデルに既に含まれており、アダプタはドメイン固有の外観やタスク構造の学習のみを担うためと分析されています。DoRAは低ランクでの学習安定化に有用ですが、rank 32ではLoRAと同等の性能に収束しました。

Hugging Face、LLM推論を22%高速化する非同期バッチ処理を公開

同期処理の無駄を解消

GPU待機時間が全体の24%を占める問題
CPUとGPUが交互に動く同期処理が原因
CUDAストリームで並列実行を実現

非同期化の技術的課題

CUDAイベントによるストリーム間同期
ダブルバッファでデータ競合を回避
キャリーオーバーで出力トークンを次バッチへ引き継ぎ

実測で大幅な性能向上

GPU稼働率が76%から99.4%に改善
モデル変更なしで22%の速度向上

Hugging Faceは2026年5月14日、LLM推論における連続バッチ処理(Continuous Batching)を非同期化し、生成速度を22%向上させる手法を技術ブログで公開しました。従来の同期方式ではCPUとGPUが交互に稼働するため、GPU待機時間が全体の約24%に達していたことが問題の背景です。

従来の連続バッチ処理では、CPUがバッチを準備している間GPUは遊休状態となり、GPUが計算している間CPUも待機するという非効率が生じていました。8Bモデルで8Kトークン生成の実験では、全生成時間300.6秒のうち約72秒がGPUアイドル時間でした。この「交互動作」のボトルネックを解消するために、CPU側のバッチ準備とGPU側の計算を同時に走らせる非同期方式が提案されています。

技術的には3つのCUDAストリーム(ホスト-デバイス転送、計算、デバイス-ホスト転送)を用い、CUDAイベントでストリーム間の依存関係を制御します。バッチNの計算中にバッチN+1の入力をCPU側で準備し、GPUへ転送しておくことで待ち時間をなくす仕組みです。データ競合を避けるため入出力テンソルを2スロット用意し交互に使う「ダブルバッファ」方式を採用しています。

もう1つの課題は、バッチNの出力トークンがバッチN+1の入力に必要な点です。これには「キャリーオーバー」と呼ばれる手法で対処します。バッチN+1の入力にプレースホルダー(値0)を置いておき、バッチNの計算完了後に実際のトークンを上書きする処理をCUDAグラフに組み込んでいます。

同じ8Bモデル・8Kトークン・バッチサイズ32の条件で検証した結果、GPU稼働率は76.0%から99.4%に向上し、生成時間は300.6秒から234.5秒へと22%短縮されました。モデルのカーネル変更は一切不要で、CPUとGPUの協調スケジューリングだけで達成しています。実装はtransformersライブラリに統合済みで、強化学習など16K以上の長文生成ユースケースでさらなる最適化を進めるとしています。

OncoAgent、がん診療AIをオープンソースで実現

システム構成と技術基盤

8ノードのLangGraphで臨床推論を分解
9Bと27Bの2段階モデルで症例難度に応じ切替
70超のNCCN/ESMOガイドラインをRAGで参照
3層の安全検証で幻覚出力を遮断

MI300Xでの学習成果

26.7万症例のQLoRA学習を約50分で完了
合成データ生成はAPI比56倍の高速化
全工程を1台で完結し患者データの外部送信なし

オープンソースのがん領域臨床意思決定支援システム「OncoAgent」の技術論文が、Hugging Faceブログで2026年5月9日に公開されました。OncoAgentは、LangGraphによる8ノードのマルチエージェント構成と、4段階の補正RAGパイプラインを組み合わせ、NCCNやESMOなど70以上の医師向けガイドラインに基づく回答生成を実現しています。患者データを外部クラウドに送信しない「Zero-PHIポリシーを掲げ、院内オンプレミス環境での完結運用を前提に設計されています。

モデルは症例の複雑さに応じて2段階に分かれます。加重スコアリングにより、ステージIVや複数遺伝子変異を伴う高難度症例は27Bパラメータの深層推論モデル(Tier 2)へ、それ以外は9Bパラメータの高速トリアージモデル(Tier 1)へ自動ルーティングされます。いずれもQwen系モデルをベースに、QLoRAで微調整されています。

学習には実症例と合成データを合わせた26万6,854件のOncoCoTコーパスが使われました。AMD Instinct MI300X(192GB HBM3)上でUnslothフレームワークとシーケンスパッキングを活用し、当初5時間と見積もられた学習を約50分に短縮しています。合成データ生成もAPI経由の毎時120件に対し、MI300X上では毎時6,800件と56倍の速度を達成しました。

安全面では、検索ゲート・信頼度ゲート・リフレクション批評・人間介入(HITL)の4層構造を採用しています。批評ノードはLLMではなく決定的コードで動作するため、敵対的プロンプトによる安全機構の迂回を防ぎます。RAGパイプラインでは、コサイン距離0.10を閾値とする反幻覚ポリシーにより、ドメイン外の入力には推奨を一切生成しない設計です。

現時点での課題として、学習データの約36%が合成症例であり、腫瘍専門医による大規模な精度検証はまだ実施されていません。ガイドラインも主に英語のNCCNが対象で、ESMOや他言語の臨床資料への対応は今後の課題です。コード・アダプタ重み・合成コーパスはHugging FaceGitHubで公開予定とされています。

サイバー防御特化の4Bモデル、8B超えの精度を実現

小型特化モデルの優位性

パラメータ数半分で8Bモデルに匹敵する精度
12GB消費者向けGPUローカル実行可能
機密データを外部APIに送信せず完全オンプレミス運用
Apache 2.0ライセンスで商用利用可能

訓練手法と評価結果

AMD Instinct MI300X単体で全工程完結
CTI-MCQで+8.7ポイント上回る成績
同一レシピで2Bモデルにも移植成功
CVE-CWEマッピング精度97.3%維持

想定用途と今後の展開

SOC分析官の脆弱性トリアージ支援
1Bモデルやスマートフォン向け量子化版を計画

サイバーセキュリティの防御領域に特化した小型言語モデルCyberSecQwen-4Bが、Hugging Face上でApache 2.0ライセンスのもと公開されました。AMD Developer Hackathonで開発された本モデルは、40億パラメータながら、Ciscoが公開した80億パラメータの専門モデルFoundation-Sec-Instruct-8Bと同等以上の性能を達成しています。12GB以上のGPUがあればローカルで動作し、機密性の高いセキュリティデータを外部に送信する必要がありません。

ベンチマークのCTI-Benchでは、CTI-MCQ(サイバー脅威インテリジェンスの多肢選択問題)で0.5868を記録し、8Bモデルの0.4996を8.7ポイント上回りました。CVEからCWEへのマッピング精度を測るCTI-RCMでも0.6664と、8Bモデルの97.3%の精度を維持しています。パラメータ数が半分であることを考えれば、防御用途において小型特化モデルが大型汎用モデルを凌駕しうることを示す結果です。

訓練はAMD Instinct MI300X(192GB HBM3)1基のみで完結しました。ROCm 7とvLLMスタックの組み合わせにより、量子化や勾配チェックポイントなどの工夫なしにbf16精度でフル学習が可能でした。訓練データはMITRE/NVD公開レコードからの2021年CVE-CWEマッピングと、教師モデルから生成した合成Q&A;データで構成され、評価セットとの重複は事前に除去されています。

同一の訓練レシピをGemma-4-E2Bに適用したGemma4Defense-2Bも作成され、CTI-RCMで0.9ポイント差に収まる結果を得ました。レシピの再現性と移植性が確認されたことで、組織ごとのライセンス要件やデプロイ規模に応じた基盤モデルの選択が可能です。

想定用途はCWE分類、CVE-CWEマッピング、構造化されたサイバー脅威インテリジェンスQ&A;など、SOC分析官の日常業務を支援する領域です。今後はノートPC向けの1Bモデル、スマートフォンやエッジ機器向けのGGUF量子化版、新規CVEへの継続的評価、プロンプトインジェクション耐性の強化が計画されています。エアギャップ環境や医療・政府機関など、外部API接続が制限される現場への展開が期待されます。

AllenAI、自律的にモジュール化するMoEモデルEMOを公開

EMOの技術的特徴

全128エキスパート中12.5%で高精度維持
文書単位のルーティングで意味的モジュール化を実現
1Bアクティブ・14BパラメータのMoE構成
グローバル負荷分散で安定学習を達成

従来MoEとの違い

標準MoEは前置詞等の表層パターンに特化
EMOは健康・政治等の意味領域で自律分化
エキスパート削減時の性能劣化が大幅に軽減

公開内容と展望

モデル・ベースライン・学習コードを全公開
モジュール合成や解釈可能性の研究基盤に

Allen Institute for AI(AllenAI)は2026年5月8日、事前学習の過程でエキスパートが自律的にモジュール構造を獲得する新しいMixture-of-Experts(MoE)モデル「EMO」を公開しました。EMOは全128エキスパート中わずか12.5%(16エキスパート)のみを使用しても、フルモデルに近い性能を維持できる点が最大の特徴です。モデル、学習コード、ベースラインがHugging Face上でオープンに提供されています。

従来のMoEモデルでは、各トークンが独立にエキスパートを選択するため、前置詞や冠詞といった表層的な言語パターンでエキスパートが特化してしまう問題がありました。その結果、特定タスクに必要なエキスパートだけを取り出して使うことが困難でした。EMOはこの課題を、同一文書内のトークンが共通のエキスパートプールからルーティングする制約を導入することで解決しています。

この文書単位のルーティング制約により、EMOのエキスパートは健康・医療米国政治映画・音楽といった意味的に一貫したドメインに自然と分化します。人間が事前にドメインラベルを定義する必要がなく、学習データから自律的にモジュール構造が創発される点が画期的です。学習時にはプールサイズをランダムにサンプリングすることで、推論時にさまざまなサブセットサイズに対応可能としています。

ベンチマーク評価では、全エキスパート使用時に標準MoEと同等の汎用性能を達成しつつ、エキスパートを25%に削減しても精度低下はわずか約1%にとどまりました。12.5%まで削減した場合でも約3%の低下で済む一方、標準MoEは同条件でランダム水準まで性能が崩壊します。タスク向けエキスパート選択も少数の例示で十分に機能することが確認されています。

AllenAIは今回の公開を「大規模疎モデルのモジュール化に向けた第一歩」と位置づけています。エキスパートサブセットの選択・合成手法の改善、モジュール単位での更新、解釈可能性や制御性の向上など、今後の研究課題も多く残されています。巨大モデルの効率的なデプロイやドメイン適応を求める企業にとって、メモリと精度のトレードオフを大幅に改善する実用的な選択肢となる可能性があります。

Hugging Faceがロボット用アプリストアを開設、200超のアプリ公開

アプリストアの概要

Reachy Mini向け専用ストア開設
コミュニティ製200超のアプリを無料提供
AI活用コード不要のアプリ開発
ブラウザ上の3Dシミュレーターも搭載

低価格ロボットの普及

299ドルからの手頃な価格設定
累計販売台数は約1万台に到達
直近2週間で3,000台を販売
オープンソースで全設計を公開

Hugging Faceは2026年5月6日、同社の小型デスクトップロボットReachy Mini」向けのアプリストアを正式に開設しました。ストアにはすでにコミュニティが開発した200以上のアプリが登録されており、Reachy Miniのオーナーは無料でダウンロードできます。これまでロボティクス開発には高度な専門知識が必要でしたが、AIエージェントの支援により、プログラミング経験のない一般ユーザーでも1時間以内にアプリを開発・公開できる環境が整いました。

アプリ開発の鍵となるのは、Hugging Faceが提供するAIエージェントML Intern」です。ユーザーは「誰かがおはようと言ったら手を振って」といった自然言語で動作を指示するだけで、エージェントがコード生成からテスト、パッケージ化までを自動処理します。プラットフォームはモデル非依存で、GPT-5.5やClaude Opus 4.6など外部モデルも利用可能です。

Reachy Miniは299ドルのUSB接続版と449ドルのワイヤレス版の2モデルを展開しています。2025年7月の発売以降、累計約1万台を販売し、直近2週間だけで3,000台が売れるなど需要が加速しています。Boston Dynamicsの約7万ドルのSpotや中国ロボットの1,900ドル以上という価格帯と比較すると、圧倒的な低価格が普及を後押ししています。

ストアに登録されたアプリのジャンルは多岐にわたります。チェスをしながらユーザーの悪手をからかうアプリ、スマートフォンを触ると仕事に戻るよう促すアプリ、発音を矯正する語学チューター、F1レースの実況アプリなど、150人以上のクリエイターが参加しています。その多くはロボティクスのコードを書いた経験がないユーザーです。

CEOのClément Delangue氏は、今後AIモデル開発者がRobotics能力のテスト場としてReechy Miniを活用するようになるとの見通しを示しました。全コードがオープンソースで公開されているため、エージェントハードウェアとの連携方法を学習しやすく、開発速度の加速が期待されます。ロボティクス専門家だけのものではなく、誰もが参加できる「ホビイスト時代」に入ったことを象徴する動きといえます。

Hugging Face、音声認識評価に非公開データ導入

非公開データの概要

AppenとDataoceanAIが提供
英語の朗読・会話音声を収録
米英豪加印の5アクセント対応
合計約30時間分の音声データ
テストセット汚染防止が主目的

評価方法の設計

平均WERは公開データのみで算出
トグルで非公開データを追加可能
個別スプリットのスコアは非公開

Hugging Faceは2026年5月6日、音声認識モデルの性能を測るOpen ASR Leaderboardに非公開の評価データセットを追加したと発表しました。データはAppen Inc.DataoceanAIの2社が提供したもので、公開テストセットに過剰に最適化する「ベンチマクシング」やテストセット汚染を防ぐ目的があります。

新たに追加されたデータセットは、朗読形式と自然な会話形式の英語音声で構成されています。アメリカ英語だけでなく、オーストラリア・カナダ・インドイギリスの各アクセントを含む計11のスプリットが用意され、合計約30時間音声を収録しています。句読点やケーシング、言いよどみなど、実環境に近い条件での評価が可能です。

評価の公平性にも配慮がなされています。リーダーボードのデフォルトの平均WER(単語誤り率)は従来どおり公開データセットのみで算出され、ユーザーがトグル操作で非公開データを含めた場合にのみスコアが変動します。また、個別スプリットごとのスコアはあえて公開せず、特定のデータ提供元やアクセントに特化した最適化を防いでいます。

モデル開発者が非公開データでの評価を受けるには、GitHubでプルリクエストを提出し、まず公開データセットの結果を報告する必要があります。その後Hugging Face側が非公開データでの評価を実施し、結果を確認するという手順です。Open ASR Leaderboardは2023年9月の開設以来、71万回以上のアクセスを記録しており、今回の更新でベンチマークとしての信頼性がさらに高まることが期待されます。

DeepSeek初の資金調達、評価額450億ドルに急騰

資金調達の背景

初のVC調達を交渉中
評価額200億ドルから450億ドルへ急騰
人材流出対策で従業員に株式付与へ
創業者の梁文鋒が約90%を保有

中国の国家戦略

国家半導体ファンドがリード投資家
TencentとAlibabaも参加協議中
Huawei製チップに最適化済み
米国技術への依存回避が狙い

中国のAIラボDeepSeekが、設立以来初となるベンチャーキャピタルからの資金調達に向けて交渉を進めています。Financial TimesとBloombergの報道によると、評価額はわずか数週間で200億ドルから450億ドル(約6兆8000億円)へと急騰しました。

DeepSeekは2025年初頭、米国の大手AIモデルと比較してごくわずかな計算資源とコストで大規模言語モデルを構築したことで注目を集めました。その後も推論コーディングの分野でトップモデルに匹敵する性能を維持しつつ、オープンウェイトモデルとしてHugging Faceで公開を続けています。

創業者でヘッジファンド経営者梁文鋒氏は同社の約90%を保有しており、これまで外部投資を求めていませんでした。しかし競合他社による研究者の引き抜きが相次ぎ、従業員に株式を付与するため資金調達に踏み切ったとFTは伝えています。

本ラウンドは中国の国家半導体投資ファンド「国家集成電路産業投資基金」が主導する見通しです。さらにTencentやAlibabaも参加を協議中とBloombergは報じています。DeepSeekがHuawei製チップに最適化されている点は、米国技術への依存を回避したい中国にとって戦略的に重要な組み合わせとなっています。

GoogleがGemma 4向けMTPドラフター公開、推論速度最大3倍に

投機的デコードの仕組み

軽量ドラフターが複数トークンを先読み予測
本体モデルが一括検証し高速化
出力品質の劣化なしで最大3倍速
KVキャッシュ共有で計算コスト削減

開発者への実用的メリット

コーディング支援やエージェントの応答遅延を大幅短縮
消費者向けGPUでのローカル推論が実用速度に
エッジデバイスでのバッテリー消費も改善
Apache 2.0ライセンスで即日利用可能

Googleは2026年5月5日、オープンモデルGemma 4ファミリー向けにMulti-Token Prediction(MTP)ドラフターをリリースしました。投機的デコード技術を活用し、推論品質を一切損なうことなく最大3倍の速度向上を実現します。Gemma 4は公開からわずか数週間で6000万回以上ダウンロードされており、今回のMTPドラフター公開でさらなる普及が見込まれます。

標準的なLLM推論はメモリ帯域幅がボトルネックとなり、1トークン生成のたびに数十億パラメータをVRAMから計算ユニットに転送する必要があります。MTPドラフターはこの問題に対し、軽量な補助モデルが複数の将来トークンを高速に予測し、本体モデルが一括で検証するという投機的デコード方式を採用しています。本体モデルがドラフトに同意すれば、通常1トークン分の時間でシーケンス全体とさらに1トークンを出力できます。

技術面では、ドラフトモデルが本体モデルの活性化情報とKVキャッシュを共有する設計により、コンテキストの再計算を省略しています。エッジ向けのE2B・E4Bモデルでは、エンベッダーにクラスタリング技術を導入してロジット計算のボトルネックも解消しました。Apple Silicon上の26B MoEモデルではバッチサイズ4〜8で約2.2倍、NVIDIA A100でも同様の高速化が確認されています。

MTPドラフターはGemma 4と同じApache 2.0ライセンスで公開されており、Hugging Face、Kaggle、MLX、vLLM、SGLang、Ollamaなど主要プラットフォームで即日利用可能です。コーディング支援、自律エージェント、モバイルアプリなど、レイテンシが重視されるあらゆるユースケースで開発者生産性向上に直結する技術といえます。

SenseTime、高速画像生成の新モデルを公開

モデルの技術的特徴

画像テキスト変換せず直接処理
既存モデルより大幅に高速な生成
PCやスマホでも動作可能な軽量設計

中国半導体との連携

中国チップ10社が互換性を確認
オープンソースで国際連携を維持
ロボティクス分野への応用を視野

SenseTimeの戦略転換

顔認識大手から生成AIへ軸足
反復速度重視でオープンソース選択

米国の制裁対象である中国AI企業SenseTimeは4月29日、オープンソースの画像生成モデル「SenseNova U1」を公開しました。同モデルは画像をテキストに変換せず直接処理する独自技術「NEO-Unify」を採用しており、米国の競合モデルを大幅に上回る速度で画像の生成と解釈が可能だと同社は主張しています。

U1の最大の特徴は、画像をネイティブに「読む」能力にあります。従来のモデルが画像を一度テキストに変換して処理するのに対し、U1は画像のまま推論を行うことで処理速度を向上させ、必要な計算資源を削減しています。共同創業者のDahua Lin氏は「モデルの推論プロセスはもはやテキストに限定されない」と述べています。モデルはPCやスマートフォンでも動作可能な軽量設計で、幅広い活用が期待されます。

注目すべきは、U1が中国チップで動作する点です。公開日にはCambricon、Biren Technologyなど10社の中国半導体メーカーが互換性を発表しました。米国の輸出規制により最先端AI半導体へのアクセスが制限される中、中国チップへの対応は戦略的に重要な意味を持ちます。SenseTimeはHugging FaceGitHubでモデルを無料公開しており、中国企業がオープンソースAIの主要な貢献者となっている傾向をさらに強めています。

技術的な性能面では、U1は市場の全オープンソースモデルを上回る画質を実現したとSenseTimeは主張しています。AlibabaのQwenByteDanceのSeedreamといった中国のクローズドソースモデルに匹敵する一方、OpenAIGPT-Image-2.0にはまだ及ばないとされています。ただし速度面ではこれらすべてのモデルを凌駕するとのことです。

SenseTimeはかつて顔認識技術で世界をリードしていましたが、ChatGPT以降の生成AIブームでDeepSeekやMiniMaxなど新興企業に後れを取っていました。同社はオープンソース戦略により研究者からのフィードバックを得て反復速度を高める方針に転換。Lin氏は「オープンかクローズドかではなく、反復の速度こそが勝敗を分ける」と語っています。また、この技術はロボットが視覚情報を高速に処理するうえで特に有用であり、中国ヒューマノイドロボット市場への展開も見据えています。

DeepInfraがHugging Face推論プロバイダーに参加

統合の概要

サーバーレス推論基盤として統合
100超のモデルを低コストで提供
会話・テキスト生成タスクに対応

対応モデルと利用法

DeepSeek V4やKimi-K2.6等に対応
Python・JS両SDKから利用可能
HF経由ルーティングで追加料金なし

今後の展開

画像動画生成等も順次対応予定
PROユーザーに月2ドル分のクレジット

DeepInfraが、Hugging Face Hubの推論プロバイダーとして新たに統合されました。DeepInfraは業界でも最も低コストなトークン単価を誇るサーバーレスAI推論プラットフォームで、100以上のモデルカタログを持ち、開発者が最小限のセットアップでAI機能をアプリケーションに組み込めます。

今回の初期統合では、会話およびテキスト生成タスクをサポートしています。DeepSeek V4Kimi-K2.6、GLM-5.1など人気のオープンウェイトLLMにアクセスできるようになりました。テキストから画像動画への生成やエンベディングなど、追加タスクへの対応も順次展開される予定です。

利用方法は2つあります。ユーザーが自身のDeepInfra APIキーを設定して直接リクエストを送る方法と、Hugging Face経由でルーティングする方法です。後者の場合、プロバイダーのトークンは不要で、標準的なプロバイダー料金のみが課金されます。Hugging Face側の追加マークアップはありません。

SDKとの統合も進んでおり、Pythonのhuggingface_hubやJavaScriptの@huggingface/inferenceから簡単に利用できます。さらにPi、OpenCode、Hermes Agentsなど主要なエージェントハーネスにも統合済みで、追加のコードなしでDeepInfraホストモデルを活用可能です。PROプランのユーザーには毎月2ドル分の推論クレジットが付与され、複数プロバイダーにまたがって利用できます。

NVIDIA、視覚・音声・言語を統合した軽量マルチモーダルAIモデルを公開

モデルの特徴と性能

視覚・音声・テキストを単一モデルで処理
文書理解など6つのベンチマークで首位
従来比最大9倍のスループット向上

アーキテクチャと技術基盤

Mamba-Transformer-MoEのハイブリッド構成
動的解像度で高精細文書に対応
音声エンコーダによるネイティブ音声入力

活用領域と展開

GUIエージェントや文書分析に対応
オープンウェイトで公開・商用利用可

NVIDIAは2026年4月28日、マルチモーダルAIモデルNemotron 3 Nano Omniを公開しました。このモデルはテキスト・画像動画音声を単一のアーキテクチャで処理できるオムニモーダルモデルで、AIエージェントの構築を効率化することを目的としています。パラメータ規模は30B(アクティブ3B)で、従来のように複数モデルを組み合わせる必要がなくなります。

性能面では、文書理解のMMLongBench-DocOCRBenchV2、動画理解のWorldSense、音声理解のVoiceBenchなど6つの主要ベンチマークでトップの精度を記録しています。同等の対話性能を持つオープンなオムニモデルと比較して、マルチドキュメント処理で7.4倍、動画処理で9.2倍のシステム効率を実現しました。

アーキテクチャの核となるのは、23層のMamba状態空間モデル、23層のMixture-of-Experts(128エキスパート、Top-6ルーティング)、6層のグループ化クエリアテンションを組み合わせたハイブリッド構成です。視覚側にはC-RADIOv4-Hエンコーダを採用し、動的解像度処理により100ページ超の文書やGUIスクリーンショットにも対応します。音声側にはParakeet-TDT-0.6B-v2エンコーダを搭載し、最大20分の音声入力をネイティブに処理できます。

想定される活用領域は、企業文書の分析、GUI操作を行うコンピュータ使用エージェント、長時間の動画音声理解、自動音声認識、そして汎用的なマルチモーダル推論の5分野です。すでにH Company、Aible、Eka Care、Foxconnなどが採用を進めており、Dell Technologies、Oracle、Infosysなども評価段階にあります。

モデルはオープンウェイトで公開されており、BF16・FP8・NVFP4の各チェックポイントがHugging Faceからダウンロード可能です。訓練データや手法も公開されているため、NVIDIA NeMoを使った独自のカスタマイズが可能です。NVIDIA Jetsonのようなエッジデバイスからデータセンタークラウドまで幅広い環境にデプロイでき、Nemotronファミリー全体では過去1年で5,000万回以上のダウンロードを達成しています。

Xiaomi、エージェント特化のMiMo-V2.5をMITライセンスで公開

モデルの性能と効率

310BパラメータのMoE構造
Pro版はエージェント成功率63.8%達成
トークン消費量は主要モデルの40〜60%削減
100万トークンコンテキスト

価格とライセンス戦略

MITライセンスで商用利用自由
Pro版は入力100万トークンあたり1ドル
開発者向けに100兆トークン無料提供

実証された自律タスク

Rustコンパイラを4.3時間で完全実装
動画編集アプリ8192行を自律生成

Xiaomiは2026年4月27日、オープンソースの大規模言語モデルMiMo-V2.5およびMiMo-V2.5-ProMITライセンスで公開しました。両モデルはHugging Faceからダウンロード可能で、商用利用に制限がありません。特にエージェント型タスクにおいて、主要なクローズドソースモデルを上回る効率性を示しています。

MiMo-V2.5はSparse Mixture-of-Experts構造を採用し、総パラメータ数310Bのうち推論時にはわずか15Bのみを使用します。Pro版は1.02兆パラメータで42Bが活性化し、ClawEvalベンチマークエージェント成功率63.8%を記録しました。これはClaude Opus 4.6やGPT-5.4と同等の成果を、40〜60%少ないトークンで達成するものです。

Pro版の能力は実際の自律タスクで実証されています。SysYコンパイラのRust実装では672回のツール呼び出しを経て4.3時間で完全なコンパイラを構築し、隠しテストで満点を取得しました。また動画編集アプリケーションでは11.5時間で8192行のデスクトップアプリを生成しています。

価格面では、Pro版が海外開発者向けに入力100万トークンあたり1ドル、出力3ドルという競争力のある設定です。100万トークンのコンテキスト窓は標準料金で利用でき、業界で広がる従量課金への移行の中でコスト予測可能性を提供します。開発者支援として100兆トークンの無料枠も用意されました。

MITライセンスの採用は戦略的に重要です。企業はXiaomiの許可なく商用展開が可能で、独自データでのファインチューニングや派生モデルの公開も自由です。GitHub Copilotの従量課金移行が発表された同日のリリースは、プロプライエタリモデルへの依存コストが高まる中で、オープンソースの代替としての存在感を強調しています。

OpenAI個人情報保護モデルで3つのアプリを構築

モデルの特徴と性能

15億パラメータ、活性50Mの軽量設計
Apache 2.0の寛容ライセンス
128Kトークンの長文一括処理
PII検出ベンチマーク最高精度達成

3種のデモアプリ構成

PDF等の個人情報を自動強調表示
画像内の個人情報を黒塗り処理
貼り付けテキストの秘匿共有機能
gradio.Serverで統一的に構築

OpenAIが公開した個人情報保護モデル「Privacy Filter」を活用し、Hugging Face開発者3名が実用的なWebアプリ3本を構築しました。Privacy Filterは15億パラメータのモデルで、活性パラメータは5000万、Apache 2.0ライセンスで提供されています。128Kトークンのコンテキストに対応し、PII検出ベンチマークで最高精度を達成しています。

1つ目の「Document Privacy Explorer」は、PDFやDOCXファイルをアップロードすると、個人名・メールアドレス・電話番号などの個人情報を自動検出してカテゴリ別にハイライト表示するアプリです。128Kコンテキストを活かし、文書全体を一括処理するためチャンク分割が不要です。

2つ目の「Image Anonymizer」は、スクリーンショットや画像内の個人情報を黒塗りで自動秘匿するツールです。Tesseract OCRで文字領域を抽出した後にPrivacy Filterで検出し、ピクセル座標の矩形として返します。ブラウザ上でバーの表示切替やドラッグ移動、手動追加も可能です。

3つ目の「SmartRedact Paste」は、テキストを貼り付けると秘匿済みの公開URLと、原文を確認できるトークン付き非公開URLの2つを生成するプライバシー対応ペーストビンです。多言語テキストにも対応しています。

3つのアプリはすべてgradio.Server上に構築されています。モデル推論は@server.apiデコレータでGradioのキューに載せ、ZeroGPU割り当てやプログレス通知を活用します。静的ページの配信にはFastAPIのルートを使い、モデル呼び出しとUI提供を明確に分離する設計パターンが共通しています。

OpenAIが個人情報検出モデルをオープンソース公開

モデルの技術的特徴

総パラメータ15億推論時は5000万
双方向トークン分類で文脈を理解
128Kトークンの長文書を一括処理
8種類のPIIカテゴリを検出

企業導入のメリット

端末上で完結しデータ外部送信不要
Apache 2.0で商用利用・改変が自由
ドメイン特化のファインチューニング対応
ブラウザ上でもWebGPUで実行可能

OpenAIは2026年4月22日、テキスト中の個人識別情報(PII)を検出・除去する専用モデル「Privacy Filter」をオープンソースで公開しました。Apache 2.0ライセンスでHugging FaceGitHubから利用でき、商用利用やモデルの改変も自由です。同社が自社のプライバシー保護ワークフローで使用しているモデルの公開版で、PII-Masking-300kベンチマークF1スコア96%を達成しています。

Privacy Filterは通常の大規模言語モデルとは異なり、双方向トークン分類モデルとして設計されています。入力テキスト全体を一度に読み取り、前後の文脈から個人情報かどうかを判断します。たとえば「Alice」という単語が私的な個人名なのか、文学作品のキャラクター名なのかを周囲の文脈から区別できます。総パラメータ数は15億ですが、Mixture-of-Experts構造により推論時のアクティブパラメータは5000万に抑えられています。

検出対象は個人名・住所・メール・電話番号・URL・日付・口座番号・パスワードやAPIキーなどの秘密情報の8カテゴリです。128,000トークンのコンテキストウィンドウを持ち、法的文書や長大なメールスレッドも分割せずに処理できます。Viterbiデコーダにより「John Smith」のような複数語の名前も一貫した範囲として正しくマスキングされます。

企業にとっての最大の利点は、ローカル環境で完結する点です。ノートPCやブラウザ上で動作するため、機密データをクラウドに送信せずにPIIを除去できます。GDPRやHIPAAへの準拠が求められる環境でも、まずPrivacy Filterでデータを浄化してからGPT-5などの推論モデルに渡すワークフローが構築できます。

ただしOpenAIは、本モデルは「匿名化ツールやコンプライアンス認証の代替ではない」と注意喚起しています。医療・法務・金融などの高リスク領域では人間によるレビューとドメイン固有の評価が依然として重要です。それでも、少量のデータでファインチューニングすればF1スコアが54%から96%に向上した実験結果も示されており、各組織の用途に合わせた柔軟なカスタマイズが可能です。

Gemma 4 VLA、8GBのJetsonで音声・視覚応答を実現

エッジ上のVLA構成

8GBのJetson Orin Nanoで動作
音声認識・TTS・視覚を統合
llama.cppでQ4量子化モデルを使用
ツール呼び出しで自律的に判断

デモの仕組みと導入

Parakeet STTで音声をテキスト化
必要時のみウェブカメラを起動
Kokoro TTSで音声応答を生成
単一スクリプトで環境構築可能

GoogleGemma 4 VLA(Vision-Language-Action)モデルが、わずか8GBメモリNVIDIA Jetson Orin Nano Super上で動作するデモが公開されました。音声入力から視覚認識、音声応答までを一台のエッジデバイスで完結させるチュートリアルで、NVIDIAのAsier Arranz氏がHugging Faceブログで詳細な手順を紹介しています。

デモの構成は、Parakeet STTによる音声認識、Gemma 4による推論、Kokoro TTSによる音声合成を組み合わせたパイプラインです。ユーザーがスペースキーを押して質問を話すと、モデルが質問内容を解析します。視覚情報が必要と判断した場合は、自律的にウェブカメラを起動して撮影し、画像を踏まえた回答を生成します。

技術的なポイントは、llama.cppを使ったローカル推論サーバーの構築です。モデルはQ4_K_M量子化版のGGUFフォーマットで提供され、ビジョンプロジェクターと合わせてGPUにオフロードされます。--jinjaフラグによりGemmaのネイティブツール呼び出し機能が有効化され、キーワードマッチングではなくモデル自身が視覚の必要性を判断する仕組みです。

導入手順はシステムパッケージのインストール、Python環境の構築、メモリの最適化、llama.cppのビルド、デバイスの設定、デモの実行という6ステップで構成されています。8GBという限られたメモリを最大限活用するため、スワップの追加やDocker・不要プロセスの停止といったメモリ管理の工夫も紹介されています。

テキストのみで試したい場合は、NVIDIA公式のDockerイメージを使ったワンライナーでの起動も可能です。ただしDocker版はビジョンプロジェクターを読み込まないため、VLAデモのフル機能は利用できません。エッジデバイス上でマルチモーダルAIを手軽に体験できる実践的なチュートリアルとなっています。

アラビア語LLM評価基盤QIMMAが公開

品質検証を先行する新手法

評価前にベンチマーク品質を検証
2つのLLMと人間レビューの多段階審査
109サブセット・5.2万サンプル統合
既存ベンチマークの体系的欠陥を発見

初のコード評価と透明性

アラビア語初のコード生成評価を搭載
全サンプルの推論出力を公開
99%がネイティブアラビア語コンテンツ
7ドメイン・46モデルを網羅的に評価

UAE Technology Innovation Institute(TII)の研究チームは2026年4月21日、アラビア語LLMの評価基盤「QIMMA」をHugging Face上で公開しました。QIMMAはアラビア語で「頂上」を意味し、既存ベンチマークの品質を検証してからモデル評価を行う「品質第一」のアプローチを採用しています。14のソースベンチマークから109サブセット、5万2000以上のサンプルを統合した包括的な評価スイートです。

従来のアラビア語ベンチマークには、英語からの翻訳による文化的不整合、アノテーションの不一致、誤った正解ラベルなどの体系的な品質問題が存在していました。QIMMAでは評価の前段階として、Qwen3-235BとDeepSeek-V3の2つの大規模モデルによる自動審査と、ネイティブ話者による人間レビューを組み合わせた多段階検証パイプラインを構築しています。

検証の結果、ArabicMMLUでは3.1%、MizanQAでは2.3%のサンプルが品質基準を満たさず除外されました。コードベンチマークでは、HumanEval+の88%、MBPP+の81%のアラビア語問題文に修正が必要と判明し、既存評価の信頼性に疑問を投げかけています。

リーダーボードの初期結果では、Qwen3.5-397Bが平均68.06点で首位、アラビア語特化のKarnakが66.20点で2位、Jais-2-70Bが65.81点で3位となりました。注目すべきは、モデルサイズと性能が必ずしも比例しない点で、32Bパラメータのモデルが70B以上のモデルを特定ドメインで上回るケースが確認されています。

QIMMAはオープンソース、ネイティブアラビア語コンテンツ、品質検証、コード評価、推論出力公開の5要素を兼ね備えた唯一のプラットフォームです。アラビア語は4億人以上の話者を持ちながらNLP評価の整備が遅れており、信頼性の高い評価基盤の登場は、同言語圏でのLLM開発・選定に大きな影響を与えると見られます。

Kimi K2.6が数日間稼働するAIエージェントを実現

長時間エージェントの実力

最長5日間の自律稼働を実証
300サブエージェント・4000ステップ同時実行
SySYコンパイラを10時間で構築
8年物のOSSコードを13時間で刷新

オーケストレーションの課題

既存フレームワークは短時間前提の設計
状態管理とロールバックが未整備
ガバナンスが導入速度に追いつかず
エージェント専用インフラの概念が未成熟

中国のAIスタートアップMoonshot AIは2026年4月、新モデルKimi K2.6を発表しました。同モデルは長時間にわたり自律的に稼働するAIエージェントを想定して設計されており、社内テストでは最長5日間の連続実行に成功しています。モデルはHugging Face、API、Kimi Codeなどを通じて公開されました。

Kimi K2.6の特徴は、独自の「Agent Swarms」アーキテクチャにあります。最大300のサブエージェントが4000ステップを同時に処理でき、事前定義された役割ではなくモデル自身がオーケストレーションを判断します。AnthropicClaude CodeOpenAICodexも長時間エージェントを模索していますが、K2.6はより動的な制御を目指しています。

実証実験では、SySYコンパイラを10時間で一から構築し、140件の機能テストをすべて通過しました。Moonshot AIはこれを「エンジニア4人が2カ月かかる作業に相当する」と説明しています。また、8年間運用されたオープンソースの金融マッチングエンジンの改修では、13時間で12の最適化戦略を試行し、1000回以上のツール呼び出しで4000行超のコードを修正しました。

一方、長時間稼働するエージェントは既存のオーケストレーション基盤の限界を露呈させています。大半のフレームワークは数秒から数分の実行を前提に設計されており、環境変化に応じた状態管理や障害時のロールバックが十分に整備されていません。専門家は「エージェントランタイム」「エージェントゲートウェイ」「エージェントメッシュ」といった新たなインフラ概念の必要性を指摘しています。

セキュリティ企業ArmorCodeのMark Lambert氏は、AIエージェントがコードやシステム変更を生成する速度が組織のレビュー能力を超えつつあると警告しています。F5のKunal Anand氏も、エージェントが「永続的インフラ」として機能する時代に入ったと述べ、APIゲートウェイのパターン自体が目標やワークフローを理解する形へ進化する必要があると指摘しました。

Hugging Faceがオープン性こそAIサイバー防御の鍵と主張

Mythos後のAI防御戦略

オープンなツールが防御側の能力格差を縮小
AI脆弱性発見はモデル単体でなくシステム全体に依存
閉鎖的コードは単一障害点になるリスク

半自律エージェントの活用

人間が制御を保つ半自律型が最適解
オープンな構成要素で監査可能性を確保
組織内インフラでの自社運用を推奨

高リスク組織への提言

オープンな脅威モデル共有が防御力を底上げ
孤立した独自防御は攻撃者に対抗不能

Hugging Faceは2026年4月21日、AIサイバーセキュリティにおけるオープン性の重要性を訴えるブログ記事を公開しました。AnthropicMythosがFirefoxの脆弱性を大量に発見した事例を受け、AI防御の在り方を論じています。同社はMargaret Mitchell氏、Yacine Jernite氏、CEO Clem氏の連名で、オープンなエコシステムが防御側に構造的優位をもたらすと主張しています。

記事の核心は、Mythosの成果がモデル単体ではなく大規模計算資源・専用スキャフォールディング・自律的動作を組み合わせたシステム全体によるものだという分析です。同様のシステムは小規模モデルでも構築可能であり、深いセキュリティ専門知識と十分な計算資源があれば、より安価に同等の成果を出せる可能性があるとしています。

オープンソースの利点として、脆弱性の検出・検証・調整・パッチ配布の4段階をコミュニティ全体に分散できる点を挙げています。一方、閉鎖的なコードベースは単一組織だけが修正可能な単一障害点となり、AIコーディングツールの不適切な導入がかえって脆弱性を増やすリスクもあると警告しています。

防御策として推奨されているのは半自律型AIエージェントです。完全自律ではなく、実行可能なアクションを事前に指定し、重要な判断には人間の承認を求める方式が、効果とリスクのバランスに優れるとしています。オープンなエージェント基盤・ルールエンジン・監査可能なログにより、人間がループ内で実質的に機能できる透明性が確保されます。

リスク組織に対しては、オープンで監査可能な基盤から始めることを提言しています。自社のセキュリティチームが監視の仕組みを直接検証でき、自社データでの微調整や自社インフラ内での運用が可能になるためです。今後のAIサイバーセキュリティはモデル単体ではなく周辺エコシステムによって決まるとし、オープンなセキュリティレビュー・脅威モデル公開・脆弱性データベース共有が防御の要になると結論づけています。

NVIDIA、韓国人口統計に基づく合成ペルソナ600万件を公開

データセットの特徴

韓国統計庁等の公的データに基づく生成
600万件の合成ペルソナ、個人情報なし
26フィールド、全17道府県をカバー
CC BY 4.0ライセンスで公開

AIエージェントへの応用

ペルソナでエージェント韓国文化を付与
敬語体系や地域職業分布を反映
医療や金融など多領域に適用可能

NVIDIAは2026年4月21日、韓国の人口統計データに基づく合成ペルソナデータセット「Nemotron-Personas-Korea」をHugging Faceで公開しました韓国統計情報サービス(KOSIS)や大法院、国民健康保険公団などの公的統計をもとに、600万件の合成ペルソナを生成しています。NAVER Cloudがシードデータとドメイン知識で協力しました。

各ペルソナは26のフィールドを持ち、名前、地域、職業、スキルなどの属性が含まれます。韓国全17道府県・25地区をカバーし、2,000以上の職業カテゴリを網羅しています。韓国個人情報保護法(PIPA)を考慮した設計で、個人を特定できる情報は一切含まれていません

このデータセットの主な用途は、AIエージェント韓国の文化的コンテキストを付与することです。現在のAIエージェントの多くは英語ウェブデータで訓練されており、韓国語の敬語体系や地域ごとの職業分布、文化的文脈を反映できていません。ペルソナをシステムプロンプトに組み込むことで、韓国専門家として適切に応答するエージェントを構築できます。

チュートリアルでは、公衆衛生相談エージェントの構築例が示されています。ペルソナから抽出した属性をシステムプロンプトに反映し、NVIDIA APIやNIM、NemoClawなど複数の推論基盤で展開できます。金融、教育、行政など他分野への応用も容易です。

Nemotron-Personasコレクションは韓国のほか、米国日本インド、シンガポール、ブラジル、フランスもカバーしています。NVIDIAは同日からソウルで「Nemotron Developer Days」を開催し、このデータセットを使ったハッカソンも実施しています。

NVIDIA、合成データで多言語OCRモデルを構築

合成データ戦略の成果

1,220万枚の合成画像で学習
6言語を単一モデルで処理
NED誤差率を0.92から0.047以下に改善
フォントとテキストだけで新言語追加が可能

高速アーキテクチャ

A100で毎秒34.7ページ処理
PaddleOCR比28倍以上の速度
検出・認識・関係モデルが特徴マップ共有
パラメータ数わずか8,400万

NVIDIAは2026年4月17日、合成データのみで学習した多言語OCRモデル「Nemotron OCR v2」をHugging Faceで公開しました。英語・日本語・韓国語・ロシア語・中国語簡体字・繁体字の6言語に対応し、単一モデルで言語の事前指定なく文書を読み取れます。データセットとモデルはともにオープンライセンスで提供されています。

従来のNemotron OCR v1は英語専用で訓練されており、日本語や韓国語ではNormalized Edit Distance(NED)が0.7〜0.9と実用に耐えない精度でした。多言語化の課題はモデル構造ではなく学習データの不足にありました。実世界の文書画像を6言語分収集・アノテーションするコストは現実的でないため、チームは合成データによるアプローチを選択しました。

合成データパイプラインはSynthDoGを大幅に改良したもので、単語・行・段落の3階層バウンディングボックスと読み順グラフを自動生成します。CJK言語ではスペース区切りがないため行単位の認識を採用し、165〜1,258種のオープンソースフォントを使用。多様なレイアウトテンプレートとデータ拡張により、合成画像でも実文書への汎化性能を確保しています。

ベンチマーク結果は顕著です。SynthDoG評価では全言語でNEDを0.035〜0.069に低減し、言語別の専用モデルであるPaddleOCRをも上回りました。実文書ベンチマークのOmniDocBenchでは、PaddleOCR v5の毎秒1.2ページに対し毎秒34.7ページを達成しています。この速度はFOTSアーキテクチャに基づく特徴マップの共有設計によるもので、検出用バックボーンの畳み込み処理が1回で済むため下流コンポーネントのオーバーヘッドが最小化されています。

このパイプラインの拡張性も注目に値します。新しい言語への対応に必要なのは対象言語のソーステキストとフォントだけで、モデル構造の変更や手動アノテーションは不要です。mOSCARコーパスが163言語をカバーし、Notoフォントファミリーがほぼ全てのUnicodeスクリプトに対応しているため、さらなる多言語展開への道筋が明確に示されています。

HuggingFace、MLX向けモデル移植Skillを公開

Skillの仕組みと特徴

transformersコードを正解として移植
RoPEバグや精度汚染を自動検出
レイヤー単位で数値比較を実行
PRにレポートと生成例を添付

品質担保の取り組み

エージェント型テストハーネスを併設
再現可能な検証で幻覚リスクを排除
結果をJSON保存し透明性を確保

今後の展望と課題

mlx-vlmやllama.cppへの拡張を検討

HuggingFaceは2026年4月16日、transformersライブラリのモデルをAppleのMLXフレームワーク(mlx-lm)に移植するためのSkillとテストハーネスを公開しました。このSkillはClaude Codeエージェント機能を活用し、コントリビューターとレビュアーの双方を支援することを目的としています。transformersに新モデルが追加された際、速やかにMLXでも利用可能にすることを目指しています。

Skillは単なるコード生成ツールではなく、モデル移植に必要な一連の作業を体系化したものです。Hub上のモデル検索・ダウンロード、仮想環境構築、transformersのモデリングコード読解、MLX実装の作成、テスト実行までを一貫して行います。RoPE設定のバグやfloat32精度汚染といった、経験豊富な開発者でなければ気づきにくい問題も自動的に検出します

品質担保のために、Skillとは別に非エージェント型のテストハーネスも開発されました。LLMの幻覚や過信に依存しない再現可能な検証を提供し、結果はサマリーレポート、モデルごとの詳細、生のJSON出力として保存されます。ただしこのハーネスはCIゲートではなく、最終的な判断はレビュアーとコントリビューターに委ねられます。

ブログではコードエージェント時代のオープンソース貢献の在り方についても問題提起しています。transformersのようなライブラリでは暗黙の設計契約が重要であり、エージェント生成のPRがレビュアーの負担を増大させている現状を指摘しました。今後はビジョン言語モデル向けのmlx-vlmやllama.cppへの対応拡張、テストハーネスの自動化が検討されています。

Sentence Transformersがマルチモーダル埋め込みモデルの学習に対応

学習手法と実装

テキスト・画像音声動画に対応
Qwen3-VL-Embedding-2Bの微調整例を公開
視覚文書検索でNDCG@10が0.888→0.947に向上

実用的な技術要素

MatryoshkaLossで多次元埋め込みに対応
勾配キャッシュで大バッチ学習が可能
テキスト専用と同一のTrainer APIで実装
マルチモーダルリランカーの学習にも対応

Hugging Faceは2026年4月16日、Sentence Transformersライブラリでマルチモーダル埋め込みモデルとリランカーモデルを学習・微調整する方法を解説するブログ記事を公開しました。テキストだけでなく画像音声動画を扱えるモデルの学習が、既存のテキスト専用パイプラインとほぼ同じコードで実現できます。

実践例として、Qwen3-VL-Embedding-2Bを視覚文書検索タスクで微調整する手順が紹介されています。テキストクエリに対して関連するドキュメントのスクリーンショットを検索するタスクで、微調整後のモデルはNDCG@10を0.888から0.947に改善しました。これは8Bパラメータの大型モデルを含む既存のすべてのモデルを上回る成績です。

学習にはCachedMultipleNegativesRankingLossとMatryoshkaLossを組み合わせて使用します。前者は勾配キャッシュにより限られたGPUメモリでも大きな実効バッチサイズを確保でき、後者は埋め込みベクトルを任意の次元数に切り詰めても高い性能を維持できるよう訓練します。512次元への圧縮でもピーク性能の99.7%を保持するという結果が示されています。

さらに、マルチモーダルなクロスエンコーダ(リランカー)モデルの学習方法も紹介されています。画像からテキスト、テキストから画像の双方向の照合を1つのモデルで学習する手法が示されており、Routerモジュールを使った別々のエンコーダの組み合わせにも対応しています。ドメイン固有データでの微調整がモデルサイズの拡大よりも効果的であることを実証した、実践的なガイドとなっています。

IBM、AIエージェント評価基盤VAKRAを公開

VAKRAの設計と特徴

62ドメイン・8000超のAPIで構成
3〜7ステップの推論チェーンを評価
実行トレース全体で正確性を判定

4つの評価能力と課題

API連鎖・ツール選択・多段推論を測定
文書検索との複合推論も対象
ポリシー制約下で全モデルが性能低下
既存モデルの実用信頼性に課題を露呈

主要モデルの比較結果

GPT-OSS-120BがAPI連鎖で最高精度
Gemini-3-flashがツール選択で優位

IBM Researchは2026年4月15日、AIエージェントの実務的な推論能力とツール使用を評価するベンチマークVAKRAHugging Faceで公開しました。従来のベンチマークが個別スキルを測定するのに対し、VAKRAは62ドメインにまたがる8000以上のAPIと文書コレクションを用い、エージェントが複数ステップのワークフローを確実に遂行できるかを実行トレース全体で評価します。

VAKRAは4つの能力を段階的に測定します。第1にビジネスインテリジェンスAPIの連鎖、第2にダッシュボードAPIからの正確なツール選択、第3に複数の論理ステップを要する多段推論、第4にAPI呼び出しと文書検索を組み合わせた複合推論です。第4段階ではさらにマルチターン対話やツール使用ポリシーへの準拠も求められます。

評価はウォーターフォール型パイプラインで実施されます。まずポリシー準拠を検証し、次に予測されたツール呼び出しの系列を正解と比較し、最後に最終回答の正確性を判定します。厳密なステップ一致ではなく、ツール応答の情報的等価性を基準とすることで、正当な代替パスも評価できる設計です。

主要モデルの比較では、GPT-OSS-120BがAPI連鎖タスクで他モデルを大差で上回りました。ツールスキーマの理解とパラメータ選択に優れていたことが要因です。一方、ツール選択タスクではGemini-3-flash-previewが全エラーカテゴリで最良の結果を示しました。多段推論ではホップ数の増加に伴い全モデルで性能が低下しています。

特に注目すべきは、ツール使用ポリシーを課した場合の結果です。情報源へのアクセスを制限するポリシーが存在すると、ほぼ全モデルで明確な性能低下が見られました。モデルは制約を理解しつつも推論に組み込めないケースが多く、企業環境での信頼性確保にはまだ課題があることが示されています。

独BFL、70人で画像生成AIの世界首位級に迫る

独発の急成長スタートアップ

評価額32.5億ドル到達
社員わずか70人体制
本社は独フライブルク近郊

大手との提携と技術力

AdobeCanva画像機能提供
Meta1.4億ドル契約締結
効率的な潜在拡散を採用

次の一手はフィジカルAI

年内にロボット公開予定
スマートグラス分野とも協議

ドイツの黒い森地方に本社を置く70人のAIスタートアップBlack Forest Labs(BFL)が、画像生成AIの分野でOpenAIGoogleに次ぐ世界トップ級の競争力を獲得しています。2025年12月には評価額32.5億ドル資金調達を実施し、AdobeCanvaといった大手クリエイティブ企業の画像生成機能を支える存在になりました。わずか5000マイル離れたシリコンバレーの巨人たちに、少人数チームで真っ向から挑む構図です。

提携先の顔ぶれも際立っています。同社はMicrosoftMetaxAIといった主要AI企業にも技術を供給し、2025年9月にはMetaと総額1.4億ドルの複数年契約を結びました。2024年にはイーロン・マスク氏率いるxAI画像生成Grok」を支える形で一躍有名になった一方、安全策の緩さが物議を醸し、提携は数カ月で終了した経緯があります。

近ごろxAIが再度ライセンス供与を打診したものの、BFLは混沌とした社風との協業は運用負荷が高すぎると判断し、今回は断ったと関係者は語ります。競合より資源が限られる同社は、まず粗い下絵を描き、その後に細部を描き込む潜在拡散(latent diffusion)と呼ばれる効率的な手法を磨いてきました。これが少人数でも一線級のモデルを量産できる理由です。

共同創業者アンドレアス・ブラットマン氏はWIREDに対し、「この手法のおかげで、競合の数分の一の資源で非常に強力なモデルを出せた」と語ります。HuggingFace上で最も多くダウンロードされているテキスト画像変換モデルの一角を占めるのも同社の特徴で、市場に出回る多くの画像AIが裏側でBFLの無料版モデルを利用している可能性が高いといいます。

創業者らは米サンフランシスコへの移転ではなく、故郷に近い独フライブルク周辺に本拠を構え続けることを選びました。「注意を引くものが少ない場所であることは、大きな強みになり得る」とブラットマン氏は述べ、集中できる環境こそが急成長の鍵だったと振り返ります。OpenAISoraを閉じTBPN買収に走るなど、米勢がフォーカスに苦しむ中での対照的な姿勢です。

BFLの野望は画像生成にとどまりません。同社は年内に、自社AIモデルを搭載したロボットを発表する計画を明らかにしました。スマートグラスロボット向けに技術提供するハードウェア企業とも協議中とされ、「視覚知性はコンテンツ生成を超えて広がる」とブラットマン氏は強調します。物理世界で行動するフィジカルAIへの進出が、次の競争軸となりそうです。

Hugging Face、画像音声動画の埋め込みに対応

v5.4の新機能

マルチモーダル埋め込み追加
画像音声動画共有空間
リランカーも多モーダル対応
同一APIで混在入力可能

対応モデルと要件

Qwen3-VLとNemotron統合
2BはVRAM8GBから動作
processor_kwargsへ名称変更

Hugging Faceは4月9日、オープンソースの埋め込みライブラリSentence Transformers v5.4を公開し、テキストに限定されてきた埋め込みとリランキングの機能を画像音声動画にまで拡張しました。開発者は従来と同じAPIを使いながら、モダリティをまたいだベクトル検索RAGパイプラインを構築できるようになります。視覚的な文書検索やクロスモーダル検索といった新しい用途を、少ないコード変更で取り込める点が最大の特徴です。

中核となるのは、異なるモダリティの入力を共有埋め込み空間に写像する多モーダル埋め込みモデルです。テキストクエリと画像文書を直接比較でき、同じsimilarity関数で関連度を評価できます。ブログの例では「黄色い建物前に駐車された緑の車」というテキストが、該当する車の画像に対して最も高い類似度を示し、ハードネガティブの誤マッチが抑えられることが示されました。

リランカー(CrossEncoder)も多モーダル化され、テキスト・画像動画を組み合わせたペアにスコアを付与できます。エンベディングで高速に候補を絞り込み、リランカーで精度を高めるという2段構えの検索パターンが、マルチモーダル文脈でも標準化されました。rank()やpredict()は従来と同じインターフェースのまま、複合入力を受け付けます。

対応モデルにはQwen3-VL-Embedding-2B/8B、NVIDIA llama-nemotron-embed-vl、jinaai/jina-reranker-m0などが含まれ、統合コレクションから即座に利用できます。2BクラスはVRAM約8GB、8Bクラスは約20GBを必要とし、CPUでは推論が著しく遅いためGPU環境の利用が推奨されています。

設定面では画像解像度や精度を制御するprocessor_kwargsとmodel_kwargsが用意され、従来のtokenizer_kwargsは非推奨となりました。経営層やエンジニアにとって、社内ドキュメントのスクリーンショットや動画アーカイブを横断検索する基盤を、既存の知識資産を活かしたまま整備できる点が実務的な価値です。

SafetensorsがPyTorch財団に移管

移管の背景と目的

Hugging Face発のOSSプロジェクト
pickleベース形式の安全性リスクを解消
ベンダー中立なLinux Foundation傘下へ

今後の開発計画

PyTorchコアへの統合を推進
CUDA・ROCm直接読み込み対応
FP8や量子化フォーマットの正式サポート
テンソル並列・パイプライン並列の最適化

Hugging Faceは2026年4月8日、同社が開発したモデル重み保存フォーマット「Safetensors」がPyTorch Foundationに参加すると発表しました。商標・リポジトリ・ガバナンスがLinux Foundationの管理下に移り、特定企業に依存しない中立的な運営体制へと移行します。

Safetensorsは、従来のpickleベースのフォーマットが持つ任意コード実行のリスクを排除する目的で開発されました。JSONヘッダーとテンソルデータのみで構成されるシンプルな設計が特徴で、ゼロコピー読み込みや遅延読み込みに対応しています。現在はHugging Face Hub上の数万モデルで標準フォーマットとして採用されており、オープンソースML分野で事実上の標準となっています。

ガバナンス移管後も、Hugging Faceのコアメンテナ2名が技術運営委員会に残り、日常的な開発を引き続きリードします。既存ユーザーにとってフォーマットやAPIに変更はなく、破壊的変更はありません。新たな貢献者がメンテナになるための手順も正式に文書化されました。

今後の開発ロードマップとしては、PyTorchコアのシリアライゼーションシステムとしての統合、CUDA・ROCmなどアクセラレータへの直接読み込み、テンソル並列やパイプライン並列の最適化、FP8やGPTQ・AWQなどの量子化フォーマット対応が計画されています。PyTorch Foundation内の他プロジェクトとの協業により、エコシステム全体の課題解決を目指すとしています。

中国Z.aiがGLM-5.1をMITライセンスで公開

モデルの技術的特徴

7540億パラメータのMoEモデル
最大8時間の自律作業に対応
1700回超のツール呼び出しが可能
階段状の最適化パターンを実現

ベンチマークと価格戦略

SWE-Bench Proで58.4を記録
Opus 4.6やGPT-5.4を上回る成績
API価格は入力100万トークン1.40ドル
オープンソースと有料版の二段構え

中国のAIスタートアップZ.ai(智譜AI)は2026年4月7日、大規模言語モデルGLM-5.1MITライセンスのオープンソースとして公開しました。7540億パラメータのMixture-of-Expertsモデルで、単一タスクに対して最大8時間の自律的な作業が可能です。Hugging Faceからダウンロードでき、商用利用も許可されています。

GLM-5.1の最大の技術的特徴は、長時間にわたる目標整合性の維持です。従来のモデルが数十ステップで性能が頭打ちになるのに対し、GLM-5.1は1700回以上のツール呼び出しを経ても有効な最適化を継続します。Z.aiはこれを「階段パターン」と呼び、漸進的な調整と構造的なブレークスルーが交互に現れる最適化プロセスだと説明しています。

ベンチマークでは、実世界のGitHub問題を解決するSWE-Bench Proで58.4を達成し、GPT-5.4の57.7やClaude Opus 4.6の57.3を上回りました。VectorDBBenchでは655回の反復と6000回超のツール呼び出しを経て、毎秒21500クエリを達成しています。これはOpus 4.6の最高記録の約6倍にあたります。

価格面では、APIが入力100万トークンあたり1.40ドル、出力が4.40ドルに設定されています。サブスクリプションは四半期27ドルのLiteから216ドルのMaxまで3段階を用意しています。一方、先月公開された高速版のGLM-5 Turboはプロプライエタリのままで、オープンソースと有料製品を組み合わせたハイブリッド戦略を展開しています。

開発者コミュニティからは好意的な反応が寄せられており、従来1週間かかっていた作業が2日で完了したという報告もあります。Z.aiは2026年初頭に香港証券取引所に上場し、時価総額は約528億ドルに達しています。同社はAI競争の次の焦点が推論速度ではなく自律的な作業時間になると位置づけており、エージェント型AIの新たな方向性を示しています。

Google、最強オープンモデルGemma 4をApache 2.0で公開

モデル構成と性能

4種類のモデルを同時公開
31Bがオープン世界3位の性能
26B MoEは4Bの計算量で動作
E2B・E4Bはスマホ端末対応

技術的な特徴

テキスト・画像音声ネイティブ対応
関数呼び出しをモデルに組込み
最大256Kトークンの長文脈
140以上の言語事前学習

ライセンスと展開

Apache 2.0で商用利用自由
Ollamallama.cppで即日利用可能
NVIDIA GPUで最適化済み

Google DeepMindは2026年4月1日、オープンモデル「Gemma 4」を4サイズ同時に公開しました。最上位の31BモデルはArena AIリーダーボードでオープンモデル世界3位を獲得し、ライセンスは従来の独自条項からApache 2.0へ変更されました。

31B Denseは高品質な推論特化、26B MoEは128個の小規模エキスパートのうち8個だけを活性化し、31B級の性能を4B級の速度で実現します。AIME 2026で31Bが89.2%、MoEが88.3%を記録し、前世代Gemma 3の20.8%から飛躍的に向上しました。

エッジ向けのE2BE4Bは、スマートフォンやRaspberry Pi、Jetson Nanoで完全オフライン動作します。Per-Layer Embeddings技術により、E2Bは総パラメータ51億ながら実効2Bとして軽量に動き、音声認識もモデル内で処理できます。

全モデルが画像動画音声マルチモーダル入力に対応し、関数呼び出しもアーキテクチャレベルで統合されています。可変アスペクト比の画像処理、最大256Kトークンの長文脈、140以上の言語への対応により、エージェント型AIワークフローの構築基盤として設計されています。

Apache 2.0ライセンスへの移行は、企業導入における法的障壁を解消する重要な転換点です。NVIDIAとの協業によりRTX GPUからDGX Sparkまで最適化され、Ollamallama.cpp・Hugging Faceなど主要ツールが初日から対応しています。中国系モデルがオープン化を後退させる中、Google逆方向の戦略を明確にしました。

TII、6億パラメータで画像認識の統合モデル「Falcon Perception」公開

単一モデルで高精度認識

画像とテキストを1つのTransformerで統合処理
SAM 3を上回るMacro-F1 68.0達成
属性・OCR・空間理解で大幅な性能差
0.6Bパラメータの軽量設計

OCRモデルも同時発表

Falcon OCRは0.3Bパラメータ
olmOCRベンチで80.3点の高精度
オープンソースOCR最高スループット

診断ベンチマークPBench

能力別にL0〜L4の5段階で評価
空間理解でSAM 3に+21.9点差

UAE・技術革新研究所(TII)Falconチームは2026年4月1日、画像認識・セグメンテーション・OCRを単一のTransformerで処理するオープンソースモデルFalcon Perception」を公開しました。パラメータ数はわずか6億で、従来のパイプライン型システムに代わる統合的なアプローチを提案しています。

Falcon Perceptionの最大の特徴は、画像パッチとテキストトークンを最初の層から同一のパラメータ空間で処理する「早期融合」アーキテクチャです。画像トークンには双方向注意、テキストトークンには因果的注意を適用するハイブリッドマスクにより、1つのモデルで視覚エンコーダとテキストデコーダの両方の役割を果たします。

オープン語彙セグメンテーションベンチマークSA-Coでは、Macro-F1で68.0を達成し、Meta社のSAM 3の62.3を上回りました。特に属性認識で+8.2、食品・飲料カテゴリで+12.2と大きな差をつけています。一方、存在判定の精度(MCC 0.64対0.82)ではSAM 3に及ばず、今後の改善課題として示されています。

同時に発表されたFalcon OCRは0.3Bパラメータの文書認識モデルです。olmOCRベンチマークで80.3点、OmniDocBenchで88.6点を記録し、DeepSeek OCR v2やGPT 5.2を上回る性能を示しました。オープンソースOCRモデルとして最高のスループットを実現し、vLLM統合によりA100上で毎秒2.9画像を処理できます。

チームは性能評価のため、能力別に分類した診断ベンチマークPBench」も公開しました。単純な物体認識(L0)から関係推論(L4)まで5段階に分かれ、Falcon Perceptionは空間理解でSAM 3に+21.9点、OCR識別で+13.4点と、プロンプトが複雑になるほど差が拡大する結果となっています。

学習には5400万枚の画像と1億9500万の正例表現、4億8800万のハードネガティブを使用しました。3段階の学習レシピにより、シーン理解からタスク特化、高密度シーン対応へと段階的に能力を獲得させています。モデルとコードはHugging Faceで公開されており、Apple Silicon向けのMLX統合やDockerサーバーも提供されています。

H社、PC操作AI「Holo3」で業界最高精度を達成

Holo3の性能と特徴

OSWorld検証で78.85%達成
アクティブ10Bパラメータで低コスト
35BモデルをApache2で公開
GPT 5.4やOpus 4.6より安価に運用

独自の学習手法

合成環境で業務操作を学習
自動データ生成と強化学習を反復
486タスクの企業向け評価で検証

企業利用への展望

複数アプリ横断の業務自動化に対応
未知のソフトにも適応する次世代を開発中

フランスのAIスタートアップH社は2026年4月1日、デスクトップPC操作に特化したAIモデル「Holo3」を発表しました。業界標準ベンチマークOSWorld-Verifiedで78.85%を記録し、PC操作AIとして最高スコアを達成しています。

Holo3の最大の特徴は、総パラメータ数122Bに対しアクティブパラメータがわずか10Bという効率的な設計です。これにより、GPT 5.4やOpus 4.6といった大規模モデルと比べて大幅に低いコストで運用できます。小型の35BモデルはApache2ライセンスHugging Faceに公開されています。

学習には「エージェント学習フライホイール」と呼ばれる独自手法が用いられています。合成ナビゲーションデータの生成、ドメイン外への拡張、厳選された強化学習の3段階を繰り返し、PC画面の認識力と判断力を継続的に向上させる仕組みです。

実務での有効性を検証するため、H社は486の業務タスクからなる「H Corporate Benchmarks」を独自に設計しました。EC、業務ソフト、コラボレーション、複数アプリ連携の4領域にわたり、PDF価格表の参照から予算照合、個別メール送信まで、複雑な業務フローを評価対象としています。

今後H社は「Adaptive Agency」と呼ぶ次世代技術の開発を進めます。これは未知の業務ソフトウェアにもリアルタイムで適応し、自律的に操作を習得する能力を目指すもので、企業のデジタル業務全体を自動化する構想の実現に向けた取り組みです。

IBM、文書理解特化の小型視覚言語モデル「Granite 4.0 3B Vision」公開

モデルの特徴と構造

企業文書の表・図・帳票を高精度抽出
30億パラメータの軽量設計
LoRAアダプタでテキスト専用と視覚の両対応
DeepStack方式で意味と空間情報を分離処理

ベンチマーク性能

図表要約スコア86.4%で全モデル首位
表抽出でも複数ベンチで最高精度達成
政府帳票KVP抽出で85.5%のゼロショット精度

導入と活用方法

Apache 2.0ライセンスで公開
Docling連携で大規模PDF処理に対応

IBMは2026年3月31日、企業向け文書理解に特化した小型視覚言語モデル「Granite 4.0 3B Vision」をHugging Faceで公開しました。30億パラメータながら、表・図表・帳票からの情報抽出で大型モデルを上回る性能を発揮します。

本モデルはGranite 4.0 Microの上にLoRAアダプタとして構築されており、画像処理が不要な場面ではベースモデルに自動的にフォールバックします。この設計により、1つのデプロイマルチモーダルとテキスト専用の両方に対応できます。

技術面では、独自のDeepStack Injection方式を採用しています。抽象的な視覚特徴を前段レイヤーに、高解像度の空間特徴を後段レイヤーに分離して注入することで、文書の内容と配置の両方を正確に理解します。

性能面では、図表理解ベンチマークChart2Summaryで86.4%を達成し、自身の2倍以上のサイズのモデルを含む全評価対象中で首位となりました。表抽出でもPubTables-v2やTableVQAなど複数のベンチマークで最高スコアを記録しています。

さらに、170万件の合成チャートデータセット「ChartNet」を独自開発し、CVPR 2026で発表予定です。24種類のチャートタイプと6つの描画ライブラリをカバーし、コード・画像・データ表・要約・QAの5要素を揃えた高品質なデータで訓練されています。

活用面では、単体での画像理解に加え、文書処理ツールDoclingとの統合により、大規模PDFの自動処理パイプラインを構築できます。請求書や財務報告書、学術論文など幅広い文書に対応し、Apache 2.0ライセンスで自由に利用可能です。

Hugging Face、ポストトレーニング基盤TRLがv1.0に到達

TRL v1.0の設計思想

75種超の手法を実装
安定版と実験版を明確に分離
セマンティックバージョニング導入
抽象化を最小限に抑える方針

エコシステムでの位置づけ

月間300万回のダウンロード
UnslothやAxolotlの基盤として機能
汎用ライブラリとしての独自の立ち位置

今後の開発計画

非同期GRPOで学習効率向上へ
エージェント向け学習可視化を計画

Hugging Faceは2026年3月、大規模言語モデルのポストトレーニングライブラリ「TRL」のv1.0を正式リリースしました。6年以上の開発を経て、75種類を超えるポストトレーニング手法を実装する汎用ライブラリとして安定版の節目を迎えています。

ポストトレーニング分野は、PPOからDPO、さらにGRPOへと手法の中心が急速に移り変わってきました。TRLはこの変化に対応するため、強固な抽象化ではなく「変化に適応する設計」を選択しています。クラス階層を避け、実装間の重複をあえて許容することで、新手法への対応速度を維持しています。

v1.0の最大の特徴は、安定版と実験版の明確な分離です。安定版はSFT、DPO、報酬モデリング、RLOO、GRPOなどの主要トレーナーで構成され、セマンティックバージョニングに従います。実験版は新手法を素早く取り込む場として機能し、利用実績に応じて安定版へ昇格する仕組みです。

TRLは月間300万回ダウンロードされる規模に成長し、UnslothAxolotlといった主要プロジェクトの基盤としても利用されています。これらの下流プロジェクトへの影響を考慮し、破壊的変更は0.xリリース期間中に段階的に実施されました。

今後の開発では、生成と学習を分離する非同期GRPOの本格導入、KTOや蒸留系トレーナーの安定版昇格、マルチノード学習の強化が予定されています。さらに、学習ループにヒューリスティクスを組み込み、方策の崩壊や過学習を自動検知する「エージェント向け学習可視化」機能の開発も計画されています。

Cohere、オープンウェイト音声認識モデルを公開

モデルの性能

WER 5.42%で業界最高精度
Whisper Large v3の7.44%を大幅に上回る
14言語対応(日本語含む)
20億パラメータ、Apache-2.0ライセンス

企業導入の優位性

自社GPUでのローカル運用が可能
データ残留リスクなしの音声処理
RAGエージェント構築に即戦力
商用利用を前提とした設計

Cohereは、オープンウェイトの自動音声認識モデル「Transcribe」を公開しました。20億パラメータのこのモデルは、平均単語誤り率(WER)5.42%を達成し、企業の音声パイプラインに直接組み込める精度を実現しています。

TranscribeはHugging FaceのASRリーダーボードで首位を獲得しました。OpenAIのWhisper Large v3(WER 7.44%)、ElevenLabs Scribe v2(5.83%)、Qwen3-ASR(5.76%)をいずれも上回り、商用レベルの音声認識における新たな基準を打ち立てています。

最大の特徴は、Apache-2.0ライセンスによる商用利用と自社インフラでのローカル運用が可能な点です。従来のクローズドAPIではデータの外部送信が避けられず、オープンモデルでは精度が不十分という課題がありましたが、Transcribeはその両方を解決しています。

対応言語は英語、フランス語、ドイツ語、日本中国語、韓国語など14言語です。会議理解を測るAMIデータセットで8.15%、多様なアクセントを評価するVoxpopuliで5.87%と、幅広い音声タスクで高い性能を示しています。

企業のエンジニアリングチームにとって、RAGパイプラインエージェントワークフロー音声入力を組み込む際、データ残留リスクやレイテンシの問題なく本番運用できる選択肢が加わりました。早期導入企業からは、精度とローカル展開の両立が高く評価されています。

Hugging Face、OpenClawのオープンモデル移行手順を公開

2つの移行経路

HF推論API経由が最速
ローカル実行で完全無料化
GLM-5を推奨モデルに指定
HF PRO会員は月2ドル無料枠

ローカル環境構築

llama.cppでローカル推論
Qwen3.5-35Bが32GB RAMで動作
OpenAI互換APIとして接続
プライバシーと完全制御を実現

Hugging Faceは、OpenClawやPiなどのAIエージェントをクローズドモデルからオープンモデルへ移行するための具体的な手順を公開しました。ホスト型とローカル型の2つの方法が提示されています。

ホスト型の方法では、Hugging Face Inference Providersを利用します。APIトークンを取得し、OpenClawの設定コマンドで認証を行うだけで、数千のオープンソースモデルから選択して即座にエージェントを復旧できます。

推奨モデルとしてGLM-5が挙げられており、Terminal Benchで高いスコアを記録しています。設定ファイルのrepo_idを変更するだけでモデルの切り替えが可能で、HF PRO会員には月額2ドルの無料クレジットが付与されます。

ローカル型の方法では、オープンソースの推論ライブラリllama.cppを使用します。macOS・Linux・Windowsいずれにも対応しており、パッケージマネージャから簡単にインストールできます。

ローカル実行ではQwen3.5-35B-A3Bが推奨されており、32GBのRAMで動作します。APIコストゼロ、レート制限なし、完全なプライバシー保護が実現でき、クローズドモデルに依存せずエージェントを運用できる点が強調されています。

Cohereが音声認識モデルをオープンソースで公開

モデルの特徴

20億パラメータの軽量設計
消費者向けGPUで自己運用可能
14言語対応(日本語含む)
1分間で525分音声処理

性能と展開

WER 5.42で業界最高精度
人間評価で勝率61%達成
企業向け基盤Northに統合予定
API無料提供を開始

エンタープライズAI企業のCohereは2026年3月26日、同社初の音声モデル「Transcribe」をオープンソースで公開しました。議事録作成や音声分析などの用途を想定した自動音声認識モデルで、APIを通じて無料で利用できます。

Transcribeは20億パラメータと比較的軽量に設計されており、消費者向けGPUでの自己ホスティングが可能です。英語、日本語、中国語、韓国語など14言語に対応し、1分間で525分の音声を処理できる高いスループットを実現しています。

Hugging FaceOpen ASRリーダーボードでは、平均単語誤り率(WER)5.42を達成し、Zoom Scribe v1やIBM Granite 4.0、ElevenLabs Scribe v2などの競合モデルを上回りました。人間評価者による精度・一貫性・実用性の評価でも平均勝率61%を記録しています。

一方で、ポルトガル語、ドイツ語、スペイン語の文字起こしでは競合に後れを取る課題も残っています。Cohereは今後、同モデルを企業向けエージェント統合基盤「North」やマネージド推論プラットフォーム「Model Vault」にも展開する計画です。

音声認識モデル市場は、GranolaやWispr Flowなどの議事録・ディクテーションアプリの需要拡大に伴い急成長しています。Cohereは2025年の年間経常収益が2億4000万ドルに達したとされ、IPOの可能性も示唆されており、今回の音声モデル投入で事業領域の拡大を図ります。

NVIDIA、オープンAI基盤モデル連合を設立

連合の概要と初動

Nemotron Coalition発足
データ・評価・専門知識を共有
Hugging Face最大組織に成長

業界リーダーの展望

AIエージェント高度な同僚
マルチモデルオーケストレーション時代
オープンと独自の共存が不可欠
専門特化モデルで差別化実現

NVIDIAは2026年3月のGTCカンファレンスにおいて、オープンなフロンティアAI基盤モデルの開発を推進する国際連合「Nemotron Coalition」の設立を発表しました。Mistral AIをはじめとする主要AI研究機関が参画し、データや計算資源を共有します。

CEOのジェンスン・フアン氏は「独自かオープンかではなく、独自もオープンも」と述べ、両方のアプローチの共存が不可欠であるとの見解を示しました。NVIDIAは現在Hugging Faceで最大の組織となり、約4,000人のチームメンバーを擁しています。

連合の最初のプロジェクトとして、Mistral AINVIDIA基盤モデルを共同開発します。連合メンバーがデータ提供や評価、ドメイン専門知識で貢献し、オープンエコシステムに公開される予定です。Nemotronモデルはすでに4,500万回以上ダウンロードされています。

GTCのパネルではCursorPerplexityLangChain、Thinking Machines LabなどのAI業界リーダーが登壇しました。AIエージェントが数時間・数日かかるタスクを処理する「同僚」になるとの見通しや、複数モデルの自動オーケストレーションの重要性が議論されました。

パネリストらは、汎用モデルと専門特化モデルの両立が社会に価値をもたらすと強調しました。オープンな基盤の上に各組織が独自データを組み合わせることで差別化が可能になり、学術界を含む幅広い参加者がAIの進歩に貢献できる環境が整うと述べています。

ServiceNow、音声AIエージェント評価フレームワークEVAを公開

EVAの評価体系

正確性と体験の2軸で評価
ボット同士の音声対話を自動生成
航空業界50シナリオを初期公開
タスク完了・忠実性・音声再現の3指標

主要な発見

正確性と体験にトレードオフ確認
固有名詞の誤認識が主要障害
複数ステップ処理で精度が大幅低下
20システムのベンチマーク結果公開

ServiceNowの研究チームは2026年3月24日、音声AIエージェントを包括的に評価するフレームワーク「EVA」を発表しました。コード・データセット・ジャッジプロンプトGitHubHugging Faceで公開しています。

EVAはタスクの正確な完了を測るEVA-A(Accuracy)と、対話体験の質を測るEVA-X(Experience)の2つの高次スコアを算出します。従来のフレームワークはこれらを個別に評価していましたが、EVAは両者を統合的に評価する初の手法です。

評価はボット同士のリアルタイム音声対話で行われ、ユーザーシミュレーターが発話し、対象エージェントがツール呼び出しやポリシー遵守を含むタスクを処理します。決定論的なコード指標とLLM審査員による定性評価を組み合わせています。

20種類のカスケード型・音声ネイティブ型システムを評価した結果、正確性と体験の間に一貫したトレードオフが確認されました。タスク完了率の高いエージェントほどユーザー体験が低下する傾向があり、両軸で優位なシステムは存在しませんでした。

特に確認コードやフライト番号など固有名詞の音声認識エラーが、会話全体の破綻につながる主要因と判明しました。今後は多言語対応、騒音環境テスト、感情認識評価、追加ドメインのデータセット拡充が予定されています。

NVIDIA、多言語・マルチモーダル対応のAI安全モデルを公開

モデルの特徴

140以上の言語に対応
画像とテキストの複合判定
Gemma-3 4B基盤で軽量高速
文化的文脈を考慮した安全判定

性能と実用性

有害コンテンツ検出精度84%
競合モデルの約半分の遅延
12言語で安定した精度を維持
8GB VRAMGPUで動作可能

NVIDIAは2026年3月20日、マルチモーダル・多言語対応のコンテンツ安全モデル「Nemotron 3 Content Safety 4B」をHugging Faceで公開しました。従来の英語中心・テキストのみの安全モデルが抱えていた文化的ニュアンスの見落としを解消することを目指しています。

同モデルはGemma-3 4B-ITビジョン言語基盤モデル上に構築され、LoRAアダプターで安全分類機能を追加しています。テキスト・画像またはその両方を入力として受け取り、安全・危険の判定を出力します。アシスタント応答が含まれる場合はやり取り全体の文脈を評価し、複合的に生じる違反も検出できます。

訓練データにはNemotron Safety Guard Dataset v3の文化的に適応された多言語データ、人手でアノテーションされたマルチモーダルデータ、合成データなどが含まれます。英語データは日本語・中国語・韓国語を含む12言語に翻訳され、実運用環境を反映した多言語カバレッジを実現しています。

ベンチマーク評価では、Polyguard・VLGuard・MM SafetyBenchなど主要テストで平均84%の精度を達成し、同規模のオープン安全モデルを上回りました。さらにポルトガル語やロシア語など訓練外言語でも強力なゼロショット汎化性能を示しています。推論遅延は大型モデルの約半分で、エージェントループやリアルタイム用途にも適しています。

4月にはNVIDIA NIMとしても提供予定で、GPU最適化された推論マイクロサービスとして本番環境への迅速な導入が可能になります。企業のAIエージェントやグローバルサービスにおけるコンテンツモデレーション基盤として、実用性の高い選択肢となりそうです。

IBM Research、構造化AIワークフロー基盤Mellea 0.4.0を公開

Mellea 0.4.0の新機能

Granite Librariesとネイティブ統合
制約付きデコードでスキーマ正確性を保証
指示・検証・修復パターンの導入
観測フックワークフロー監視が可能に

Granite Librariesの構成

granitelib-core:要件検証用アダプタ
granitelib-ragRAGパイプライン全工程対応
granitelib-guardian:安全性・事実性・コンプライアンス特化
granite-4.0-micro向けLoRAアダプタ

IBM Researchは2026年3月20日、オープンソースのPythonライブラリMellea 0.4.0と3つのGranite Librariesを同時公開しました。これにより、IBM Graniteモデル上で構造化・検証可能・安全性を備えたAIワークフローの構築が容易になります。

Melleeは確率的なプロンプト動作を、構造化された保守可能なAIワークフローに置き換えるライブラリです。制約付きデコードや構造化修復ループ、パイプラインの組み合わせにより、LLMベースのプログラムの予測可能性と保守性を高める設計思想を持っています。

バージョン0.4.0では、Granite Librariesとのネイティブ統合が実現しました。制約付きデコードに基づく標準化APIを通じ、出力のスキーマ正確性を保証します。さらにリジェクションサンプリング戦略による指示・検証・修復パターンや、イベント駆動型コールバックによる観測フックも導入されました。

同時公開されたGranite Librariesは、granite-4.0-microモデル向けの特化型LoRAアダプタ群です。granitelib-coreは要件検証、granitelib-rag検索前・検索後・生成後のRAGタスク、granitelib-guardianは安全性・事実性・ポリシー準拠の各領域をカバーします。

汎用プロンプティングに頼らず、タスク特化型アダプタを用いることで、少ないパラメータコストで各タスクの精度を向上させつつ、ベースモデルの能力を損なわない点が特長です。コードと論文はHugging FaceおよびGitHubで公開されており、すぐに導入を開始できます。

Hugging Faceオープンソース生態系、中国勢が米国を逆転

エコシステムの急成長

ユーザー1300万人に倍増
公開モデル200万超を達成
データセット50万件を突破
Fortune 500の30%超が参加

中国の台頭と地政学

中国がダウンロード数で米国を逆転
Qwen派生モデルが20万件超
韓国欧州AI主権を推進

技術トレンドの変化

ロボティクスデータセットが23倍増
小型モデルの実用採用が加速

Hugging Faceは2026年春のオープンソースAI生態系レポートを公開しました。2025年にユーザー数は1300万人に達し、公開モデルは200万件超、データセットは50万件を突破するなど、すべての指標がほぼ倍増しています。

中国が月間ダウンロード数で米国を逆転し、全ダウンロードの41%を占めるに至りました。DeepSeek R1の公開を契機に、Baiduは2024年のゼロから100件超のリリースへ急増し、ByteDanceやTencentも8〜9倍にリリース数を拡大しています。

企業の開発シェアは2022年以前の約70%から2025年には37%に低下しました。一方、個人や小規模コミュニティがダウンロードの39%を占め、量子化やファインチューニングを通じてモデルの流通を主導する存在へと成長しています。

各国政府はAI主権の確保に動いています。韓国は国家ソブリンAIイニシアティブを発足させ、LG AI ResearchやNaverなど国内企業を指名しました。スイスやEU各国も公的資金によるオープンモデル開発を推進し、Reflection AI韓国データセンター提携も発表されています。

ロボティクス分野ではデータセットが2024年の1,145件から2025年に26,991件へと急増し、Hub最大のカテゴリとなりました。科学研究でもタンパク質折りたたみや創薬への応用が進み、オープンソースAIは言語・画像生成を超えて物理世界への拡張を加速させています。

NVIDIA、40億パラメータの軽量AI「Nemotron 3 Nano 4B」公開

モデルの特徴

Mamba-Transformer混合構造採用
40億パラメータでエッジ動作対応
指示追従性能で同クラス最高水準
VRAM使用量が同クラス最小

圧縮と学習手法

9BモデルからNemotron Elasticで圧縮
2段階蒸留で精度回復を実現
3段階強化学習でツール使用を強化
FP8・Q4_K_M量子化で効率向上

NVIDIAは2026年3月17日、40億パラメータの軽量言語モデル「Nemotron 3 Nano 4B」をオープンソースで公開しました。Mamba-Transformer混合アーキテクチャを採用し、エッジデバイスでの高効率な推論を実現するモデルです。

同モデルはJetson ThorやJetson Orin Nano、DGX Spark、RTX GPUなど幅広いNVIDIAプラットフォームで動作します。低VRAM環境でも高速な応答が可能で、データプライバシーの確保と柔軟なデプロイを両立しています。

開発にはNemotron Elasticフレームワークが用いられ、9Bパラメータの親モデルから構造化プルーニングと知識蒸留により4Bモデルへ圧縮されました。ルーターが自動的に最適な枝刈り構成を決定し、従来手法より低コストで高精度なモデルを実現しています。

学習では教師あり微調整に続き、指示追従とツール呼び出しに特化した3段階の強化学習パイプラインを適用しました。推論時の思考なしでもタスク解決に優れ、ハルシネーション回避性能も高い水準を達成しています。

量子化ではFP8版で最大1.8倍のレイテンシ改善を達成し、Q4_K_M GGUF版はJetson Orin Nano 8GBで毎秒18トークンを出力します。Transformers、vLLM、TRT-LLM、Llama.cppなど主要推論エンジンに対応し、Hugging Faceで公開中です。

H Company、高スループット型PC操作AIモデルHolotron-12Bを公開

推論性能の飛躍

SSMハイブリッド構造を採用
H100単体で8.9kトークン/秒達成
Holo2-8B比で2倍超のスループット
KVキャッシュ不要でメモリ効率向上

エージェント性能

WebVoyagerスコア35.1%→80.5%に向上
UI操作・画面理解の精度大幅改善
NVIDIA Nemotronベースを微調整
次世代Nemotron 3 Omniも予告

H Companyは2026年3月17日、NVIDIAのNemotron-Nano-2 VLモデルをベースにしたマルチモーダルコンピュータ操作エージェントモデル「Holotron-12B」Hugging Faceで公開しました。本モデルは画面認識・操作に特化し、量産環境での高スループット推論を目指して開発されたものです。

Holotron-12Bの推論効率を支えるのは、状態空間モデル(SSM)とアテンション機構のハイブリッドアーキテクチャです。従来のTransformerが抱える二次計算コストを回避し、長いコンテキストや複数画像を含むエージェント的ワークロードで優れたスケーラビリティを実現しています。

ベンチマーク評価では、WebVoyagerスコアがベースモデルの35.1%から80.5%へと大幅に向上しました。H100 GPU1枚でvLLMを使用した実験では、同時接続100の条件下で8.9kトークン/秒のスループットを記録し、前モデルHolo2-8Bの5.1kトークン/秒を大きく上回りました。

学習は2段階で実施されました。NVIDIANemotron-Nano-12B-v2-VLを起点に、H Company独自の画面理解・ナビゲーションデータで教師あり微調整を行い、約140億トークンで最終チェックポイントを構築しています。ライセンスはNVIDIA Open Model Licenseで公開されています。

今後の展開として、NVIDIAが同日発表したNemotron 3 Omniをベースとした次世代モデルの開発も予告されました。SSM-AttentionとMoEアーキテクチャを活用し、企業向けの大規模自律型コンピュータ操作への展開を目指すとしています。

NVIDIA主導で医療ロボット初の大規模オープンデータセット公開

データセットと規模

778時間医療ロボットデータ
手術・超音波・内視鏡を網羅
35組織が国際共同構築
CC-BY-4.0で完全公開

基盤AIモデル2種

GR00T-H:手術用VLAモデル
縫合タスクの端到端実行を実証
Cosmos-H:手術シミュレータ
実機2日分を40分で再現

NVIDIAとジョンズ・ホプキンス大学、ミュンヘン工科大学らが主導する国際コミュニティが、医療ロボティクス分野初の大規模オープンデータセット「Open-H-Embodiment」を公開しました。35組織が参加し、778時間分のCC-BY-4.0ライセンスデータを提供しています。

データセットは手術ロボティクスを中心に、超音波検査や大腸内視鏡の自律制御データも含みます。シミュレーション、ベンチトップ訓練、実臨床手術にまたがり、CMR SurgicalやRob Surgicalなどの商用ロボットおよびdVRK、Frankaなどの研究用ロボットのデータを収録しています。

同時に公開されたGR00T-Hは、NVIDIAのVision-Language-Actionモデルを手術ロボット向けに特化させた初のポリシーモデルです。約600時間のデータで訓練され、SutureBottベンチマーク端到端の縫合タスクを完遂する能力を実証しました。異なるロボット間の運動学的差異を吸収する独自の設計が特徴です。

Cosmos-H-Surgical-Simulatorは、運動指令から物理的に妥当な手術映像を生成するワールド基盤モデルです。従来のシミュレータでは再現困難な軟組織変形や反射、出血を暗黙的に学習します。実機で2日かかる600回のロールアウトをわずか40分で完了でき、データ拡張にも活用可能です。

次期バージョンでは、意図・結果・失敗モードを注釈した推論対応データへの拡張を目指しています。手術ロボットが状況を説明し、計画を立て、長時間の手術に適応できる推論能力付き自律制御の実現が目標です。データセットとモデルはHugging FaceおよびGitHubで公開されており、コミュニティへの参加を呼びかけています。

OpenAIが指示階層の強化手法とデータセットを公開

指示階層の仕組み

System>開発者>ユーザー>ツールの優先順位
上位指示と矛盾する下位指示を拒否
強化学習優先順位判断を訓練
IH-Challengeデータセットを設計

安全性への効果

安全ステアラビリティの改善を確認
過剰拒否なく有用性を維持
学術・内部ベンチマークで汎化性能を実証

公開と今後

GPT-5 Mini-Rで性能検証済み
IH-ChallengeデータセットをHuggingFaceで公開

OpenAIは、AIモデルが複数の指示源からの命令を適切に優先順位付けする「指示階層」の強化手法を発表しました。安全ポリシー違反やプロンプトインジェクション攻撃への耐性向上を目的としています。

AIシステムはシステムメッセージ、開発者指示、ユーザー要求、ツール出力など複数の指示を受け取ります。これらが矛盾した場合、信頼度の高い指示を優先する判断が求められますが、従来のモデルでは誤った指示に従うケースがありました。

同社は強化学習用データセット「IH-Challenge」を設計しました。各タスクは高権限ロールからの指示と、それに違反させようとする低権限ロールの指示で構成され、Pythonスクリプトで客観的に採点可能な点が特徴です。

このデータセットで訓練したGPT-5 Mini-Rは、TensorTrustで0.76から0.91へ、内部ベンチマークのSystem対User Conflictで0.84から0.95へと大幅に改善しました。同時に過剰拒否率も0.79から1.00に改善し、有用性を損なわない成果を示しています。

エージェント型AIがツール呼び出しや外部文書読み取りを行う時代において、信頼できる指示を一貫して優先する能力は安全性の基盤となります。OpenAIはIH-ChallengeデータセットをHuggingFaceで公開し、研究コミュニティへの貢献を図っています。

NVIDIAジェットソンがエッジAIの新標準に、重機から家庭まで展開

エッジ推論の実用例

キャタピラー重機に音声AIアシスタント搭載
クラウド不要のローカル推論を実現
Jetson Thorがリアルタイム処理を担保
ロボット・スマートホームにも展開

対応オープンモデル群

GemmaMistralQwen主要モデルに対応
GR00T N1.6でロボット動作を自律制御
vLLMで最大273トークン/秒を達成
2B〜30Bパラメータを柔軟に切り替え

NVIDIAは2026年のCESにおいて、エッジAIプラットフォーム「Jetson Thor」上でキャタピラーの小型油圧ショベル向け音声AIアシスタントのデモを公開した。Qwen3 4BモデルをvLLC経由でローカル動作させ、クラウド接続なしで低遅延な自然言語応答を実現している。

従来のオープンモデルはデータセンターで運用されてきたが、クラウド依存はレイテンシとコストの課題を抱える。Jetsonはシステムオンモジュールにコンピュートとメモリを統合し、メモリ不足による調達難を解消しながら、産業機器向けに安定したエッジ推論環境を提供する。

ロボティクス分野ではFranka RoboticsのFR3 DuoがオンボードでGR00T N1.6モデルを実行し、タスクスクリプト不要で知覚から動作まで完結させた。NYU・UIUCなどの研究機関もJetson Thor上でヒューマノイド制御や抹茶製造ロボットの開発に成功している。

個人開発者レベルでも活用が広がっており、Hugging FaceのAndré Marafiotiはエージェント型AIシステムをJetson AGX Orin上で構築し、タスク自律スケジューリングを実現した。CollabnixのAjeet Singh RainaはOpenClawをJetson Thor上で24時間稼働させ、メール・カレンダー管理を自動化している。

Jetson Thorは現在、Gemma 3・Mistral 3・Qwen 3.5・gpt-oss-20B・NVIDIA Cosmosなど主要オープンモデルを広くサポートしており、開発者はvLLM・Ollamallama.cppなど多様なフレームワークを選択できる。GTC 2026では産業自律化の未来をテーマにした展示も予定されている。

NVIDIAがComfyUI連携強化、ローカルAI動画生成を大幅高速化

ComfyUI刷新

App Viewで初心者も利用可能に
ノード不要の簡易UIを追加
RTX最適化で40%高速化達成

性能と4K対応

NVFP4で2.5倍高速・VRAM60%削減
RTX Videoで4Kアップスケール対応
Python開発者向け無償パッケージ公開

対応モデル拡大

FLUX.2 KleinのNVFP4/FP8版公開
LTX-2.3のNVFP4対応も近日予定

NVIDIAは米サンフランシスコで開催中のGame Developers Conference(GDC)において、ComfyUIとの連携強化を含むAI動画生成の高速化アップデートを発表しました。RTX GPUおよびDGX Sparkデスクトップ向けに、コンセプト開発やストーリーボード制作の効率を大幅に向上させます。

ComfyUIに新たに追加されたApp Viewは、ノードグラフに不慣れなアーティスト向けの簡易インターフェースです。プロンプト入力とパラメータ調整だけで画像生成が可能になり、従来のNode Viewとの切り替えもシームレスに行えます。AI創作ツールの利用障壁を大きく引き下げる取り組みです。

性能面では、RTX GPUへの最適化により9月比で40%の高速化を実現しました。さらにGeForce RTX 50シリーズのNVFP4フォーマットを活用することで、パフォーマンスは2.5倍に向上し、VRAMの使用量は60%削減されます。FP8でも1.7倍の高速化と40%のVRAM削減を達成しています。

RTX Video Super ResolutionがComfyUIのノードとして利用可能になり、生成した動画リアルタイムで4Kにアップスケールできるようになりました。従来の手法と比較して30倍高速で、VRAM消費も大幅に抑えられます。AI開発者向けにはPyPIから無償のPythonパッケージも公開されています。

対応モデルも拡充され、FLUX.2 Kleinの4Bおよび9BモデルのNVFP4・FP8版がHugging Faceで公開されました。LTX-2.3のFP8版も利用可能で、NVFP4対応も近日中に予定されています。ゲーム開発者クリエイターがローカル環境で高品質なAI動画を生成できる基盤が着実に整いつつあります。

HuggingFace、非同期RL訓練の設計指針を16ライブラリ調査から導出

同期RL訓練の課題

推論待ちGPU稼働率40%以下
32Bモデルの1バッチ生成に数時間
ストラグラー問題が遅延を増幅

非同期化の共通設計

推論と訓練をGPUプールに分離
ロールアウトバッファで両者を接続
8/16ライブラリがRayを採用
NCCLブロードキャストが重み同期の標準

TRL新設計と今後の課題

トークン単位のバージョン管理を採用
MoE対応が次世代の差別化要因

Hugging Faceは、大規模言語モデルの強化学習(RL)訓練における非同期アーキテクチャの設計指針を、16のオープンソースライブラリを7軸で比較調査した結果として公開しました。

同期型RL訓練では、推論フェーズがウォールクロック時間の大半を占め、訓練用GPUが長時間アイドル状態になります。32Bモデルで32Kトークンのロールアウトを生成すると、1GPU当たり約3.7時間を要し、GRPOのグループ生成では最も遅い完了に全体が律速されます。

調査対象の全ライブラリが共通して採用した解決策は、推論と訓練を別々のGPUプールに分離し、ロールアウトバッファで接続して非同期に重みを転送する構成です。これにより推論は継続的にデータを生成し、訓練側は待機なく勾配計算を進められます。

比較7軸のうち特に重要なのは、重み同期プロトコル陳腐化管理です。重み同期ではNCCLブロードキャストが主流で、verlのバケット化により20ミリ秒まで短縮可能です。陳腐化対策はバージョン棄却・深度制限・重要度サンプリング補正の3戦略があり、本番環境では複合的に組み合わせる傾向にあります。

Hugging FaceTRLの新しい非同期トレーナーに向け、トークン単位のバージョンタグ付きバウンデッドキュー、NCCLバケット転送、エージェント型ワークロード向けの部分ロールアウト対応を設計方針として示しました。今後はMoEモデルのエキスパート並列対応や、蒸留との統合が差別化の鍵になると分析しています。

Hugging FaceがUlyssesシーケンス並列でミリオントークン学習を実現

技術の仕組み

アテンションヘッドを複数GPUに分散
All-to-All通信で通信量を1/Nに削減
Ring Attentionより低レイテンシで効率的
FlashAttention 2/3と完全互換

エコシステム統合

AccelerateでParallelismConfig設定のみ
Transformers Trainerが損失集計を自動処理
TRL SFTTrainerでSFT最適化に対応
Liger-Kernelと組み合わせてメモリ節約

ベンチマーク結果

96Kトークンを4枚のH100で学習可能
64K時にスループットが3.7倍向上
8K時はDP=4と同等メモリ消費

Hugging Faceは2026年3月、Snowflake AI Researchが開発したArctic Long Sequence Training (ALST)プロトコルの一部であるUlyssesシーケンス並列(SP)をAccelerate・Transformers Trainer・TRL SFTTrainerに統合したことを発表した。

Ulyssesは、トランスフォーマーのアテンション機構が系列長の2乗でメモリ・計算量が増大する課題を解決する手法で、系列をGPU間で分割したうえでアテンションヘッドも並列化し、All-to-All通信を1アテンション層あたり2回行うことで通信量をO(S×H/N)に抑えている。

Ring Attentionと比較すると、Ulyssesの通信量はGPUあたりRing Attentionの1/N倍で済み、全帯域幅を1ステップで活用できるAll-to-All集合通信により低レイテンシを実現している。ただし、ヘッド数がsp_size以上である必要があるという制約がある。

ベンチマークではQwen3-4BをH100 80GB×4枚で学習し、SP=4の構成で最大96Kトークン(66GB)まで安定して学習できることを確認した。64Kトークン時のスループットは1GPU比で3.7倍の13,396トークン/秒を記録し、通信オーバーヘッドは最小限であることが示された。

利用にはdeepspeed>=0.18.1・accelerate>=1.12が必要で、HopperアーキテクチャにはFlashAttention 3、BlackwellにはFlashAttention 4(リリース待ち)の使用が推奨されている。ZeRO Stage 3やLiger-Kernelとの組み合わせでさらなるメモリ削減も可能だ。

IBMがGranite 4.0 1B Speechを公開、エッジ向け多言語音声認識で首位

モデルの特徴

パラメータ数を前世代比半減
英語転写精度が前世代を上回る
投機的デコード推論を高速化
日本語を含む6言語に対応
キーワードバイアシング機能を新搭載

性能と展開

OpenASRリーダーボードで1位獲得
パラメータ数以上の翻訳精度を実現
Apache 2.0ライセンスで公開
Granite Guardianとの組み合わせ推奨

IBMは2026年3月9日、エッジデバイス向け音声言語モデル「Granite 4.0 1B Speech」をHugging Faceで公開した。多言語音声認識(ASR)と双方向音声翻訳(AST)に対応し、英語・仏語・独語・西語・葡語・日本語の6言語をサポートする。

前世代モデル「granite-speech-3.3-2b」と比べてパラメータ数を半分の約10億に削減しながら、英語転写の単語誤り率(WER)は改善した。投機的デコードの採用により推論速度も向上しており、リソースが限られたデバイスでの実用展開を想定した設計となっている。

今回の新機能として、日本語ASRサポートとキーワードバイアシングが追加された。キーワードバイアシングは固有名詞や略語の認識精度を高める機能で、コミュニティから要望の多かった機能を優先実装している。

性能面では、Hugging Faceが運営するOpenASRリーダーボードで1位を獲得。複数の標準ベンチマークにおいて、はるかにパラメータ数の多いモデルと同等以上の精度を達成しており、小規模モデルとしての競争力を示した。

モデルはApache 2.0ライセンスで公開され、transformersおよびvLLMでネイティブサポートされる。本番環境ではリスク検出のためにGranite Guardianとの組み合わせが推奨されており、アーキテクチャ詳細や学習データはモデルカードで確認できる。

HuggingFace、LeRobot v0.5.0でヒューマノイド対応と6つの新ポリシーを追加

ハードウェア拡張

Unitree G1ヒューマノイド初対応
全身協調制御(WBC)の実現
OpenArmロボットアームの統合
CANバスモーター対応で高性能化

AIポリシーと高速化

Pi0-FAST自己回帰VLAの導入
Real-Time Chunkingで推論の応答性向上
LoRA/PEFTで大規模VLAの効率微調整
画像学習10倍高速化を実現

エコシステム整備

EnvHubでHub上のシミュレーション環境を直接利用
NVIDIA IsaacLabとのGPU並列学習統合
サードパーティポリシープラグイン対応
ICLR 2026採択で学術的評価を獲得

Hugging Faceは2026年3月にオープンソースロボット学習フレームワーク「LeRobot」のv0.5.0をリリースした。同バージョンでは初のヒューマノイドロボット対応や6つの新ポリシー追加、データパイプラインの大幅な高速化など、あらゆる次元でのスケールアップが実現されています。

最大のハードウェア追加はUnitree G1ヒューマノイドの全面サポートです。歩行・ナビゲーション・物体操作・遠隔操作に加え、全身協調制御(WBC)により移動と操作を同時実行できる。これはLeRobotが卓上アームを超えた汎用ロボティクスへ踏み出す重要な一歩となっています。

ポリシー面ではPi0-FASTが注目されます。Gemma 300Mベースの自己回帰型アクションエキスパートを採用し、FASToトークン化によって離散化されたアクション列を生成します。また推論技術のReal-Time Chunking(RTC)は、フローマッチングポリシーの応答性を劇的に改善し、実世界デプロイでのレイテンシ問題を解消します。

データセットパイプラインではストリーミングビデオエンコーディングの導入により、エピソード記録後のエンコード待ち時間がゼロになりました。さらに画像学習が最大10倍、エンコードが3倍高速化されており、データ収集からモデル訓練までのサイクルが大幅に短縮されています。

コードベース面ではPython 3.12+とTransformers v5への移行が完了し、サードパーティポリシープラグインシステムの導入でエコシステムの拡張性が向上しました。EnvHubとNVIDIA IsaacLab-Arenaの統合により、シミュレーション環境の共有・活用も容易になっています。同論文はICLR 2026にも採択されており、学術コミュニティからの評価も高まっています。

Hugging Face、画像生成パイプラインを自在に組み替える新基盤を公開

モジュラー設計の核心

ブロック単位で自由に着脱
既存APIと互換性を維持
カスタムブロックをHub共有可能
コンポーネントの遅延読み込み対応

エコシステムの広がり

Kreaがリアルタイム動画生成に採用
ノードUIMellonと統合
モジュラーリポジトリで量子化モデル参照
コミュニティパイプラインがHub上で増加

Hugging Faceは、画像生成ライブラリDiffusersの新機能「Modular Diffusers」を公開しました。従来の固定的なDiffusionPipelineクラスに代わり、テキストエンコード・デノイズ・デコードなどの処理を独立したブロックとして組み合わせる設計を導入しています。

各ブロックは入出力が明確に定義されており、パイプラインから任意のブロックを抜き出して単独実行したり、別のブロックと差し替えたりすることが可能です。たとえば深度推定ブロックを作成し、ControlNetワークフローの先頭に挿入するといった柔軟な構成が数行のコードで実現できます。

カスタムブロックはHugging Face Hubに公開でき、他のユーザーがtrust_remote_codeオプションで即座に読み込めます。公式テンプレートも用意されており、コンポーネント定義・入出力宣言・処理ロジックの3要素を記述するだけでブロックを作成できます。

すでにコミュニティでの活用が始まっており、KreaはB200 GPU1枚で11fpsのリアルタイム動画生成パイプラインを構築しました。またOverworldのWaypoint-1はインタラクティブなワールド生成をモジュラーブロックで実装しています。

ノードベースのビジュアルインターフェース「Mellon」との統合も進んでおり、ブロックのAPI定義からUIを自動生成する仕組みを備えています。ComfyUIに似た操作感ながら、モデルに応じてノードが動的に変化する点や、パイプライン全体を1ノードに集約できる点が特徴です。

NXPがロボットAIのエッジ実装手法を公開

データ収集の要点

カメラ固定とコントラスト確保
グリッパーカメラの併用推奨
作業空間を分割し多様なエピソード収録
失敗リカバリ動作を20%含める

エッジ最適化と成果

VLAモデルをブロック分割し個別最適化
量子化でレイテンシ2.86秒→0.32秒
非同期推論で連続動作を実現
i.MX 95で精度96%を達成

NXPは2026年3月5日、組み込みプラットフォーム上でロボットAIを動作させるための実践ガイドをHugging Faceと共同で公開しました。データ収録からVLAモデルの微調整、オンデバイス最適化までの一連の手法を体系的に示しています。

Vision-Language-Action(VLA)モデルは、視覚と言語の理解に基づきロボットの動作を生成する次世代技術です。しかし組み込み環境では計算資源やメモリ、消費電力の制約があり、リアルタイム制御との両立が大きな課題となっています。

データ収集ではカメラの固定設置、照明の統一、対象物とのコントラスト確保が重要とされています。特にグリッパーに装着したカメラが精密操作の成功率を大幅に向上させることが確認されました。作業空間を11クラスタに分割し、各クラスタで多様な開始位置を記録する手法が推奨されています。

最適化ではVLAモデルをビジョンエンコーダ、LLMバックボーン、アクションエキスパートの3ブロックに分解し、それぞれ独立に量子化を適用しました。ビジョンとLLM部分は4〜8ビット量子化が可能な一方、ノイズ除去を繰り返すアクション部分は高精度を維持する必要があります。

NXP i.MX 95プロセッサ上でACTポリシーを実行した結果、最適化モデルで推論レイテンシ0.32秒、テストセット精度100%、全体精度89〜96%を達成しました。非同期推論により動作中に次の指令を並行生成でき、滑らかなロボット制御を実現しています。今後はシミュレーション環境や強化学習を活用し、より複雑なタスクへの展開を目指します。

Microsoft、150億パラメータの視覚推論モデルPhi-4をオープン公開

モデルの特徴と性能

150億パラメータの軽量マルチモーダルモデル
競合比5分の1のデータ量で訓練
数学・科学推論GUI操作に特化
精度と推論速度のパレート最適を実現

推論の選択的制御

思考・非思考の混合モード搭載
画像認識は直接応答で低遅延実現
数学問題は段階的推論で精度向上
ユーザーがモード手動切替も可能

公開とエコシステム展開

HuggingFaceGitHub重み公開
Phiファミリーがロボティクス領域にも拡大

Microsoft Researchは、150億パラメータのオープンウェイト・マルチモーダル推論モデルPhi-4-reasoning-vision-15B」を公開しました。テキストと画像の両方を処理し、数学・科学の推論、チャート読解、GUI操作など幅広いタスクに対応します。

最大の特徴は訓練効率の高さです。約2000億トークンのマルチモーダルデータで訓練されており、QwenGemma3など競合モデルが1兆トークン以上を使用するのに対し、およそ5分の1のデータ量にとどまります。その秘訣はオープンソースデータの徹底的なフィルタリングと品質改善にあります。

技術的に注目すべきは「混合推論」アプローチです。訓練データの約20%に思考過程を含む推論サンプルを、80%に直接応答のサンプルを使用し、モデルがタスクに応じて推論の要否を自動判断する仕組みを実現しました。画像キャプションでは即座に応答し、数学では段階的に思考します。

ベンチマーク評価では、ChartQAで83.3、MathVistaで75.2、ScreenSpot v2で88.2のスコアを記録しました。大型モデルのQwen3-VL-32Bには及ばないものの、同規模モデルを上回り、推論速度と精度のバランスでパレート最前線に位置しています。

Microsoftは本モデルをMIT許容ライセンスで公開し、ファインチューニングコードや評価ログも提供しています。Phiファミリーはエッジデバイス向けのPhi Silicaロボティクス向けのRho-alphaにも拡大しており、「最も賢いモデルは最大のモデルではなく、いつ考えるべきか知っているモデルだ」という戦略を鮮明にしています。

Alibaba Qwen技術リーダー林氏が突然退任、チーム再編へ

主要メンバーの相次ぐ離脱

林駿洋氏Qwen技術リーダーを退任
研究員Hui氏やインターンも同時離脱
Qwen3.5小型モデル発表の翌日の退任
同僚が「本人の意思ではない」と示唆

Alibabaの組織再編と戦略転換

Google DeepMind出身の周昊氏が後任に
CEOが基盤モデルタスクフォース設立を発表
垂直統合型R&D;から水平分業型へ転換
オープンソース戦略の継続を表明

オープンソースAIへの影響

Qwenモデルの累計6億DL超の実績
9万社超の企業導入への信頼性懸念
将来モデルの有料API限定化の可能性
中国発オープンソースAIの転換点

AlibabaのAIモデルQwenの技術リーダーである林駿洋(ジャスティン・リン)氏が2026年3月上旬に退任を発表しました。退任はQwen3.5小型モデルシリーズの発表からわずか1日後のことで、同僚の研究員やインターンも相次いで離脱しています。

林氏はXに「me stepping down. bye my beloved qwen」と短い投稿を残しました。同僚の陳成氏は「辞めるのは本人の選択ではなかった」と示唆し、チーム内外に衝撃が広がっています。Hugging FaceのAPACエコシステム責任者も「計り知れない損失」と評しました。

Alibaba CEOのエディ・ウー氏は社内書簡で林氏の貢献に感謝を示すとともに、自身を含む基盤モデルタスクフォースの設立を発表しました。オープンソースモデル戦略の継続とAI研究開発への投資拡大を約束しています。

背景には組織方針の対立があるとされます。林氏が推進した垂直統合型の自律的チーム運営に対し、経営側は数百人規模のプロジェクトを「一人の頭脳」で管理することへの限界を指摘しました。Google DeepMind Geminiチーム出身の周昊氏が後任に就任し、研究重視から指標重視への転換が進む見通しです。

Qwenモデルは累計6億ダウンロードを超え、9万社以上の企業が導入する中国最大級のオープンウェイトAIです。業界では今後のモデルが有料APIに限定される可能性が指摘されており、オープンソースAIコミュニティにとって大きな転換点となっています。

独テレコム、通話中に呼び出せるAIアシスタントを導入

サービスの概要

ElevenLabsと共同開発
「Hey Magenta」で通話中に起動
リアルタイム翻訳や予定確認に対応
アプリ不要で端末を問わず利用可能

プライバシーの懸念

非暗号化通話へのAI導入リスク
研究者がUXの不自然さを指摘
音声アクセント偏り問題も浮上

展開計画と制約

まずドイツ国内のみで提供開始
12カ月以内に50言語対応予定

ドイツの通信大手ドイツテレコムは、AI音声企業ElevenLabs提携し、通話中にウェイクワード「Hey Magenta」で呼び出せるAIアシスタントMagenta AI Call Assistant」を発表しました。MWC 2026バルセロナで両社幹部が登壇し、概要を公開しています。

このアシスタントリアルタイムの多言語翻訳、カレンダー参照による空き時間の確認、地図サービスを使った近隣施設の検索などの機能を備えています。特定のアプリやスマートフォンを必要とせず、通信ネットワーク側に組み込まれている点が既存の端末依存型サービスとの大きな違いです。

一方で、プライバシーに関する懸念も指摘されています。Hugging Faceの研究者アビジット・ゴーシュ氏は、非暗号化の電話回線にAIアシスタントを導入することでデータ収集のリスクが高まると警告しました。通話中に突然AIに話しかけるUXの不自然さも問題視しています。

さらにゴーシュ氏は、ElevenLabs合成音声におけるアクセント偏りに関する研究を発表しており、英語を母語としない話者の地域アクセントの認識精度に課題があると述べています。汎用的なAIを十分な安全策なしに展開することへの懸念を示しました。

ドイツテレコムは、サービスはオプトイン方式で通話の双方が同意する必要があると説明しています。音声録音は保存されず、EU一般データ保護規則(GDPR)に完全準拠するとしています。まずドイツ国内で年内に提供を開始し、12カ月以内に最大50言語への翻訳対応を計画しています。

Alibaba「Qwen3.5」小型モデル群公開、9Bで120B超え性能

小型で大型超えの性能

9BOpenAI 120Bを上回る推論性能
ノートPC上でローカル実行可能
Apache 2.0で商用利用も無償

技術革新と実用性

ハイブリッドアーキテクチャで高効率化
ネイティブマルチモーダル対応
0.8B〜9Bの4モデル構成

企業への影響

エッジ推論クラウドAPI不要に
文書解析・コード生成など業務自動化に対応

Alibaba傘下のQwenチームは2026年3月、小型オープンソースモデルQwen3.5 Small Model Series」を公開しました。0.8B、2B、4B、9Bの4モデルで構成され、Apache 2.0ライセンスのもとHugging FaceとModelScopeで即日提供が開始されています。

最大の注目点はQwen3.5-9Bの性能です。GPQAベンチマークで81.7を記録し、13.5倍の規模を持つOpenAIgpt-oss-120B(80.1)を上回りました。MMMU-Proでも70.1を達成し、Gemini 2.5 Flash-Liteの59.7を大幅に超えています。

技術面では従来のTransformerアーキテクチャから脱却し、Gated Delta NetworksとスパースMixture-of-Expertsを組み合わせたハイブリッド構造を採用しています。これにより推論時のスループット向上と低レイテンシを実現し、小型モデルの「メモリの壁」問題を解消しています。

開発者コミュニティからは強い関心が寄せられています。「M1 MacBook Airで無料で動く」との報告や、ブラウザ上での動画解析が可能との検証結果が共有されました。Baseモデルも同時公開され、企業独自のファインチューニングが容易になった点も高く評価されています。

企業活用の観点では、エッジデバイス上でのUI自動操作、文書解析、コードリファクタリング、モバイルでのオフライン動画要約など幅広い用途が想定されます。クラウドAPIへの依存を減らしコスト削減データ主権の確保を両立できる点が、企業導入の大きな推進力となりそうです。

Hugging FaceがMoEの仕組みを詳解

MoEの技術概要

複数の専門家モデルを状況に応じて選択的活用
全パラメータを常時使わず計算効率を向上
DeepSeekMistralが採用する主流アーキテクチャ
スケーリングコストを抜本的に削減

Hugging FaceのブログがTransformerにおけるMixture of Experts(MoE)アーキテクチャを詳細解説しました。MoEは複数の「専門家ネットワークを持ち、入力に応じて最適な専門家を選択して処理する仕組みです。

MoEはDeepSeekMistralなど最新の高効率LLMが採用している主流アーキテクチャで、同等の品質をより低い計算コストで実現します。エンジニアがAIシステムを設計・選択する際の必須知識です。

Unsloth×HFでLLM微調整が無料開放へ

無料LLMファインチューニングの実現

Hugging Face JobsプラットフォームでUnslothを無料利用可能
高速かつ低メモリなLLMファインチューニングが一般開放
LoRA/QLoRAベースの効率的な訓練手法に対応
GPUアクセスのない研究者・開発者に訓練機会を提供
クラウドコストの民主化でドメイン特化モデルが普及

エコシステムへの影響

ファインチューニング参入コストが実質ゼロに低下
企業・研究機関がカスタムモデルを低コストで構築可能
Unslothの速度最適化技術がHFのスケールで利用可能に
HFのモデルハブとの統合でデータセット→訓練→公開が一貫

Hugging FaceとUnslothは、Hugging Face Jobsプラットフォームを通じてLLMのファインチューニングを無料で提供するパートナーシップを発表しました。Unslothはその高速化(通常の2〜5倍速)とメモリ効率(最大80%削減)で知られており、これをHFのクラウドインフラと組み合わせることで、GPUを持たない開発者や研究者に訓練機会を開放します。

ファインチューニングの民主化は、AI活用の次のフロンティアを拓きます。汎用的な基盤モデルをドメイン特化させる能力は、医療、法律、製造など特定業界でのAI活用精度を大幅に向上させます。これまでこの作業には高額なGPUクラスターが必要でしたが、今後は個人や中小企業でも実施可能になります。

HuggingFaceにとってこの提携は、モデルハブ(保管)からトレーニング基盤(構築)、さらにはデプロイメントまでをカバーするフルスタックMLプラットフォームとしての地位を強化します。Unslothのユーザーベースを取り込む獲得戦略でもあります。

Unslothの側では、有料の商用サービスへの入口としてHF経由の無料ティアを活用する戦略です。無料で試したユーザーが高度な機能や大規模訓練のために有料プランに移行するフリーミアムモデルを狙っています。

この動きはより広いトレンドの一部です。LLMの推論コストが下がり続ける中、次の競争軸は専用化・個別最適化にシフトしています。ファインチューニングの民主化が進むことで、汎用LLMよりもドメイン特化モデルが主流になる時代が近づいています。

llama.cppがHFに合流して機能強化

ローカルAI基盤の統合

Georgi Gerganov率いるGGMLチームがHFに合流
llama.cppは最も広く使われるローカル推論エンジン
HuggingFace傘下でコミュニティ規模の拡大を目指す
GGML形式がGGUFフォーマットとして業界標準に確立
商業利用・研究利用双方でのオープン推進が継続

ローカルAIエコシステムへの影響

エッジ・オンデバイス推論の民主化が加速
クラウドへの依存を減らすプライバシー重視AIが普及
企業向けオンプレAI展開の標準スタックとして定着
HFのモデルハブとの深い統合でアクセスが容易に
コミュニティ持続性の確保が長期課題

Hugging Faceは、最も影響力のあるローカルAI推論フレームワークであるGGMLとllama.cppの開発者Georgi Gerganovとそのチームを迎え入れたと発表しました。この統合は、ローカルAI推論エコシステムの長期的な発展を担保する重要な動きです。

llama.cppは、MacのM系チップからRaspberry Piまで幅広いデバイスでLLMを実行できるフレームワークとして、ローカルAI革命の立役者となってきました。GGUF形式はモデルの量子化・配布の事実上の標準フォーマットとして採用されています。

HuggingFaceとの統合により、GGMLチームはHFの広大なモデルハブ、コミュニティ、インフラを活用できるようになります。一方、HFにとってはオンデバイスAI分野での存在感を大幅に強化できるメリットがあります。

ローカルAIの重要性はプライバシー保護、オフライン利用、低コスト展開の観点から高まり続けています。企業がクラウドAIコストに悩む中、オンプレミスLLMの需要は急速に拡大しており、llama.cppはそのユースケースで中心的役割を担っています。

この統合はオープンソースAIエコシステムの成熟を示す重要なマイルストーンです。商業的に成功したHFがコミュニティ主導の重要プロジェクトを取り込むことで、オープンソースの持続可能性モデルの新たな形を示しています。

NVIDIAが日本語特化小型AIモデルを公開

日本語SLMの性能と特徴

Nejumi Leaderboardでトップ性能
10Bパラメータ以下の最先端モデル
オープンモデルとして公開

NVIDIA日本語に特化した小規模言語モデル(SLM)「Nemotron 2 Nano 9B Japanese」をHugging Faceで公開しました。Nejumi Leaderboard 4において10Bパラメータ以下のモデルで最先端の性能を達成しています。

このモデルは日本主権AI(Sovereign AI)戦略を支えるために設計されており、日本語データで特化したファインチューニングが施されています。開発者がモデルをカスタマイズできるよう、データセットやレシピも合わせて公開されます。

日本語対応の高精度AIモデルへの需要が高まる中、NVIDIAの本モデルは日本企業のAI活用を加速させる可能性があります。エッジデバイスやオンプレミス環境での実行も視野に入れた設計です。

VercelがClaude Opus 4.6対応とAIアクセラレータ、HuggingFaceがSyGra Studio公開

各プラットフォームのアップデート

Vercel AI GatewayでOpus 4.6が即日対応
600万ドル分のクレジットを付与する加速プログラム
SyGra StudioHuggingFaceが公開
AI開発者向けツールが一斉拡充
Vercel Acceleratorの第2弾開始
アプリ開発速度の大幅短縮

開発者エコシステム

スタートアップ支援の資金提供競争
AI開発の参入障壁をさらに低下
エコシステム囲い込み戦略

Vercelは2026年2月5日、AI GatewayがClaude Opus 4.6を即日サポートしたと発表し、新モデルを素早く開発環境に組み込める体制を示した。

同社はまた「Vercel AI Accelerator」の第2弾として、スタートアップに総計600万ドル分のインフラクレジットを提供するプログラムを開始した。

HuggingFaceも同日、AI開発のためのビジュアルプラットフォーム「SyGra Studio」を発表し、グラフィカルなAIワークフロー構築ツールを開発者に提供した。

これらの動きは開発者エコシステム獲得競争の一環で、スタートアップを早期に自社プラットフォームに取り込む戦略を反映している。

特にVercelのacceleratorプログラムはNext.js/Reactエコシステムの中心にいる同社がAIスタートアップの出口として選ばれることを狙ったものだ。

NvidiaのNemotronモデルがマルチモーダル検索と文書AIを強化

モデルの性能と用途

ColEmbed V2がマルチモーダル検索首位
ViDoRe V3ベンチマークでトップ達成
Nemotron AgentsがAIリアルタイムBI実現
文書構造を理解した情報抽出
RAGパイプラインとの高い親和性
エンタープライズ文書処理の革新

ビジネス活用

非構造化文書からKPI抽出
業務意思決定支援の即時化
Nvidiaエコシステムとの統合促進

Nvidiaは2026年2月4日、マルチモーダル検索モデル「Nemotron ColEmbed V2」がHuggingFaceのViDoRe V3ベンチマークでトップスコアを達成したと発表した。

ColEmbed V2は画像・テキスト・表・チャートを統合したマルチモーダル文書検索において卓越した性能を持ち、企業の複雑な文書からの情報抽出を実現する。

Nemotron Agentsはリアルタイムで文書をビジネスインテリジェンスに変換するシステムで、ERPデータやレポートから即座にKPIを算出できる。

これらのモデルはNvidiaのAI基盤(NIM)上で動作し、既存のRAGアーキテクチャ検索システムへの統合が容易だ。

日本企業においても大量の非構造化文書(契約書、報告書等)を持つ組織にとって、文書AI自動化の実用性が高まった重要な進展だ。

MistralがオープンソースVoxtral音声モデルと超高速翻訳モデルを公開

新モデルの特徴

Voxtral Transcribe 2をオープンソース公開
オンデバイス動作で低コスト実現
高速翻訳モデルが大手AIに匹敵
数セント音声処理を実現
プライバシー保護のエッジ処理対応
多言語対応の幅が大幅拡大

開発者・企業への影響

オープンウェイト自社サービス統合可能
コスト効率クラウドAPIへの代替
リアルタイム翻訳アプリ開発が加速

Mistralは2026年2月4日、オープンソースの音声文字起こしモデル「Voxtral Transcribe 2」と超高速翻訳モデルを相次いで公開した。

Voxtral Transcribe 2はオンデバイスで動作し、処理コストが数セント程度と非常に低く、プライバシーを重視するアプリケーション開発者にとって魅力的な選択肢となる。

翻訳モデルはWiredの報道によると、OpenAIGoogleなど大手企業のモデルに匹敵する速度と精度を実現しており、オープンソースの競争力を示した。

両モデルともにHuggingFace経由でダウンロード・利用可能であり、開発者は自社サービスに統合することでクラウドAPIコストを削減できる。

Mistralのオープンソース戦略は欧州発AIの競争力を示すものとして注目されており、日本企業にとっても活用しやすいモデルの登場となった。

HuggingFaceがコミュニティEvalsで不透明なリーダーボードへ対抗

Community Evalsの仕組み

コミュニティ主導のモデル評価プラットフォーム
ブラックボックス評価への代替提案
実際のユーザーによる多様なタスク評価
オープンな評価指標で透明性向上
HuggingFaceが審査の中立性を担保
特定ベンダー有利のバイアス排除を目指す

業界への意義

AIベンチマーク信頼性問題に対処
オープンソースモデルの公正な評価機会
ユーザー目線の実用性評価が可能に

HuggingFaceは2026年2月4日、「Community Evals」プラットフォームを発表した。既存の非透明なAIリーダーボードに代わる、コミュニティ主導の評価手法だ。

現在のAIモデル評価では大手企業が有利になるようベンチマーク汚染が疑われるケースも多く、独立した評価の必要性が叫ばれていた。

Community Evalsでは実際のユーザーが多様なタスクでモデルを評価し、その結果を集計することでより現実的な能力比較が可能になる。

HuggingFaceが中立的なプラットフォームとして評価プロセスの透明性と公正性を担保することで、オープンソースモデルにも公平な評価機会が与えられる。

このイニシアティブはAI評価の民主化を推進し、実用性重視の選定基準を業界に広める意味で、モデル選定に迷う企業にとって重要な参照先となる。

Nous Research、NousCoder-14Bをオープンソースで公開

NousCoder-14Bの特徴と性能

14Bパラメータのオープンソースコーディングモデル
主要コーディングベンチマークで最高水準に近い性能
コード生成・補完・デバッグ・解説を高品質で実行
HuggingFaceで無償公開、自由に商用利用が可能
14B規模でコスト効率の高いローカル実行が可能
企業内コードの機密性を保ちながら活用できる

Nous Researchは14BパラメータのオープンソースコーディングモデルNousCoder-14Bを公開しました。主要なコーディングベンチマークでトップクラスに近い性能を示しており、オープンソース・コーディングモデルの水準を引き上げる成果として注目されています。

14Bという規模は、高品質なコード生成とローカル実行のバランスが取れたサイズです。企業内のコードリポジトリや業務ロジックを外部クラウドAPIに送らずに処理できるため、ソースコードの機密性を重視する開発組織にとって特に価値が高いモデルです。

HuggingFaceで商用利用可能な形で公開されており、開発者コミュニティによる採用と改善が見込まれます。CodeLlamaDeepSeekCoderなどの既存モデルとの直接競争の中で、Nous Researchの研究能力の高さを示す成果となっています。

小型モデルがマルチモーダル検索の精度を大幅に向上

Llama Nemotron RAGモデルの性能

HuggingFaceLlama Nemotron RAGモデルを公開
マルチモーダル検索で大型モデルに匹敵する精度
視覚的なドキュメント検索(VDR)の精度を改善
テキストと画像の混在したドキュメントを効率処理
小型かつ高速なモデルで運用コストを削減
RAGパイプラインへの組み込みが容易な設計

実務への応用と意義

ドキュメント処理の精度とコストを両立
PDFや表・グラフを含む複合文書に強い
クラウドに依存しないローカル展開が可能
金融・法務・医療などの業種で高い需要
エンタープライズ検索システムの精度向上に貢献
オープンソースで無償利用できる利点も大きい

HuggingFaceは、小型でありながら高い精度を持つLlama Nemotron RAGモデルの詳細を発表しました。このモデルはマルチモーダル検索と視覚的なドキュメント検索(VDR)において、はるかに大型のモデルと競争できる性能を持ちます。

特に、テキストと図表・画像が混在するPDFや業務文書の検索において優れた結果を示しています。RAGパイプラインに組み込むことで、エンタープライズ検索システム全体の精度向上が期待できます。

小型モデルの高性能化というトレンドの典型例として、オンプレミスや低コストクラウドでの展開が可能であり、クラウドへのデータ送信をためらう金融・医療・法務などのセンシティブな業界での活用が広がりそうです。

NvidiaがロボティクスAIスタック全体を公開:物理AIの時代が本格化

Cosmos Reason 2とAlpamayoの革新

Cosmos Reason 2ロボット向け推論VLMを実現
自律走行車・産業ロボット双方に適用可能
Alpamayoオープンソースモデルが自動車に思考力を
「人間のように考える」自動運転AIが目標
Isaac Lab-Arenaシミュレーション評価を自動化
LeRobotとの統合で汎用ロボット政策を評価

NvidiaがロボティクスのAndroidを目指す

ロボット向け共通基盤モデルを標準化
シミュレーション→実機の移行コスト削減
エッジAIハードウェアとの統合が鍵
MobileNet的な役割をロボティクスで担う
物理AIが製造・物流・農業を変革

Nvidiaは「物理AI」(Physical AI)という概念を中心に、ロボティクス向けAIスタック全体を公開した。Cosmos Reason 2は視覚言語モデル(VLM)に推論能力を組み合わせ、自動運転車や産業ロボットが複雑な物理環境を理解・判断できる基盤を提供する。

Alpamayoは自律走行車向けのオープンソースAIモデル群で、「人間のように考える」能力の実現を目指している。複数シナリオの推論・予測・意思決定を組み合わせることで、従来のルールベース自動運転からAI推論型へのパラダイムシフトを促進する。

Isaac Lab-Arenaはシミュレーション環境でロボット政策(Policy)を自動評価するツールで、実機テストのコストと時間を大幅に削減できる。LeRobotHugging Face)との統合により、汎用ロボット政策の標準的なベンチマーク基盤として機能する。

Jensen HuangのビジョンはNvidiaを「ロボティクスAndroid」として位置づけることだ。スマートフォンでAndroidが共通プラットフォームとして機能したように、Nvidiaロボットスタックがさまざまなハードウェアメーカーの共通基盤になることを目指している。

物理AIの普及は製造・物流・農業・医療など多岐にわたる産業に変革をもたらす。Nvidiaロボティクスエコシステムへの参加企業数が増加するにつれ、ネットワーク効果が働き業界標準としての地位が強固になる見通しだ。

Nvidia DGX Spark・DGX StationとBlueFieldがエンタープライズAIを刷新

デスクトップAIスーパーコンピューターの登場

DGX Sparkがデスクトップサイズで最先端モデルを動作
DGX Stationが研究・開発チーム向けの高性能版
オープンソース・フロンティアモデル双方に対応
クラウド依存なしのオンプレミスAI実現
NvidiaHugging Faceが連携してエージェント展開
Reachy Miniロボットとのエージェント統合デモ

BlueFieldによるセキュリティと加速

BlueField DPUがAIファクトリーのネットワークを保護
ゼロトラストセキュリティハードウェアレベルで実現
ネットワーク・ストレージ・セキュリティを統合処理
エンタープライズAIファクトリーの標準構成に
サイバー攻撃への耐性強化が大企業の要件
CPUオフロードで主処理の効率が大幅向上

NvidiaはCES 2026でDGX SparkとDGX Stationという2つのオンプレミスAIコンピューティング製品を発表した。DGX Sparkはデスクトップサイズながら最先端のAIモデルをローカルで実行できる製品で、研究者・開発者中小企業AI活用を民主化する。

Hugging Faceとの連携により、DGX Spark上でオープンソースモデルを即座にデプロイし、エージェント型AIアプリケーションを構築できる。Reachy Miniロボット)をDGX Sparkで制御するデモは、AIエージェントが物理世界に接続される未来を示した。

DGX Stationは研究チームや企業のAI開発部門向けに設計された、より高性能な版だ。フロンティアモデルのファインチューニングや大規模推論クラウドなしで実行できることで、データプライバシーと低遅延を両立する。

BlueField DPUはエンタープライズAIファクトリーネットワークセキュリティと加速の要として位置づけられている。AIインフラへのサイバー攻撃が増加する中、ハードウェアレベルでのゼロトラストセキュリティ実装が大企業の重要要件となっている。

DGX SparkとBlueFieldを組み合わせることで、エッジからデータセンターまで一貫したNvidiaエコシステムを構築できる。これは企業がクラウドプロバイダーへの依存を減らしながら、AI能力を高めるという二律背反を解消する重要なアーキテクチャとなっている。

GoogleがAI安全ツールと超小型エッジモデルを公開

AI安全性研究ツール

Gemma Scope 2で全モデルを解析可能
Jailbreakや幻覚の仕組みを可視化
史上最大規模のOSSリリース
110PBデータでSAE・トランスコーダ訓練

エッジ向け小型モデル

FunctionGemmaを端末上で動作
関数呼び出し精度が85%に向上
2026年向けエージェント予測も発表

Google DeepMindGemma 3の全サイズ(2.7億〜270億パラメータ)に対応するオープンソース解釈可能性ツール群「Gemma Scope 2」を公開しました。AI安全性研究コミュニティ向けとしては過去最大規模のリリースです。

Gemma Scope 2はスパースオートエンコーダ(SAE)とトランスコーダを組み合わせ、モデルの内部動作を可視化します。Jailbreakや幻覚のメカニズム、思考連鎖の誠実性などの研究に活用できます。同ツールの開発には約110PBのデータと1兆パラメータ超の学習が必要でした。

Google DeepMindはさらに270Mパラメータの超小型エッジモデル「FunctionGemma」もリリースしました。自然言語のユーザーコマンドを構造化コードに変換することに特化し、クラウド接続なしで動作します。

内部評価では標準的な小型モデルが58%の精度しか出なかった関数呼び出しタスクで、FunctionGemmaは85%を達成しています。スマートフォン・ブラウザ・IoT機器での動作を想定し、HuggingFaceとKaggleで公開中です。

Google Cloudは「2026 AIエージェントトレンドレポート」も公開し、生産性向上・業務プロセス自動化・顧客体験・セキュリティ・AI人材育成の5領域でエージェントが変革をもたらすと予測しています。

GemmaとHF v5が新展開を加速

Gemmaの新バリアント

FunctionGemmaエッジ公開
T5Gemma 2が長文脈対応
累計DL3億件超を達成

研究・ツールの進展

MITが学習不適を覆す実験
HF v5で設計刷新
Kaggleで5日集中講座
C2Scaleで癌研究応用

GoogleGemmaモデルの新バリアント「FunctionGemma」を公開しました。エッジデバイス上でのカスタム関数呼び出しに特化した軽量設計で、オフライン環境での活用が広がります。

「T5Gemma 2」はGemma 3基盤のエンコーダー・デコーダーモデルで、マルチモーダル処理と長文脈への対応を初めて実現しており、文書分類や翻訳タスクでの活用が期待されています。

MITのCSAIL研究チームは、これまで学習不適とされてきたニューラルネットワークも短期間のガイダンスで効果的に学習できることを実験的に実証し、従来の通説を覆しました。

Hugging FaceTransformers v5でトークナイザーの設計を大幅に刷新し、学習済み語彙との分離によってコードのモジュール性を高め、カスタマイズと保守の容易さを向上させました。

KaggleとGoogleが共催した5日間のAIエージェント集中講座には世界中から多数の参加者が集まり、実践的なAI教育への高い需要と世界的なAI学習熱の高まりを改めて示しました。

Gemmaファミリーの累計ダウンロード数は3億件を突破しており、一般的なNLPタスクを超えて癌研究(C2Scale)など高度に専門化された科学的応用も着実に増加しています。

AIエージェント構築・検証・微調整の最前線

自律エージェントの精度を高める新アプローチ

ReplitのAgent 3がREPLベース検証で200分以上の自律動作を実現
ブラウザ自動化とコード実行を組み合わせ「見せかけ実装」を自動検出
IBM製オープンソースフレームワークCUGAがHugging Face Spacesに統合
AppWorldベンチマーク1位・WebArena上位を達成した設定可能な汎用エージェント
プランナー/エグゼキューター分離とコードアクト方式で幻覚を抑制
MCP・OpenAPI・LangChain対応のマルチツール連携機能を提供

エージェントAIを支えるデータ基盤と軽量ファインチューニング

Twilioレポートで54%の消費者がAIの文脈保持の欠如を指摘
会話型AIには静的CDPではなくリアルタイム会話メモリが必要と提言
NVIDIAがNemotron 3ファミリーをエージェントAI微調整向けに発表
Unslothを使い低メモリNVIDIA GPULoRA/QLoRAによる効率的なファインチューニングが可能

ReplitはAgent 3の開発において、コードが「動いているように見えるだけ」の問題、いわゆる「ポチョムキン実装」に悩まされてきました。この課題を解決するためREPL(対話型実行環境)とブラウザ自動化を組み合わせた独自の検証システムを構築し、エージェントが生成したコードを実際に実行・操作して機能の実在性を確認できるようにしました。

この仕組みによりAgent 3は200分以上にわたって自律的にタスクを継続でき、単に見た目を整えるだけの実装を自動的に検出・修正するサイクルを回せるようになりました。自己テスト型の検証ループはエージェント品質保証に新たな基準を示しています。

IBMが開発したCUGA(Configurable Generalist Agent)はオープンソースの汎用AIエージェントフレームワークです。AppWorldベンチマークで1位、WebArenaでも上位を記録しており、WebやAPIを跨ぐ複雑なマルチステップタスクを高い精度でこなします。

CUGAは現在Hugging Face Spacesに統合され、オープンモデルと組み合わせて誰でも試せる環境が整いました。推論モードをコスト・レイテンシに応じて切り替えられる柔軟な設計が特徴で、MCP・OpenAPI・LangChain経由の多様なツール連携にも対応しています。

Twilioの調査によると、消費者の54%が「AIは過去のやりとりをほとんど覚えていない」と感じており、AIから人間担当者へ引き継がれる際に全文脈が共有されると答えたのはわずか15%でした。エージェントAIが真に機能するには、リアルタイムで携帯可能な会話メモリが不可欠です。

この問題を解決するには、従来のCRMやCDPを使い続けるのではなく、会話メモリをコミュニケーションインフラの内部に組み込む必要があると指摘されています。Twilioはこうした次世代の顧客データ基盤の構築を推進しています。

NVIDIAはNemotron 3ファミリーを発表し、エージェントAIの微調整に最適化されたオープンモデルとライブラリを提供しました。GeForce RTXラップトップからDGX Sparkまで幅広いNVIDIA GPUで動作します。

Unslothを使ったLoRA/QLoRAによるファインチューニングは、フルパラメータ更新より少ないメモリと時間でモデルを特定タスクへ特化させる手法です。製品サポートや個人アシスタントなどの用途で小型言語モデルの精度を高める実用的なアプローチとして注目されています。

Ai2、強化学習を延長したOLMo 3.1を公開

OLMo 3.1の概要と強化学習の延長

Ai2がOLMo 3.1をリリース、OLMo 3の後継として公開
OLMo 3.1 Think 32BとInstruct 32Bの2モデルを更新
Think 32Bは追加21日・224GPU規模でRLトレーニングを延長
AIMEで5点超、ZebraLogicで4点超など主要ベンチマークが大幅改善
Instruct 32Bは7Bモデルのレシピを32Bに適用して開発
現在はAi2 PlaygroundとHugging Faceで利用可能、API提供も予定

ベンチマーク性能とオープンソースへの取り組み

OLMo 3.1 ThinkはAIME 2025でQwen 3 32Bを上回る性能を記録
OLMo 3.1 InstructはGemma 3を上回る数学ベンチマーク結果を達成
32Bスケールのオープン命令調整モデルとして最高水準と主張
RL-Zero 7Bの数学コーディングモデルも長期安定学習で更新
データ・コード・学習決定の完全な透明性を維持する方針を継続
OLMoTraceによる学習データ追跡ツールも引き続き提供

アレン人工知能研究所(Ai2)は、オープンソース言語モデルファミリー「OLMo 3」のアップデート版となる「OLMo 3.1」を公開しました。前バージョンのリリース後も強化学習(RL)トレーニングを継続し、さらなる性能向上を実現しています。

OLMo 3.1 Think 32Bは、OLMo 3 Think 32BのRLトレーニングを追加21日間、224個のGPUを用いて延長することで開発されました。数学推論・命令追従の各ベンチマークで大幅な改善が確認されています。

具体的な改善幅としては、AIMEで5点超、ZebraLogicで4点超、IFEvalで4点超、IFBenchで20点超の向上が報告されています。コーディングや複雑な多段階タスクの性能も向上しています。

OLMo 3.1 Instruct 32Bは、より小規模な7Bモデル向けの手法を大規模化することで構築されました。チャット、ツール利用、マルチターン対話に最適化された設計になっています。

ベンチマーク比較では、OLMo 3.1 ThinkがAIME 2025においてQwen 3 32Bを上回り、Gemma 27Bに近い性能を示しました。OLMo 3.1 InstructはGemma 3を数学ベンチマークで超えたとされています。

Ai2はデータ・コード・学習プロセスの完全な透明性を重視しており、企業や研究機関がモデルのデータ構成を把握・変更できる点を強調しています。OLMoTraceツールによるLLM出力と学習データの追跡機能も提供が続いています。

モデルはAi2 PlaygroundおよびHugging Faceで即時利用可能であり、API経由のアクセスも近日中に提供予定とされています。また、数学コーディング向けのRL-Zero 7Bモデルも今回の更新で改善されています。

Codex、HF Skills連携でOSSモデル訓練可能に

統合の機能

トレーニングメトリクスの監視
チェックポイント評価と報告作成
GGUF量子化とHub公開

意義と展望

Claude Codeに続く統合
AGENTS.mdでリポジトリ設定
OSS開発の民主化に貢献

Hugging Faceが、OpenAIコーディングエージェントCodex」にHugging Face Skillsリポジトリを統合しました。先行してClaude Codeで実現された機能に続くもので、Codexオープンソースモデルの訓練から公開まで一連のMLタスクを実行できるようになります。

HF Skillsにより、Codexは言語モデルのファインチューニング、RL整合の適用、Trackioからのリアルタイムメトリクス監視、チェックポイント評価、実験レポート作成、GGUF量子化、Hugging Face Hubへの公開が可能です。AGENTS.mdファイルによるリポジトリレベルの設定に対応しています。

この統合は、コーディングエージェントとMLOpsプラットフォームの融合における重要な進展です。ソフトウェア開発とML エンジニアリングの壁を低くし、専門的なMLインフラの知識がないチームでもオープンソースモデル開発に取り組める環境の実現に貢献します。

Nous Research、数学推論AIのNomos 1をOSS公開

数学推論の新たな到達点

オープンソース数学推論AINomos 1を公開
難関パトナム試験で2位の成績を達成
Hugging Faceで自由に利用可能
プロプラ系に匹敵する推論能力を実証
専門領域でのOSS AI競争力を証明
高度な数学的問題解決能力を備える

サンフランシスコのNous Researchが、オープンソースの数学推論AIシステム「Nomos 1」を公開しました。北米で最も難しい学部レベルの数学コンペティションであるパトナム試験で全体2位という優秀な成績を収めています。Hugging Faceで公開され、研究コミュニティが自由に活用できます。

この成果は、オープンソースAIが高度な専門推論分野でプロプライエタリなシステムと競争できることを示す重要なマイルストーンです。コミュニティ主導の開発でも、潤沢な資金を持つ企業のシステムに匹敵する性能が実現可能であることを証明しています。

MS、安価な病理画像から高精度な細胞データを生成するAI公開

希少データを仮想生成しコスト削減

安価なH&E;画像から仮想mIF画像を生成
4000万細胞の学習データで高精度を実現

大規模な仮想集団で医学的発見

1.4万人の患者から30万枚画像を生成
がん微小環境と指標の関連を1234件特定

オープンソースで医療AI加速

外部データセットで検証し有効性を確認
モデルをHugging Face無償公開

マイクロソフトリサーチは12月9日、Providenceらと共同で、がん研究用マルチモーダルAI「GigaTIME」を発表しました。安価に入手可能な病理画像から、高価で希少な詳細分析データを仮想的に生成し、精密医療の進展を加速させます。

本技術の核心は、標準的なH&E;染色スライドから、高コストな多重免疫蛍光(mIF)画像を予測生成する点です。これにより、従来は資金と手間の制約で困難だった大規模な腫瘍微小環境の分析が、既存の安価なデータ資産を用いて可能になります。

研究チームは4000万個の細胞データでAIを訓練し、1万4256人の患者データに適用しました。その結果、30万枚の仮想画像を生成し、がんの進行や生存率に関わる1234件の統計的に有意な関連性を新たに特定することに成功しています。

外部のTCGAデータセットを用いた検証でも高い整合性が確認されました。同社はこのモデルをオープンソースとして公開しており、将来的には個々の患者の病態をデジタル上で再現する「仮想患者」の実現に向けた重要な一歩と位置づけています。

Claudeが自律的にLLM学習実行、HF新機能公開

指示だけで学習工程を完結

自然言語でファインチューニングを指示
最適なGPU選定とコスト試算を自動化
データセット検証からデプロイまで代行

実用的な学習手法を網羅

SFT・DPO・GRPOなど主要手法に対応
ローカル利用向けのGGUF形式への変換
学習進捗をリアルタイム監視可能

Hugging Faceは2025年12月4日、AIエージェントClaude」などがLLMのファインチューニングを自律的に実行できる新機能「Skills」を発表しました。エンジニアはチャットで指示するだけで、複雑な学習プロセスを完結できます。

本機能はスクリプト作成に留まらず、クラウド上のGPU確保からジョブ送信、進捗監視、モデルのアップロードまでを自動化します。データセットの形式チェックや、モデル規模に応じた最適なハードウェア選定もAIが代行し、失敗リスクを低減します。

対応手法は、一般的な「SFT(教師あり微調整)」に加え、人間の好みを反映する「DPO」、数学やコード生成に有効な「GRPO」など多岐にわたります。実運用レベルの高度なモデル開発が、対話インターフェースを通じて手軽に実行可能になります。

利用にはHugging FaceのPro以上のプランが必要です。開発者インフラ管理の時間を節約でき、AIモデルのカスタマイズやローカル環境向けの軽量化(GGUF変換)を、低コストかつ迅速に試行錯誤できるようになり、生産性が大幅に向上します。

Hugging Faceがv5発表、PyTorch特化と相互運用性強化

開発効率を高める構造改革

モデル定義をモジュール化し保守性向上
開発基盤をPyTorchへ完全一本化

実用性を極めた学習・推論

大規模な事前学習への対応を強化
OpenAI互換の推論サーバー機能導入
低精度の量子化を標準機能として統合

エコシステムをつなぐハブへ

外部推論エンジンとの連携を円滑化
ローカル実行オンデバイス対応

Hugging Faceは、AI開発のデファクトスタンダードであるライブラリの最新版「Transformers v5」を発表しました。本バージョンでは「相互運用性」と「シンプルさ」を最優先し、コード構造のモジュール化やPyTorchへのバックエンド一本化を断行。急速に拡大するAIエコシステムにおいて、エンジニアがより効率的に学習・推論を行えるよう、量子化の標準サポートや外部ツールとの連携を強化した大型アップデートです。

前バージョンのリリースから5年、Transformersは爆発的な成長を遂げました。1日あたりのインストール数は2万回から300万回へと急増し、累計ダウンロード数は12億回を突破。サポートするモデルアーキテクチャも40種類から400種類以上へと拡大しており、AI技術の民主化と普及を支える重要なインフラとしての地位を確立しています。

v5の最大の焦点は「シンプルさ」の追求です。開発チームは「コードこそが製品である」という哲学のもと、モデル定義のモジュール化を推進。複雑化していたコードベースを整理し、新しいモデルの追加や保守を容易にしました。これにより、コミュニティによる貢献プロセスが簡素化され、最新モデルへの対応速度がさらに向上します。

技術的な大きな転換点として、バックエンドをPyTorchに一本化します。TensorFlowやFlaxのサポートを縮小し、PyTorch財団との連携を深めることで、パフォーマンスと安定性を最大化します。同時に、JAXエコシステムとの互換性は維持し、多様な開発環境やニーズに応える柔軟性も確保しています。

実用面では、推論機能と量子化が大幅に強化されました。新たにOpenAI互換のAPIを持つ「transformers serve」を導入し、手軽な推論サーバー構築が可能に。また、8-bitや4-bitといった低精度モデルの量子化を「第一級市民」として扱い、リソース制約のある環境でも高性能なモデルを効率的に扱えるようになります。

最終的な目標は、あらゆるAIツールとのシームレスな連携です。UnslothやAxolotlでの学習から、vLLMやllama.cppを用いた推論・ローカル実行まで、Transformers v5はエコシステムのハブとして機能します。この高い相互運用性により、開発者は最適なツールを自由に組み合わせ、生産性を最大化できるでしょう。

AI応答速度と効率を劇的改善する「連続バッチ」技術

LLM運用の課題と解決策

生成AIの計算負荷と遅延の解消
従来のパディングによる無駄を排除

核心となる技術要素

KVキャッシュで再計算を回避
パディング不要のRagged batching
長文を分割するChunked prefill

実装によるビジネス効果

推論スループットの最大化
GPUリソースの完全稼働
大規模同時接続への柔軟な対応

生成AIの実装において、応答遅延と膨大なGPUコストは経営上の大きな課題です。解決の切り札となるのが、最新の推論最適化技術Continuous batchingです。本稿ではHugging Faceの技術解説を基に、AIインフラ生産性を最大化する本技術の全貌を紐解きます。

LLMの核となるAttention機構は計算コストが高く、通常は過去の計算結果をKVキャッシュとして保存し再計算を防ぎます。しかし、複数リクエストを同時処理する際、従来のバッチ処理では長さの不揃いな文章を扱うために非効率が発生していました。

最大の問題は、長さを揃えるための「パディング(穴埋め)」による無駄です。無意味なデータ処理でGPUメモリを浪費し、さらに長い処理の終了待ちが発生します。これはシステム全体のスループットを低下させ、コスト対効果を悪化させる主因でした。

新技術はRagged batchingを採用し、この常識を覆します。パディングなしで複数リクエストを連結し、Attentionマスクで干渉を防ぎます。空いたリソースへ即座に次のタスクを割り当て、GPU稼働率を限界まで高めることが可能になります。

加えて、長い入力を分割処理するChunked prefillを組み合わせます。これにより、メモリ不足を防ぎつつ、短い生成処理の合間に長い読込処理を隙間なく実行します。動的なスケジューリングにより、常に最適な順序で計算が行われます。

結果として「初期読込」と「文章生成」を混在させ、処理能力を劇的に向上させます。これはChatGPT等の大規模基盤であり、AIサービスの収益性と体験を両立させるため、エンジニアのみならずリーダー層も理解すべき必須概念です。

MSのPC操作AI「Fara-7B」 端末完結でGPT-4o凌駕

端末完結でGPT-4o超え

70億パラメータの軽量モデルでPC動作
WebVoyagerで勝率73.5%を達成
視覚情報のみでマウス・キー操作

高度なプライバシーと安全設計

データが外部に出ないピクセル主権
重要操作前に停止する安全機構

革新的な学習手法と入手性

合成データによる効率的な学習
MITライセンスで商用利用も可能

マイクロソフトは2025年11月24日、PC操作に特化した新しい小規模言語モデル(SLM)「Fara-7B」を発表しました。わずか70億パラメーターながら、GPT-4oベースのエージェントを凌駕する性能を記録。データが外部に出ないオンデバイス実行を実現し、プライバシー保護と低遅延を両立させています。

最大の特徴は、人間と同じように画面の視覚情報だけを頼りに操作を行う点です。HTMLコード等の裏側情報を必要とせず、スクリーンショットからボタン位置などを認識してマウスやキーボードを操作します。Web操作のベンチマーク「WebVoyager」では、GPT-4o(65.1%)を上回る73.5%のタスク成功率を達成しました。

ビジネス利用で重要なのがセキュリティです。Fara-7Bはローカル環境で動作するため、機密情報がクラウドに送信されるリスクを排除する「ピクセル主権」を確立しています。また、送金やメール送信などの不可逆的な操作の直前には、必ずユーザーの同意を求める「クリティカルポイント」機能が組み込まれています。

開発には「知識の蒸留」という高度な手法が用いられました。マルチエージェントシステム「Magentic-One」が生成した14万件以上の高品質な合成データを学習させることで、小型モデルながら複雑な推論能力を獲得しています。ベースモデルには視覚処理に優れたQwen2.5-VL-7Bが採用されました。

本モデルは現在、Hugging Face等を通じてMITライセンスで公開されており、商用利用を含む試験運用が可能です。Windows 11搭載のCopilot+ PCでも動作確認済みで、企業は自社のセキュリティ要件に合わせたPC操作自動化エージェントの開発を、低コストかつ安全に開始できます。

Hugging Faceが音声認識評価を刷新、LLM融合が精度で圧倒

評価軸の拡張と現状

多言語と長文書き起こしを評価軸に追加
登録モデル数は150以上に急増

精度と速度のトレードオフ

LLMデコーダーとの統合が最高精度を記録
高速処理はCTC/TDT方式が最大100倍速

実用シーン別の選定指針

長文認識はクローズドソースが依然優位
英語特化と多言語対応で性能差が顕著

Hugging Faceは2025年11月、音声認識(ASR)モデルの性能を競う「Open ASR Leaderboard」を大幅に更新しました。従来の短い英語音声に加え、多言語対応長文書き起こしの評価軸を新設し、ビジネス現場で真に使えるモデルの選定指針を提示しています。

精度の面では、音声処理に特化したConformerエンコーダーとLLMデコーダーを組み合わせたモデルが首位を独占しています。NVIDIAやIBM、Microsoftの最新モデルが示すように、LLMの推論能力を統合することで、認識精度が飛躍的に向上しているのです。

一方で、会議の議事録作成など速度が求められる場面では、選択肢が異なります。LLMベースは高精度ですが処理が重いため、リアルタイム処理にはCTCTDTといった軽量なデコーダーを持つモデルが適しており、最大で100倍の処理速度を実現します。

多言語対応や長文処理においては、依然としてOpenAIのWhisperや商用のクローズドソースモデルが強力です。特定の言語に特化させて精度を高めるか、汎用性を取るかというトレードオフが存在するため、導入時には用途に応じた慎重なモデル選定が不可欠です。

Apple端末でのLLM開発を統一、Hugging Faceが新API公開

複雑なAI実装を一本化

Apple端末向け統合LLMライブラリ
ローカルとクラウド同一コードで制御
OpenAIやMLXなど幅広く対応

開発効率と拡張性を両立

標準API準拠で学習コストを抑制
依存関係を絞れるTraits機能採用
将来を見据えた画像入力機能も先行実装

Hugging Faceは11月20日、Apple端末向けにローカル・クラウドLLMを統一的に扱えるSwiftパッケージ「AnyLanguageModel」を発表しました。開発者は複雑なAPI統合から解放され、AI機能の実装とモデル選定が劇的に効率化します。

従来、Apple端末でのAI開発は、Core ML等のローカル実行とOpenAI等のクラウド利用で異なる実装が必要でした。この「統合の摩擦」は開発者の大きな負担となり、最適なモデルを柔軟に試行錯誤するコストを高止まりさせていたのです。

本ツールはAppleの標準フレームワークを拡張して設計され、わずかなコード変更で多様なモデルへの切り替えを可能にします。Swift 6.1の新機能を活用し、必要なライブラリのみを読み込むことで、アプリサイズを肥大化させない工夫も特徴です。

特筆すべきは、Apple標準機能に先駆け画像入力等のマルチモーダル機能に対応した点です。ローカルLLMの活用障壁を下げるこの動きは、端末内で完結する高度なAIエージェント開発への重要な足がかりとなるでしょう。

「LLMバブルは来年崩壊」Hugging Faceトップが予測

LLMへの過度な期待

現在はLLMバブルの渦中にある
来年にもバブル崩壊の可能性を指摘
万能モデルへの資金集中を懸念

特化型AIへのシフト

LLMはAIの一部に過ぎない
バイオや化学など応用分野は初期段階
今後数年で実用化が加速する見通し

Hugging FaceのClem Delangue CEOは11月中旬、現在は「LLMバブル」の渦中にあり、来年にも崩壊する可能性があると警告しました。しかしAI全体については強気で、生物学や化学などへの応用はまだ初期段階だとの見解を示しています。

Delangue氏が問題視するのは、単一の巨大モデルですべてを解決しようとする汎用チャットボットへの偏重です。膨大な計算資源と資金が一部に集中する現状に対し、これらが必ずしもすべての企業や課題にとって最適解ではないと指摘します。

重要なのは、LLMバブルの崩壊がAIの終わりを意味しない点です。画像音声、科学研究といった特定領域へのAI応用はこれから本格化します。市場は「何でもできるチャットボット」から、具体的な課題を解決する実用的なAIへとシフトしていくでしょう。

Hugging Face CEO「LLMバブル」崩壊を予測

バブルの所在と予測

現在はLLMバブルの最中
来年にも崩壊する可能性
AI全体の未来はリスクなし

モデル開発の未来

万能モデルから特化型へシフト
小型・高速・安価なAIが普及
企業の自社インフラで運用へ

堅実な経営戦略

他社と異なる資本効率重視
調達資金の半分を温存
長期的な持続可能性を追求

Hugging FaceのClem Delangue CEOは11月18日、Axiosのイベントにて、現在の市場は「AIバブル」ではなく「LLMバブルの状態にあると指摘しました。このバブルは来年にも弾ける可能性がありますが、AI技術自体の将来性については楽観的な見解を示しています。

同氏は、ChatGPTなどの大規模言語モデル(LLM)に資金や注目が集中しすぎている現状を懸念しています。しかしLLMはAIの一側面に過ぎず、生物学や画像音声といった分野への応用はまだ初期段階にあり、今後数年で大きな発展を遂げると予測しています。

「一つの巨大モデルが全ての問題を解決する」という考え方から、今後は「特化型モデル」の活用へとシフトが進むでしょう。銀行のチャットボットに哲学的な問いは不要であり、より小型で安価、かつ高速なモデルが企業の課題を解決する未来を描いています。

企業の自社インフラで運用可能なカスタマイズモデルの普及は、セキュリティやコスト面でも合理的な選択です。汎用的な巨大モデルへの依存から脱却し、実用性と効率性を重視したAIの実装が、これからのエンジニア経営者に求められる視点となるでしょう。

バブル崩壊の影響について、同社は堅実な財務戦略で備えています。他社がインフラに巨額を投じる中、Hugging Faceは調達資金の半分を温存し、短期的な熱狂に流されず長期的な持続可能性を追求する姿勢を明確にしています。

Hugging Face、ROCmカーネル開発・共有基盤を公開

ROCmカーネル開発を刷新

複雑なビルド工程を自動化
Nixによる再現性の高い環境構築
PyTorchとのシームレスな統合
CUDA、Metalなどマルチ対応

Hubで共有し即時利用

開発資産をHubで公開・共有
コミュニティによる再利用を促進
数行のコードでカーネルを読込

Hugging Faceは2025年11月17日、AMD製GPU向けのカスタムカーネル開発を大幅に簡素化する新ツール群とガイドを発表しました。高性能な深層学習に不可欠なカスタムカーネルですが、その開発は複雑でした。新ツール「kernel-builder」とライブラリ「kernels」により、開発者はビルドや共有の手間から解放され、AMDのROCmプラットフォーム上で効率的にAI開発を進められるようになります。

なぜ、このようなツールが必要なのでしょうか。従来、カスタムカーネルの開発は、特定のGPUアーキテクチャに合わせたコンパイルや、PyTorchなどのフレームワークとの連携において、専門的な知識と煩雑な作業を要しました。設定ファイルの記述ミスや環境差異によるエラーは日常茶飯事で、開発者の大きな負担となっていました。この生産性のボトルネックを解消することが、新ツールの狙いです。

中核となる「kernel-builder」は、ビルドからPyTorch連携までを自動化します。特に、ビルド環境を完全に固定する「Nix」技術により、誰でも同じ結果を保証する「再現性」を確保。これにより開発プロセスが大幅に安定します。

最大の特長は、Hugging Face Hubを通じた共有エコシステムです。開発したカーネルはHubで公開でき、他ユーザーは数行のコードで即時利用可能。コミュニティ全体で資産を共有し、開発の車輪の再発明を防ぎます

今回の発表では、具体的な事例としてAMDの最新GPU「Instinct MI300X」に最適化された行列積(GEMM)カーネルが紹介されました。深層学習の中核演算であるGEMMを高速化するこのカーネルは、Hugging Faceのツール群がいかに実用的な性能向上に貢献するかを明確に示しています。

今回の取り組みはAMD製GPUの活用を大きく後押しします。ソフトウェア開発の障壁を下げ、NVIDIA優位の市場に新たな競争軸をもたらす可能性があります。オープンなエコシステム戦略が、今後のAIの進化を加速させるでしょう。

Meta、1600言語対応の音声認識AIを無償公開

Whisperを凌駕する規模

OpenAIの99言語を圧倒
1600以上の言語を公式サポート
ゼロショット学習で5400言語へ拡張可能
少数言語のデジタル化を促進

ビジネス利用を後押し

Apache 2.0ライセンスで公開
商用利用に一切の制限なし
企業の多言語対応コストを削減
新たな音声アプリ開発の起爆剤

Metaは2025年11月10日、1,600以上の言語に対応する多言語自動音声認識(ASR)モデル「Omnilingual ASR」をオープンソースで公開しました。このモデルは、OpenAIのWhisper(99言語対応)を大幅に上回る言語カバレッジを誇り、Apache 2.0ライセンスの下で商用利用も可能です。企業の多言語対応や新たな音声アプリケーション開発を加速させる一手となるでしょう。

「Omnilingual ASR」の最大の特徴は、その圧倒的な言語カバレッジです。公式サポートする1,600言語に加え、「ゼロショット学習」という技術を用いることで、事前の再学習なしに新たな言語の文字起こしが可能になります。これにより、理論上は世界に存在する約5,400の言語に対応できるとされ、これまでデジタル化から取り残されてきた少数言語の活用に道を開きます。

企業にとって、このモデルは大きなビジネスチャンスを意味します。ライセンスが商用利用を完全に許可するApache 2.0であるため、大企業も追加費用なしで自社サービスに組み込めます。多言語対応のカスタマーサポート、グローバルなコンテンツの字幕生成、教育ツールなど、これまでコストの壁で実現が難しかった分野での応用が期待されます。

このプロジェクトは、MetaのAI戦略における重要な転換点と見られています。最新の大規模言語モデル「Llama 4」が期待ほどの評価を得られなかった中、Omnilingual ASRはMetaの技術的信頼性を再確立する狙いがあります。制限の多いライセンスから完全にオープンな形態へ移行したことも、コミュニティからの信頼回復とエコシステム拡大に向けた強い意志の表れです。

今回の公開には、複数のモデルファミリーが含まれています。自己教師あり学習用の「wav2vec 2.0」モデルから、高精度な文字起こしを実現する「LLM-ASR」モデルまで、用途に応じて選択可能です。開発者GitHubHugging Faceを通じて、モデルやデータセットに即座にアクセスし、自社のプロジェクトに統合することができます。

Omnilingual ASRの登場は、音声認識技術のあり方を「固定的な機能」から「コミュニティが拡張できる基盤」へと変える可能性を秘めています。企業は言語の壁を越えた事業展開を加速でき、研究者やコミュニティは言語の多様性を保護・活用する新たなツールを手に入れたことになります。今後の活用事例が注目されます。

OpenAI、推論で安全性を動的分類する新モデル公開

新モデルの特長

開発者安全方針を直接定義
推論ポリシーを解釈し分類
判断根拠を思考過程で透明化
商用利用可能なオープンモデル

従来手法との違い

ポリシー変更時の再学習が不要
大量のラベル付きデータが不要
新たな脅威へ迅速な対応が可能

性能と実用上の課題

小型ながら高い分類性能を発揮
処理速度と計算コストが課題

OpenAIは2025年10月29日、開発者が定義した安全方針に基づき、AIが推論を用いてコンテンツを動的に分類する新しいオープンウェイトモデル「gpt-oss-safeguard」を発表しました。このモデルは、従来の大量データに基づく分類器とは異なり、ポリシー自体を直接解釈するため、柔軟かつ迅速な安全対策の導入を可能にします。研究プレビューとして公開され、コミュニティからのフィードバックを募ります。

最大の特徴は、AIの「推論能力」を活用する点です。開発者は自然言語で記述した安全方針を、分類対象のコンテンツと共にモデルへ入力します。モデルは方針を解釈し、コンテンツが方針に違反するかどうかを判断。その結論に至った思考の連鎖(Chain-of-Thought)」も示すため、開発者は判断根拠を明確に把握できます。

このアプローチは、従来の機械学習手法に比べて大きな利点があります。従来、安全方針を変更するには、数千件以上の事例データを再ラベル付けし、分類器を再学習させる必要がありました。しかし新モデルでは、方針テキストを修正するだけで対応可能です。これにより、巧妙化する新たな脅威や、文脈が複雑な問題にも迅速に適応できます。

例えば、ゲームのコミュニティサイトで不正行為に関する投稿を検出したり、ECサイトで偽レビューを特定したりと、各サービスの実情に合わせた独自の基準を容易に設定・運用できます。大規模なデータセットを用意できない開発者でも、質の高い安全分類器を構築できる道が開かれます。

性能評価では、社内ベンチマークにおいて、基盤モデルである「gpt-5-thinking」を上回る精度を示しました。一方で、特定の複雑なリスクに対しては、大量のデータで専用に訓練された従来の分類器に劣る場合があることや、推論プロセスに伴う計算コストと処理遅延が課題であることも認めています。

OpenAIは、社内ツール「Safety Reasoner」で同様のアプローチを既に採用しており、GPT-5画像生成AI「Sora 2」などの安全システムの中核を担っています。今回のオープンモデル公開は、こうした先進的な安全技術を広く共有し、コミュニティと共に発展させることを目指すものです。モデルはHugging Faceからダウンロード可能で、Apache 2.0ライセンスの下で自由に利用、改変、配布ができます。

LLMも「脳腐敗」、低品質データで性能低下か

「LLM脳腐敗」仮説

人間の脳腐敗から着想
ジャンクデータで認知能力が低下
米国の複数大学が共同研究

「ジャンクデータ」の定義

高エンゲージメントで短い投稿
陰謀論や誇張された主張
クリックベイトなど扇動的な内容
GPT-4oで意味的な質を評価

ビジネスへの示唆

学習データの品質管理が不可欠
モデルの長期的な性能を左右

テキサスA&M;大学など米国の研究チームが、大規模言語モデル(LLM)を低品質な「ジャンクデータ」で継続的に学習させると、人間の「脳腐敗」に似た性能低下が起きる可能性を指摘する論文を発表しました。この研究は、LLMの性能を維持・向上させる上で、学習に用いるデータの「量」だけでなく「質」が極めて重要であることを示唆しており、AIをビジネス活用する企業にとって重要な知見となりそうです。

研究チームが提唱するのは「LLM脳腐敗仮説」です。これは、人間がインターネット上で些細で質の低いコンテンツを大量に消費すると、注意⼒や記憶⼒が低下する現象に着想を得ています。同様に、LLMもジャンクなウェブテキストで事前学習を続けると、持続的な認知能力の低下を招くのではないか、というのが仮説の骨子です。

では、何が「ジャンクデータ」と見なされるのでしょうか。研究チームはHuggingFaceが公開する1億件のツイートデータを分析し、2つの指標で定義を試みました。一つは、エンゲージメント(いいね、リツイート等)は高いが、文章が短いツイートです。これらは些細な内容でユーザーの注意を引く「ジャンク」の典型例とされました。

もう一つの指標は、ツイートの「意味的な質」です。研究チームはGPT-4oを活用し、陰謀論、誇張された主張、根拠のない断言、あるいはクリックベイトのような扇動的な見出しを含むツイートを「ジャンク」として分類しました。このAIによる分類の精度を人間が検証したところ、76%の一致率を示し、一定の信頼性が確認されています。

この研究は、AIをビジネスに活用する経営者エンジニアに重要な問いを投げかけています。自社データなどでLLMをファインチューニングする際、安易に大量のデータを投入するだけでは、かえってモデルの性能を損なう危険性があるのです。AI戦略において、データの品質をいかに担保するかというデータガバナンスの重要性が、改めて浮き彫りになったと言えるでしょう。

AIモデルの安全強化へ Hugging FaceとVirusTotalが提携

提携の概要と仕組み

220万超の全公開資産を常時スキャン
VirusTotalの脅威データベースと連携
ファイルハッシュ照合でプライバシー保護

ユーザーと企業への恩恵

ダウンロード前にファイルの安全性を可視化
悪意ある資産の拡散を未然に防止
CI/CDへの統合で開発効率を向上
信頼できるオープンソースAIエコシステムの構築

AIモデル共有プラットフォーム大手のHugging Faceは2025年10月23日、脅威インテリジェンスで世界をリードするVirusTotalとの協業を発表しました。この提携により、Hugging Face Hubで公開されている220万以上の全AIモデルとデータセットがVirusTotalによって継続的にスキャンされます。AI開発におけるセキュリティリスクを低減し、コミュニティ全体を悪意のあるファイルから保護することが目的です。

なぜ今、AIのセキュリティが重要なのでしょうか。AIモデルは、モデルファイルやデータに偽装されたマルウェア、不正なコードを実行する依存関係など、隠れた脅威を内包する可能性があります。プラットフォームが拡大するにつれ、共有される資産の安全性を担保することが、エコシステム全体の信頼性を維持する上で不可欠な課題となっています。

今回の連携では、ユーザーがHugging Face Hub上のファイルにアクセスすると、そのファイルのハッシュ値がVirusTotalのデータベースと自動で照合されます。ファイルの中身自体は共有されないため、プライバシーは保護されます。過去に悪意あると分析されたファイルであれば、その情報が表示され、ユーザーはダウンロード前にリスクを把握できます。

この協業は、開発者や企業に大きな恩恵をもたらします。ファイルの安全性が可視化されることで透明性が高まるだけでなく、企業はセキュリティチェックをCI/CD(継続的インテグレーション/継続的デプロイメント)のパイプラインに組み込めます。これにより、悪意ある資産の拡散を未然に防ぎ、開発の効率性と安全性を両立させることが可能になります。

Hugging FaceとVirusTotalの提携は、オープンソースAIのコラボレーションを「設計段階から安全(セキュア・バイ・デザイン)」にするための重要な一歩です。開発者が安心してモデルを共有・利用できる環境を整えることで、AI技術の健全な発展とイノベーションを強力に後押しすることになるでしょう。

Hugging Face、文章埋め込みの雄を正式に傘下へ

Hugging Faceへ正式移管

セマンティック検索で人気のライブラリ
開発元は独ダルムシュタット工科大学
Hugging Faceインフラ開発加速

エコシステムのさらなる発展

オープンソース・ライセンスは維持
コミュニティ主導の開発を継続
Hub上で1.6万超のモデルが利用可能
月間ユニークユーザーは100万人超

AIプラットフォームのHugging Faceは2025年10月22日、高品質な文章埋め込み生成ライブラリ「Sentence Transformers」を正式に管理下に置くと発表しました。これまでドイツのダルムシュタット工科大学UKP Labが主導してきましたが、今後はHugging Faceインフラを活用し開発を加速させます。これはセマンティック検索などを手掛ける開発者にとって重要な動きです。

Sentence Transformersは、文章の持つ意味を捉えたベクトル表現(埋め込み)を生成する人気のオープンソースライブラリです。2019年の登場以来、セマンティック検索や文章の類似度比較、クラスタリングといった多様な自然言語処理タスクで広く採用され、業界のデファクトスタンダードとしての地位を確立しています。

このライブラリは、もともとダルムシュタット工科大学のUKP Labで開発・維持されてきました。しかし、2023年後半からはHugging Faceエンジニアがメンテナンスを引き継いでおり、今回の発表でその関係が公式化されました。長年の研究成果が、エコシステムの中心的存在へと引き継がれる形となります。

Hugging Faceへの移管により、同社の持つ堅牢なインフラが最大限に活用されます。継続的インテグレーションやテスト環境が整備されることで、ライブラリの安定性が向上し、情報検索や自然言語処理における最新技術への追随がより迅速かつ確実になることが期待されています。

今後の運営方針はどうなるのでしょうか。ライセンスは従来通りApache 2.0を維持し、オープンソースかつコミュニティ主導のプロジェクトとして継続されます。Hugging Faceは、これまでのオープンで協力的な精神を尊重しつつ、プロジェクトのさらなる成長と革新を支援していくと表明しています。

Hugging Face Hubでは、既に1万6000以上のSentence Transformers関連モデルが公開され、月間100万人以上のユニークユーザーに利用されています。今回の正式移管は、この巨大なエコシステムをさらに強化し、AIを活用したアプリケーション開発の加速に繋がるでしょう。

AI Sheetsが画像対応、ノーコードでAI活用へ

画像から情報を自動抽出

領収書から項目を自動抽出
手書きメモを瞬時にテキスト化
画像内容をAIが分類・タグ付け

テキストで画像を生成・編集

指示文から画像を自動生成
既存画像スタイル変更も自在
SNS投稿用の素材を一括作成

AIプラットフォームのHugging Faceが、オープンソースのデータ活用ツール「AI Sheets」のメジャーアップデートを発表しました。今回の更新で新たに追加されたのは画像処理機能です。これにより、ユーザーはプログラミングの知識なしに、スプレッドシート上で直接、画像の分析、情報抽出、生成、編集が可能になります。データ活用のハードルを劇的に下げる一歩と言えるでしょう。

これまでのAI Sheetsは、主にテキストデータの構造化や拡充に強みがありました。今回のアップデートで「ビジョン(視覚)サポート」が加わったことで、製品カタログの写真、領収書、図表といった画像に含まれる膨大な情報を、誰でも簡単に扱えるようになります。ワークフローを分断することなく、テキストと画像を同一の環境で処理できるのが最大の特長です。

具体的な活用例として、領収書からのデータ抽出が挙げられます。複数の領収書の画像をアップロードし、「店名、日付、合計金額を抽出」といった簡単な指示を与えるだけで、自動的にデータが整理されます。手書きのレシピをデジタル化し、検索可能なデータベースにすることも可能です。人の手によるデータ入力作業を大幅に削減します。

コンテンツ制作の現場でも強力なツールとなります。例えば、SNS投稿の企画案が並ぶスプレッドシートで、「ヘルシーなレシピの美味しそうな写真」といった指示文から画像を直接生成できます。さらに「背景を木目調にして」といった指示で、生成した画像を編集することもでき、コンテンツ制作の全工程を一元管理できます。

これらの高度な機能は、Hugging Faceエコシステム上の数千に及ぶオープンなAIモデルによって支えられています。ユーザーは用途に応じて、処理速度と精度に優れた最新のモデルを簡単に切り替えて試すことが可能です。フィードバックを与えることで、モデルの出力精度をさらに高めることもできます。

この新しいAI Sheetsは、GitHubリポジトリから導入できるほか、インストール不要のウェブ版で誰でもすぐに試せます。画像という身近なデータをビジネス資産に変える強力な一手となり、データドリブンな意思決定コンテンツ制作の生産性向上に大きく貢献するでしょう。

NVIDIA、オープンソースAIで開発者エコシステムを主導

PyTorchとの連携強化

急成長AIフレームワークPyTorch
CUDAにPythonを第一級言語として追加
開発を容易にするCUDA Pythonを公開
1日200万DL超の人気を支える

オープンソースへの貢献

Hugging Faceへの貢献でトップに
1000超のツールをGitHubで公開
500以上のモデルと100以上のデータセット
AIイノベーションの加速と透明性確保

NVIDIAは、開催中の「Open Source AI Week」において、オープンソースAIのエコシステム強化に向けた新たな取り組みを発表しました。急成長するAIフレームワークPyTorchとの連携を深め、開発者NVIDIAGPUをより容易に活用できるツールを公開。AIイノベーションの加速と、開発者コミュニティへの貢献を鮮明に打ち出しています。

今回の発表の核心は、NVIDIAの並列コンピューティングプラットフォーム「CUDA」に、プログラミング言語Pythonを第一級言語として正式対応させた点です。これにより、世界で数百万人に上るPyTorch開発者コミュニティは、GPUアクセラレーションの恩恵をこれまで以上に簡単に受けられるようになり、生産性の飛躍的な向上が期待されます。

具体的には「CUDA Python」がGitHubとPyPIを通じて公開されました。これはカーネルフュージョンやパッケージングを簡素化し、迅速なデプロイを可能にします。1日200万回以上ダウンロードされるPyTorchの人気を背景に、NVIDIAの基盤技術がAI開発の現場で不可欠な存在であり続けることを示しています。

NVIDIAの貢献はPyTorchに留まりません。同社はAIモデル共有プラットフォーム「Hugging Face」において、過去1年で最大の貢献者となりました。GitHubでは1,000以上のオープンソースツールを公開するなど、モデル、ツール、データセットを広く提供し、透明性の高いAI開発を推進しています。

一連の取り組みは、オープンな協業を通じて技術革新を主導するというNVIDIAの強い意志の表れです。自社の強力なハードウェアと、活発なオープンソースコミュニティを結びつけることで、AIエコシステム全体の発展を促し、業界におけるリーダーシップをさらに盤石なものにする狙いがあるでしょう。

ソブリンAI、米中技術覇権の新たな主戦場に

米国のソブリンAI戦略

OpenAIが各国政府と提携
国家によるAI統制を支援
非民主主義国との連携に懸念も

中国のオープンソース攻勢

Alibabaのモデルは3億DL超
来年には米国を凌駕する可能性

真のAI主権をめぐる論点

主権にはオープンソースが必須との声
クローズドとオープンの両立も可能

OpenAIをはじめとするテクノロジー企業が、「ソブリンAI」の構築支援を各国で進めています。ソブリンAIとは、各国が自国の管理下でAIインフラを開発・運用する能力を指し、米中間の技術覇権争いの新たな主戦場となりつつあります。米国が同盟国との連携を深める一方、中国オープンソースモデルで世界的な影響力を急速に拡大しています。

OpenAIはアラブ首長国連邦(UAE)などの政府と提携し、大規模なデータセンター建設を含むソブリンAIシステム構築を支援しています。この動きは米国政府とも連携しており、同盟国が中国の技術に依存するのを防ぐという戦略的な狙いがあります。米国の技術を世界に普及させることで、地政学的な優位性を確保しようとしています。

しかし、UAEのような非民主主義国との提携には懸念の声も上がっています。かつて米国は、経済的な関与が中国の民主化を促すと期待しましたが、結果的に権威主義体制を強めることになりました。AI技術の提供が同様の結果を招かないか、過去の教訓が問い直されています。OpenAIは政府からの要請があっても情報検閲は行わないと明言しています。

対する中国は、オープンソース戦略で猛追しています。AlibabaやTencent、DeepSeekといった企業が公開した高性能な基盤モデルは、世界中で広く採用されています。特にAlibabaの「Qwen」ファミリーは3億回以上ダウンロードされ、日本を含む各国のスタートアップが自国語対応モデルの開発基盤として活用しています。

オープンソースAIモデルをホストするHugging FaceのCEOは、「真の主権はオープンソースなしにはあり得ない」と指摘します。モデルの内部を完全に検証・制御できるためです。中国企業はこの戦略により驚異的な速さで技術力を向上させ、5年前の遅れを取り戻し、今や米国と互角のレベルに達したと分析されています。

AIの国家主権をめぐる競争は、クローズドモデルを推進する米国勢と、オープンソースで勢力を拡大する中国勢という構図を呈しています。OpenAIは両アプローチの共存が可能との見方を示していますが、どちらが次世代のグローバルスタンダードを握るのか。この動向は、各国の事業戦略を左右する重要な要素となるでしょう。

AIで直感開発、新エンジンVibeGame登場

「Vibe Coding」の課題

AIに頼る直感的なゲーム開発
プロジェクト肥大化で性能が低下
既存エンジンはAIとの相性難

VibeGameの設計思想

Web技術の高いAI親和性を基盤に
Robloxのような高い抽象度を実現
AIが理解しやすい宣言的な構文を採用
柔軟なECSアーキテクチャ

現状と今後の可能性

基本機能で良好な結果を確認
複雑な機能は今後実装予定

AIプラットフォームのHugging Faceが、AI支援によるゲーム開発に特化した新オープンソースエンジン「VibeGame」を発表しました。これは、AIとの対話で直感的に開発を進める「Vibe Coding」の課題を解決するものです。Web技術のAI親和性と、高レベルな抽象化を両立させることで、開発者コーディングの詳細から解放され、創造的な作業に集中できる環境を目指します。

Vibe Coding」とは、AIを高レベルなプログラミング言語のように扱い、細かな実装をAIに任せる開発スタイルを指します。この手法は初期段階では有効ですが、プロジェクトが大規模化するとAIが文脈を把握しきれなくなり、性能が著しく低下するという課題がありました。特にゲーム開発では、このコンテキスト管理が成功の鍵を握ります。

開発チームは既存プラットフォームの比較検討から始めました。Robloxは抽象度が高いものの閉鎖的で、Unityは複雑すぎてAIが混乱しがちでした。一方、Web技術はAIの習熟度が高い反面、ライブラリが低レベルで、ゲームエンジン自体の構築から始める必要がありました。それぞれに一長一短があったのです。

そこでVibeGameは、両者の「良いとこ取り」を目指しました。AIが最も得意とするWeb技術(three.jsなど)を基盤としながら、Robloxのような高レベルな抽象化を提供します。これにより、開発者は「地面とボールを配置して」と指示するだけで、物理演算を含むシーンを簡単に生成できます。

VibeGameの核心は3つの設計思想にあります。第一に、物理演算などを内蔵した高い抽象度。第二に、AIが容易に理解・生成できるHTML風の宣言的構文。そして第三に、拡張性に優れたECSアーキテクチャです。これらが組み合わさることで、AIとの円滑な共同作業が初めて可能になります。

VibeGameはまだ初期段階にあり、対応するのは基本的な物理演算やレンダリングに留まります。しかし、簡単なゲーム開発のテストでは非常に良好な結果を示しました。今後は、インベントリ管理やマルチプレイヤー機能など、より複雑なメカニクスの実装を進め、本格的なゲーム開発への対応を目指していく計画です。

この新しいエンジンは、AIを単なるツールではなく「共同開発者」として扱う未来を示唆しています。経営者エンジニアにとって、VibeGameのような技術が開発プロセスをいかに変革し、生産性を劇的に向上させる可能性があるか、注目に値するでしょう。

DeepSeek、APIコスト半減の新AIモデル発表

APIコストを半減する新技術

長い文脈での推論コスト削減
APIコストが最大で半減
新技術「スパースアテンション」
実験モデル「V3.2-exp」を公開

効率化を実現する2段階選択

まず重要部分を抜粋・優先順位付け
次に抜粋内からトークンを選択
サーバー負荷を大幅に軽減
Hugging Faceで利用可能

中国のAI企業DeepSeekは29日、新しい実験的AIモデル「V3.2-exp」を発表しました。このモデルは「スパースアテンション」と呼ばれる新技術を搭載しており、長い文章や大量のデータを処理する際の推論コスト(APIコスト)を最大で半減させる可能性を秘めています。AIの運用コスト削減は業界全体の課題であり、今回の発表は大きな注目を集めています。

新技術の核心は、処理情報を効率的に絞り込む2段階の仕組みです。まずシステムが入力文から重要部分を抜粋し、次にその中から処理に必要な最小限のトークンを選択します。この選択と集中のアプローチにより、関連性の低い情報処理を省略し、サーバー負荷を大幅に軽減するのです。

AIモデルの運用コスト、特に「推論コスト」の削減は、AIサービスを普及させる上で極めて重要です。今回の試みは、AIの基本構造であるTransformerアーキテクチャの効率化を目指すもの。特に大量の文書読解や複雑な対話など、長い文脈を扱う応用でのコストメリットは計り知れません。

この「V3.2-exp」モデルはオープンウェイトとして、開発者プラットフォームのHugging Faceで既に公開されています。誰でも自由に利用し、その性能を検証できるため、DeepSeekが主張するコスト削減効果が実証される日も近いでしょう。今後、第三者による客観的な評価やさらなる改良が期待されます。

DeepSeek中国に拠点を置く企業で、年初には独自の学習手法を用いたモデルで業界を驚かせました。今回の発表は、米中間の技術競争という側面だけでなく、AI業界全体のコスト効率化という共通課題に対する一つの解を示した点で意義深いと言えます。この技術が米国の主要プロバイダーにも影響を与える可能性があります。

Hugging Face、Apple向けAIライブラリv1.0を公開

Apple開発者向けAIツール

ローカルLLMのアプリ統合を簡素化
Tokenizer, Hubなど必須機能を提供
Core MLやMLXを補完する設計

v1.0の進化点

パッケージの安定性向上とAPI整理
モジュール分割による依存性削減
最新Core ML APIとSwift 6に対応

今後のロードマップ

MLXフレームワークとの連携深化
エージェント型ユースケースの探求

AIプラットフォームのHugging Faceが、Apple製品開発者向けライブラリ「swift-transformers」のバージョン1.0を公開しました。本ライブラリは、iPhoneなどのデバイス上でローカルにAIモデルを動作させる際の技術的ハードルを下げ、アプリへの組み込みを容易にすることを目的としています。

swift-transformersは、AppleのCore MLやMLXといった機械学習フレームワークを補完する重要な機能群を提供します。具体的には、複雑なテキスト入力を処理する「Tokenizers」、Hugging Face Hubからモデルを管理する「Hub」、Core ML形式モデルの推論を簡素化する「Models」と「Generation」が中核をなします。

すでに、Apple自身のサンプル集「mlx-swift-examples」や、高性能な音声認識フレームワーク「WhisperKit」など、多くのプロジェクトで採用されています。これにより、AppleエコシステムにおけるオンデバイスAI開発の基盤技術としての地位を確立しつつあると言えるでしょう。

今回のv1.0リリースは、ライブラリの安定性を公式に保証する初のメジャーアップデートです。主要な変更点には、必要な機能だけを導入できるモジュール分割や、最新のCore ML APIへの対応、そしてSwift 6への完全準拠が含まれます。開発者はより安心して長期的なプロジェクトに採用できます。

Hugging Faceは今後の展望として、Apple機械学習フレームワーク「MLX」との連携強化を掲げています。さらに、自律的にタスクを処理する「エージェント」のような、より高度なユースケースの実現も視野に入れており、オンデバイスAIの新たな可能性を切り拓くことが期待されます。

NVIDIA、AIモデル群Nemotronを無償公開 開発加速へ

NVIDIAは9月24日、マルチモーダルAIモデルファミリー「Nemotron」をオープンソースとして公開しました。NemotronにはAIモデル、データセット、開発ツール群が含まれ、研究および商用目的で利用可能です。GitHubなどを通じて提供され、開発者は透明性の高いAIを迅速に構築できます。これにより、あらゆる規模の企業でAI開発の加速が期待されます。 Nemotronは、AI開発の全段階を効率化するオープンソース技術群です。大学院レベルの科学的推論や高度な数学コーディングに優れた最先端のAIモデルが含まれます。さらに、モデルの学習に使われたデータセットや、AIを高速かつ低コストで実行するための数値精度アルゴリズムなども提供されます。 なぜNVIDIAはオープンソース化に踏み切ったのでしょうか。それは、広範な問題解決を可能にする「汎用知能」と、各業界特有の課題に対応する「特化知能」の両方を向上させるためです。同社はNemotronを通じて、あらゆる産業でAIの導入を大規模に推進することを目指しています。 既に多くの企業がNemotronの活用を進めています。例えば、セキュリティ企業のCrowdStrikeは、AIエージェントエコシステム強化に利用しています。また、DataRobotはNemotronを基に、より高速でコスト効率の高い推論モデルを開発するなど、具体的な成果が出始めています。 NVIDIAはNemotron開発で得た知見を次世代GPUの設計に活かす一方、コミュニティの技術も積極的に取り入れています。Alibabaの「Qwen」やMetaの「Llama」といったオープンモデルの技術を活用し、Nemotronのデータセットや機能を強化するなど、エコシステム全体での発展を目指しています。 開発者GitHubHugging Face、OpenRouterを通じてNemotronを利用開始できます。NVIDIA RTX PCユーザーはllama.cppフレームワーク経由でのアクセスも可能です。同社は今後もイベントなどを通じて、開発者コミュニティとの連携を深めていく方針です。

Hugging Face、軽量AIでGUI操作エージェント開発手法を公開

AIプラットフォームのHugging Faceは2025年9月24日、軽量な視覚言語モデル(VLM)をGUI操作エージェントに進化させる新手法「Smol2Operator」を公開しました。この手法は2段階のファインチューニングを通じて、モデルに画面要素の認識能力と複雑なタスクの計画・実行能力を付与します。同社はGUI自動化技術の発展を促進するため、訓練手法やデータセット、モデルを全てオープンソース化し、開発の再現性を高めています。 GUI操作AIの開発では、データセットごとに操作の記述形式が異なり、統一的な学習が困難でした。この課題に対し、同社は多様なデータ形式を標準化された一つのアクション空間に変換するパイプラインを開発。これにより、様々なデータソースを一貫してモデル訓練に活用できるようになりました。企業の開発者は、独自の操作体系に合わせてデータセットを容易に変換できます。 訓練の第1段階では、モデルにGUI上の要素を正確に認識・特定する「グラウンディング能力」を付与します。「ボタンをクリックする」といった低レベルの指示と、画面上の座標を含む実行コードを対にしたデータで学習させ、モデルが画面を「見る」能力の基礎を築きます。これにより、AIは指示された対象を正確に特定できるようになります。 第2段階では、モデルに思考力と計画能力を植え付けます。より高レベルで複雑な指示に対し、次の行動を思考し、複数のステップに分解して実行するデータで訓練します。これにより、モデルは単なる要素認識から、主体的にタスクを遂行するエージェントへと進化し、より複雑な業務自動化への道を開きます。 この2段階訓練により、SmolVLM2-2.2Bという比較的小規模なモデルでも、GUI要素の認識ベンチマークで高い性能を達成しました。同社は、この成果の再現性を担保するため、データ処理ツール、統一されたデータセット、訓練済みモデルを全て公開しており、誰でも追試や応用開発が可能です。 今後の展望として、教師あり学習(SFT)だけでなく、強化学習(RL)や直接選好最適化(DPO)といった手法の活用が挙げられています。これらの手法により、エージェントが静的なデータから学ぶだけでなく、実環境でのインタラクションを通じて学習・改善する、より高度な能力の獲得が期待されます。

Hugging Face、Public AIを推論プロバイダーに追加

AIプラットフォームのHugging Faceは、非営利オープンソースプロジェクト「Public AI」を新たにサポート対象の推論プロバイダーとして追加したと発表しました。これによりユーザーは、Hugging Face HubのモデルページやクライアントSDKから直接、Public AIが提供する推論機能を利用できます。スイスAIイニシアチブのような公的機関が開発したAIモデルへのアクセスを容易にし、選択肢を広げることが狙いです。 Public AIは、公的機関によるAIモデル開発を支援する非営利・オープンソースプロジェクトです。今回の提携で、同プロジェクトが提供する推論ユーティリティがHugging Faceエコシステムに統合され、サーバーレス推論の選択肢が大きく広がりました。ユーザーはより多様なモデルを試せるようになります。 Public AIの推論基盤は、vLLMを採用したバックエンドと、複数のパートナーにまたがる分散型インフラで構成されています。これにより高い耐障害性を実現。グローバルな負荷分散層が、どの国の計算資源を利用しているかに関わらず、リクエストを効率的かつ透過的に処理します。 では、具体的にどのように利用できるのでしょうか。ユーザーはHugging Faceのモデルページに表示されるウィジェットから直接選択したり、アカウント設定で優先プロバイダーとして設定したりできます。また、PythonやJavaScriptのクライアントSDKにも統合されており、数行のコードで利用を開始できます。 現時点では、Hugging Face経由でのPublic AIの利用は無料です。ただし、将来的には価格や提供条件が変更される可能性があります。他のプロバイダーと同様に、Hugging Face経由で利用する場合の料金は、追加手数料なしでプロバイダーのコストがそのまま請求される仕組みです。 今回の提携は、開発者にとって公的機関や国家主導で開発された信頼性の高いAIモデルへのアクセスを容易にします。特に、主権AI(Sovereign AI)への関心が高まる中、多様なモデルを低コストで試せる環境が整ったことは、新たなアプリケーション開発の追い風となるでしょう。

AIリスク評価の新標準、Hugging Faceらが「RiskRubric.ai」を公開

AIプラットフォームのHugging Faceには50万を超えるモデルが存在しますが、その安全性を体系的に評価する方法はこれまでありませんでした。この課題を解決するため、同社はCloud Security Allianceなどと協力し「RiskRubric.ai」を立ち上げました。この構想は、AIモデルのリスクを標準化し、透明性の高い評価を提供することで、エコシステム全体の信頼性を高めることを目的とします。 評価は「透明性」「信頼性」「セキュリティ」など6つの柱に基づきます。各モデルは、1000以上の信頼性テストや200以上の敵対的セキュリティ調査など、自動化された厳格なテストを受けます。その結果は0から100のスコアとAからFの等級で明確に示され、発見された脆弱性や具体的な改善策も提供されるため、開発者はモデル選定の参考にできます。 実際にオープンモデルと商用モデルを同一基準で評価したところ、興味深い傾向が明らかになりました。まず、リスク分布は二極化しており、多くのモデルが安全な一方、性能の低いモデルも一定数存在します。これは「平均的なモデルが安全である」という思い込みが危険であることを示唆しており、組織は導入時に最低限の安全基準を設ける必要があります。 モデルによる評価のばらつきが最も大きかったのは、有害コンテンツの生成防止などを含む「安全性」の項目でした。重要なのは、セキュリティ対策を強化しているモデルほど、この安全性の評価も高くなる傾向が見られたことです。これは、技術的なセキュリティ投資が、社会的なリスクを低減させる上で直接的な効果を持つことを物語っています。 一方で、安全性を高めるための厳格な保護機能(ガードレール)が、逆に透明性を損なう可能性も指摘されています。例えば、モデルが理由を説明せず応答を拒否すると、利用者はシステムを「不透明だ」と感じかねません。セキュリティを確保しつつ、利用者の信頼を維持するためのバランス設計が今後の課題と言えるでしょう。 このようにリスク評価を標準化し公開することは、コミュニティ全体での安全性向上に繋がります。開発者は自らのモデルの弱点を正確に把握でき、他の開発者も修正や改善に貢献できます。Hugging Faceらは、こうした透明性の高い改善サイクルこそが、AIエコシステム全体の信頼性を高める鍵だと強調しています。

Hugging Face、仏Scalewayを推論プロバイダーに統合しAI利用の選択肢拡大

統合の核心と利点

Scalewayを新たな推論プロバイダーに追加。
gpt-ossQwen3など人気モデルへ容易にアクセス。
モデルページからサーバーレスで即時推論可能。
ウェブUIとクライアントSDKからシームレス利用。

Scalewayの技術的強み

欧州データセンターによるデータ主権と低遅延。
トークンあたり€0.20からの競争的価格
構造化出力、ファンクションコーリングに対応。
高速応答(200ms未満)を実現。

柔軟な課金体系

カスタムキー利用でプロバイダーに直接請求
HF経由の請求は追加マークアップなし
PROユーザーは毎月2ドル分の推論クレジット付与。

Hugging Faceは、フランスのクラウドプロバイダーであるScalewayを新たな「Inference Provider(推論プロバイダー)」としてハブに統合しました。これにより、経営者エンジニアgpt-ossQwen3などの人気オープンウェイトモデルを、Scalewayの提供するフルマネージドなサーバーレス環境で利用可能になります。この統合は、AIモデルのデプロイと利用の柔軟性を高め、特に欧州におけるデータ主権への要求に応えるものです。

Scalewayが提供するのは「Generative APIs」と呼ばれるサーバーレスサービスであり、トークンあたり0.20ユーロ/100万トークンからという競争力のある従量課金制が特徴です。ユーザーはシンプルなAPIコールを通じて、最先端のAIモデルにアクセスできます。この手軽さとコスト効率は、大規模な本番環境での利用を検討する企業にとって大きなメリットとなります。

インフラストラクチャはパリの欧州データセンターに置かれており、欧州の利用者に対してデータ主権の確保と低遅延の推論環境を提供します。応答速度はファーストトークンで200ミリ秒未満を達成しており、インタラクティブなアプリケーションやエージェントワークフローへの適用に最適です。テキスト生成とエンベディングモデルの両方をサポートしています。

Scalewayのプラットフォームは高度な機能にも対応しています。具体的には、応答形式を指定できる構造化出力や、外部ツール連携を可能にするファンクションコーリング、さらにマルチモーダル処理能力を備えています。これにより、より複雑で実用的なAIアプリケーションの開発が可能になります。

利用者は、HFのウェブサイトUIだけでなく、PythonやJavaScriptのクライアントSDKからシームレスに推論を実行できます。課金方式は二通りあり、ScalewayのAPIキーを使う場合は直接プロバイダーに請求されます。HF経由でルーティングする場合は、HFによる追加のマークアップは発生しないため、透明性が高い価格で利用できます。

Hugging FaceのPROプランユーザーには、毎月2ドル分の推論クレジットが特典として提供されます。このクレジットは、Scalewayを含む複数のプロバイダーで横断的に使用可能です。本格的な商用利用や高いリミットが必要な場合は、PROプランへのアップグレードが推奨されています。

Hugging Face、ロボット学習用データの大規模ストリーミングに対応

V3.0の主要機能

数百万エピソード対応のスケーラビリティ向上
大容量データをダウンロード不要で処理可能
複数エピソードを単一ファイルに集約(ファイル数削減)
関係メタデータによるエピソード単位の検索

ロボティクスデータ対応

センサー運動、複数カメラフィードなどに対応
PyTorchとのシームレスな統合
時系列データを扱うためのネイティブなウィンドウ操作
実機からシミュレーションまで広範にサポート

Hugging Faceは、ロボット学習向けデータセットフォーマット「LeRobotDataset:v3.0」をリリースしました。これは、数百万エピソードに及ぶ超大規模なロボティクスデータの取り扱いを根本的に改善するものです。旧バージョンで課題だったファイルシステムの制約を克服し、大容量データをディスクにダウンロードせずに処理できるストリーミング機能にネイティブ対応しました。この進化は、ロボティクス分野におけるAI学習の民主化を大きく加速します。

V3.0の最大の設計上の変更点は、スケーラビリティの確保です。従来、エピソードごとにファイルを保存していたため、エピソード数が増加するとファイルシステムに過大な負荷がかかっていました。新フォーマットでは、複数のエピソードを単一のファイルに集約し、リレーショナルメタデータを用いてエピソード単位の情報を効率的に検索します。これにより、大規模データセットの管理が大幅に簡素化されました。

新たに導入されたストリーミング機能は、ロボット学習のアクセシビリティを劇的に向上させます。専用の`StreamingLeRobotDataset`インターフェースを利用することで、ユーザーはテラバイト級のデータをローカルにダウンロードすることなく、Hugging Face Hubから直接データバッチをオンザフライで処理できます。これは、特にリソースが限られた環境での研究開発に貢献します。

データは効率的な構造で保存されます。低次元のセンサーデータやアクションはApache Parquetファイルに、大量のカメラ映像はMP4ファイルに連結・エンコードされます。また、本フォーマットはHugging FaceとPyTorchのエコシステムに統合されており、ロボット学習特有の時系列データのウィンドウ処理(過去の観測のスタック)をネイティブにサポートしている点も特徴的です。