AI Times｜2025年12月12日の生成AI・LLMニュース

CodexでSora Androidを28日で開発

2025年12月12日 Google OpenAI Sora Android iOS Codex ワークフロー動画生成 GPT-5 エンジニア品質保証動画コーディングコードレビューエージェントコンテキスト

わずか4人のチームが実現した高速リリース

4人のエンジニアがCodexと並走し28日で本番リリース

GPT-5.1-Codexモデルを使用、誰でも利用可能な同バージョン

Play Storeで初日1位、24時間で動画生成100万件超

クラッシュフリー率99.9%の高品質を維持

コード全体の約**85%**をCodexが生成

iOSコードをKotlinへ意味保持で翻訳、クロスプラットフォーム開発を代替

Codexを最大活用するための実践的ワークフロー

AGENT.mdでアーキテクチャ方針を明文化しセッション間の一貫性を確保

まず理解・計画フェーズを経てから実装を依頼する手順が安定稼働の鍵

複数セッションを並列実行し、playback・search・エラー処理を同時進行

大規模タスクでは計画書をファイル保存してコンテキスト超過に対処

コードレビューにもCodexを活用し、マージ前のバグ検出に貢献

ボトルネックはコード執筆からアーキテクチャ判断・フィードバックへ移行

詳細を見る

OpenAIのエンジニアリングチームは、AIコーディングエージェント「Codex」を活用し、SoraのAndroidアプリをわずか28日で開発・グローバルリリースしました。投入したエンジニアはわずか4名であり、従来の開発常識を大きく覆す成果となっています。

使用したモデルはGPT-5.1-Codexの早期版であり、現在は誰でも利用できるバージョンと同一です。リリース初日にGoogle Play Storeで1位を獲得し、Androidユーザーは24時間で100万本以上の動画を生成しました。クラッシュフリー率は99.9%を維持しており、品質面でも従来型の開発プロセスと遜色ありません。

開発全体を通じてコードの約85%をCodexが生成しました。チームはアーキテクチャ設計・依存性注入・ナビゲーション構造などの基盤を自ら実装し、その上でCodexにパターンを学習させる方針を採りました。「動くものを速く作る」のではなく「我々のやり方で動くものを作る」という考え方が成功の核心です。

Codexを安定運用するうえで重要だったのは、AGENT.mdファイルへのスタイルガイドやパターンの明文化です。セッションをまたいで同じ指針を適用できるため、複数の並列タスクが同一のコーディング規約に従って進行しました。

実装前に理解・計画フェーズを設けるワークフローも効果的でした。Codexに関連ファイルを読ませてデータフローを説明させ、チームが認識を修正したうえで設計書を作成し、その計画に沿って実装を指示する手順により、長時間の無監視実行が可能になりました。

また、iOSの既存コードベースをKotlinへ翻訳する作業にもCodexを活用しました。アプリケーションロジックはSwiftでもKotlinでも本質的に同じであり、Codexが意味を保持したまま変換することで、クロスプラットフォームフレームワーク不要の開発スタイルが実現しました。

OpenAIの内部では、Codex自体の開発にもCodexが活用されており、「CodexのほぼすべてがCodexで構築されている」とプロダクトリードが明かしています。AI支援開発はツールの改善にも帰還的に適用される段階に達しています。

今回の事例は、AI支援開発がエンジニアの仕事を省力化するのではなく、アーキテクチャ設計・意思決定・品質管理といった高付加価値の業務に集中させる方向へシフトさせることを示しています。明日のソフトウェアエンジニアに求められるのは、深いシステム理解とAIとの長期的な協働能力です。

出典：OpenAI公式 | Ars Technica

MITが小型LM協調推論フレームワーク「DisCIPL」発表

2025年12月12日 Meta 数学 GPT-4 Llama 推論推論モデル MIT

仕組みと特徴

大型LLMがプランナー、複数の小型LMが並列で実行する協調型フレームワーク

確率的プログラミング言語「LLaMPPL」でルールをコード化し制約を正確に伝達

GPT-4oがプランナー、Meta製Llama-3.2-1Bモデル群がフォロワーとして動作

推論をテキストではなくPythonコードで表現し処理を大幅に圧縮

理論上は規模を問わず数十台のLMを並列接続可能なスケーラブル設計

フォロワーモデルは主力推論モデルと比べ1,000〜10,000倍安価なトークン単価

性能とコスト優位性

o1比で推論長を**40.1%短縮**、コストを**80.2%削減**する高効率を実証

文字数・単語配置などの厳格な制約付きライティングでo1に匹敵する精度を達成

旅行プラン・食材リスト・助成金申請など実務タスクでもGPT-4oを上回る成績

小型LM単独ベースラインは全タスクで最下位となり協調設計の有効性を裏付け

Conference on Language ModelingおよびIVADOワークショップで発表済み

今後は完全再帰型・数学的推論・ファジー制約への拡張を計画

詳細を見る

MITのCSAIL研究チームは、大型言語モデルと小型言語モデルを組み合わせた新しい推論フレームワーク「DisCIPL」を発表しました。同フレームワークは、大型モデルが計画を立案し、その指示を小型モデル群に分配して並列処理させるという分業構造を採用しています。

DisCIPLの核心にあるのは、MITの確率的コンピューティングプロジェクトが2023年に開発したプログラミング言語「LLaMPPL」です。このツールを使うことで、大型モデルは制約条件をコードとして正確に小型モデルへ伝えることができます。

実験では、GPT-4oをプランナーとして採用し、MetaのLlama-3.2-1Bモデルを複数のフォロワーとして組み合わせました。このチームがGPT-4o単体やo1といった最先端モデルと比較評価されました。

コスト面での優位性は顕著です。o1と比べて推論の長さを40.1%、コストを80.2%削減できることが確認されました。フォロワーとして使う小型モデルのトークン単価が主力推論モデルの1,000〜10,000分の1である点が効率化の主要因です。

精度においても、指定した位置に特定の単語を含む文章生成など厳格な制約付きタスクでo1に匹敵する結果を示しました。旅行日程の作成や字数制限付き文書の作成といった実務的なタスクでもGPT-4oを上回る成績を収めています。

研究チームは今後、同一モデルをリーダーとフォロワーの両方に使う完全再帰型アーキテクチャへの発展を目指しています。また、数学的推論タスクや、コードで明示的に表現しにくいファジーな好みへの対応も検討しています。

出典：MIT News

トランプ大統領、州のAI規制を排除する大統領令に署名

2025年12月12日専門家創業者投資家リスクインフラ米国シリコンバレースタートアップ医療暗号資産投資 Intel トランプ

大統領令の主な内容

連邦一元化を目指すAI規制方針

司法省タスクフォースによる州法への法的挑戦

コロラド州法を名指しで問題視

BEAD補助金失格リスクで州を牽制

業界と専門家の反応

法的不確実性がスタートアップを直撃

大手テック有利・中小不利の構図

連邦議会での包括立法を求める声

デービッド・サックス主導への批判

詳細を見る

2025年12月12日（木）夜、ドナルド・トランプ米大統領はホワイトハウスで大統領令「Ensuring a National Policy Framework for Artificial Intelligence」に署名しました。ホワイトハウスのAI・暗号資産担当顧問デービッド・サックス氏が立ち会う中、全米で乱立するAI関連州法を連邦政府が一元的に管理するための行動を指示する内容です。

大統領令は、連邦政府が「米国のAI世界覇権を維持・強化する」という政策目標のもと、それと矛盾する州法を「負担の重いもの」と判断した場合、司法省が30日以内に訴訟タスクフォースを設置して法的に挑戦することを定めています。またFTC・FCCに対しても、州法に優先する連邦基準の策定を検討するよう求めています。

令が特に名指ししたのはコロラド州のSB24-205で、AIシステムによる「アルゴリズム差別」から消費者を守ることを義務付けた法律です。大統領令はこの法が「AIモデルに虚偽の結果を生成させる可能性がある」と主張し、州法が州外にまで規制を及ぼすことで州際通商を侵害していると批判しました。

商務省には署名から90日以内に「負担の重い」州AI法のリストを作成し、連邦ブロードバンド補助金（BEADプログラム）の支給適格性に影響しうる州を特定するよう指示されました。これは財政的な圧力を通じて州の立法活動を抑制しようとする狙いがあります。

一方で大統領令には第8条に「子どもの安全」「AIインフラ整備」「州政府自身によるAI利用」など、連邦の排除対象に含まれない「適法な州AI法」の例外規定が設けられていますが、その範囲は意図的に曖昧に書かれており、今後の解釈次第では広く適用される可能性があります。

法律専門家や業界関係者からは、大統領令そのものが州の消費者保護法を無効にするわけではなく、むしろ長期にわたる法廷闘争を引き起こすとの懸念が上がっています。LexisNexis北米CEOのショーン・フィッツパトリック氏は、州は連邦裁判所で消費者保護権限を守るために争い、最終的には最高裁まで争う可能性があると指摘します。

スタートアップへの影響も深刻です。AIガバナンス企業Trustibleの共同創業者アンドリュー・ガミノ＝チョン氏は「ビッグテックや大手AIスタートアップは弁護士費用を賄える資金があるが、不確実性が最も傷つけるのはそれができない小規模なスタートアップだ」と述べ、法的な曖昧さが医療・金融・法務など規制に敏感な顧客への販売をさらに困難にすると警告しました。

批判派は、シリコンバレーの有力投資家でもあるサックス氏主導のこの大統領令を「テック大手を規制の責任から守るためのもの」と非難します。支持派も含め、多くの関係者が「大統領令は恒久的な国家的枠組みではない」として、連邦議会が包括的かつリスクベースの国内AI法を速やかに制定することを求めています。

出典：The Verge | TechCrunch | Ars Technica

GeminiネイティブオーディオがSearch Liveに初搭載

2025年12月12日 Google Gemini Android 検索エンジニア音声米国インドエージェントベンチマーク

音声 エージェント機能の3つの強化点

関数呼び出し精度が向上し、ComplexFuncBenchで業界最高の71.5%を達成

開発者指示への準拠率が84%から90%に改善し、出力の信頼性が向上

マルチターン会話で文脈取得能力が強化され、会話の一貫性が向上

Vertex AIで一般提供開始、Gemini APIではプレビュー提供中

ShopifyやUWMなど企業顧客がすでにビジネス成果を報告

Search Liveに初めてネイティブオーディオが統合され、より自然な検索体験を実現

リアルタイム音声翻訳機能の提供開始

70言語・2000言語ペアに対応したライブ音声翻訳機能を新たに搭載

話者のイントネーション・速度・声の高さを保持した自然な翻訳を実現

複数言語を同時に認識し、言語設定の手動変更が不要な自動検出に対応

ノイズ除去機能により屋外など騒がしい環境でも快適に利用可能

Googleの翻訳アプリでベータ版として提供開始（Android：米国・メキシコ・インド）

2026年にはGemini APIを含む他のGoogleプロダクトにも展開予定

詳細を見る

Googleは2025年12月12日、Gemini 2.5 Flash ネイティブオーディオのアップデートを発表し、音声エージェントの機能を大幅に強化しました。

今回のアップデートでは、関数呼び出しの信頼性向上、複雑な指示への対応強化、マルチターン会話品質の改善という3つの主要な改善が実施されました。

複数ステップの関数呼び出しを評価するComplexFuncBenchオーディオベンチマークでは、Gemini 2.5 ネイティブオーディオが業界最高スコアの71.5%を記録しました。

開発者の指示への準拠率は従来の84%から90%に向上し、出力の完全性に関するユーザー満足度が高まっています。

Gemini 2.5 Flash ネイティブオーディオはVertex AIで一般提供が開始され、Google AI StudioおよびGemini APIでもプレビュー利用が可能になりました。

Shopifyは「1分以内にAIと話していることを忘れる」と述べ、UWMは14,000件以上のローン生成を達成するなど、企業での導入成果が報告されています。

また、Googleの検索機能であるSearch Liveに初めてネイティブオーディオモデルが統合され、より流暢で表情豊かな音声応答が利用可能になりました。

新機能としてリアルタイム音声翻訳が追加され、70言語・2000言語ペアに対応したストリーミング翻訳が提供されます。

この翻訳機能は話者のイントネーションや速度を保持しながら自動言語検出を行い、イヤフォンを通じてリアルタイムに翻訳音声を提供します。

現在はAndroidデバイス向けにGoogleの翻訳アプリでベータ版として展開中であり、2026年中にGemini APIを含むさらなる製品への拡大が予定されています。

出典：Google公式 | Google公式

OpenAIが大手銀行2行と大規模なAI全社展開で提携強化

2025年12月12日 OpenAI ChatGPT アシスタント業務効率リスクセキュリティプライバシー米国提携エージェント

BBVAが12万人全従業員へChatGPT Enterprise導入を拡大

スペイン大手銀行BBVAがOpenAIと複数年の戦略的AI変革プログラムを締結

全世界25か国・12万人の従業員へChatGPT Enterpriseを展開（従来比10倍）

導入済み従業員の週平均3時間の業務削減・80%超が毎日利用

OpenAIモデルで構築したバーチャルアシスタント「Blue」を顧客向けに提供中

顧客がChatGPTを通じて直接銀行サービスを利用できる統合も検討

OpenAI専任チームと共同でAIネイティブ銀行への転換を加速

BNYが「AI for everyone, everywhere」をガバナンス基盤と共に実現

米国の大手金融機関BNYが社内AIプラットフォーム「Eliza」を構築・運用

125件超の本番AIユースケースを展開、2万人の従業員がエージェント開発に参加

契約レビューの所要時間を4時間から1時間へ75%短縮する成果を実証

全従業員の99%が生成AI研修を修了、文化的変革を組織全体で推進

データ活用審査委員会・AI公開審査委員会・企業AIカウンシルの3層ガバナンスを整備

ChatGPT Enterpriseのディープリサーチ機能でリスクモデリングや法務調査を強化

詳細を見る

スペインの大手銀行BBVAとOpenAIは、複数年にわたる戦略的AI変革プログラムの締結を発表しました。同プログラムでは、ChatGPT Enterpriseを全世界25か国・12万人の従業員に展開し、従来の導入規模を一気に10倍に拡大します。

BBVAはこれまで2024年5月から段階的にChatGPTの社内利用を進めてきました。まず3,300アカウントで試験導入し、次いで1万1,000人に拡大した結果、週平均3時間の業務効率化と80%超の毎日利用率という成果を確認しました。

今回の拡大展開では、セキュリティ・プライバシー管理機能や最新モデルへのアクセス、BBVA内部システムと連携した社内エージェント作成ツールが全従業員に提供されます。また専任チームによる構造化された採用モデルと研修プログラムも整備されます。

顧客向けには、OpenAIモデルで構築したバーチャルアシスタント「Blue」がすでに稼働しており、自然言語でカード・口座管理や問い合わせ対応を行っています。さらにChatGPTを通じて顧客が直接銀行サービスを利用できる統合も検討中です。

一方、米国の大手金融機関BNYは、ChatGPT登場直後から生成AIを全社規模で取り込む戦略を採用しました。中央集権型のAIハブを設立し、社内AIプラットフォーム「Eliza」を構築・展開することで、ガバナンスと革新性の両立を図っています。

BNYのElizaは現在125件超の本番ユースケースを支え、2万人の従業員がエージェント構築に参加しています。契約レビューを4時間から1時間へ短縮するアシスタントや、リスクシグナルを先読みするリスクインサイトエージェントなど、具体的な成果が出ています。

BNYのガバナンス体制は、データ活用審査委員会・AI公開審査委員会・企業AIカウンシルという3層構造で構成されます。Elizaのインターフェース内にタグ付け・テレメトリー・承認フロー・アクセス制御が組み込まれており、ガバナンスが業務フローに自然に統合されています。

全従業員の99%が生成AI研修を修了し、「Make AI a Habit Month」と題した1日7分の習慣化トレーニングにより、エージェント構築数が46%増加するなど文化的な変革も加速しています。

両行のケースは、金融という高度に規制された業界においても、大規模なAI全社展開が実現可能であることを示しています。OpenAIにとっては、規制産業における企業顧客の獲得と活用事例の蓄積が加速する重要なマイルストーンとなります。

出典：OpenAI公式 | OpenAI公式

AMD・スー CEOがAIチップ競争と中国輸出規制を語る

2025年12月12日 Google NVIDIA DeepSeek Gemini AI活用エコシステム推論半導体 GPU 安全保障 ASI 米国中国米中投資バブル

競争優位と市場観

AIチップ市場は「一強」ではなくCPU・GPU・ASICが共存する多様な生態系

NvidiaやGoogleを尊重しつつ**「正しいワークロードに正しいチップ」**がAMDの差別化軸

Gemini 3の台頭やDeepSeekなど技術の**常時リープフロッグ**がAI業界の特徴

10年以上の高性能技術投資がAMD横断的な強みを下支え

AIバブル懸念は過大評価であり需要継続を確信

速度こそが競争力の本質——「最速」を目指すことが戦略の核心

対中輸出規制と米国AI政策

MI308チップの中国輸出ライセンスを取得済み、**15%税は引き続き適用**

輸出規制は「日常業務の一部」として受け入れ、国家安全保障を最優先と明言

米AI技術のエコシステムを世界に広げることが長期的な競争力につながるとの見解

Lutnick商務長官ら現政権との**対話の速さと開放性**を高く評価

国立研究所と産業界の連携強化（Genesis Mission）を積極支持

米国主導のAIスタックを世界標準にすることが輸出政策の本来の目的

AIの現状と将来展望

個人利用頻度が3カ月で**10倍**に増加——実用段階に入ったと実感

「まだ正確性が不十分」——精度向上が最大の課題と率直に指摘

1年後には現在の想像を超えるAI活用が日常化すると予測

推論（インファレンス）市場の急拡大が計算資源需要の新潮流に

詳細を見る

WIREDが主催した「Big Interview」イベントで、AMDのCEOリサ・スー氏がシニアコレスポンデントのローレン・グード氏の取材に応じました。AIチップ業界の競争構造から米中輸出規制まで、幅広いテーマについて率直な見解を示しました。

スー氏はAIチップ市場について「一強」という概念を否定し、CPU・GPU・ASIC（カスタムチップ）が共存する多様な生態系が形成されると主張しました。Nvidiaやハイパースケーラー各社への敬意を示しつつ、AMDの差別化軸は「正しいワークロードに正しいチップを届ける」能力にあると語りました。

競合他社への直接的な言及を避けながらも、スー氏はAI業界の特性として技術が常時リープフロッグしている点を強調しました。DeepSeekの登場からGoogleのGemini 3の台頭まで、わずか1年間で話題が目まぐるしく変化していることを例に挙げ、単一の勝者が生まれない構造を説明しました。

対中輸出規制については、AMD製MI308チップの中国向け輸出ライセンスをすでに取得しており、米政府への15%課税はライセンス出荷のたびに適用され続けると明言しました。2024年12月時点の報道で変更があったとされる規制についても、同税は変わらず適用されるとスー氏は確認しています。

スー氏は米国AI政策について、現政権の対応速度と産業界との対話の開放性を高く評価しました。Lutnick商務長官やDavid Sacks氏ら政府関係者との連携が深まっており、国立研究所と産業界を結ぶ「Genesis Mission」など、科学・研究分野へのAI活用加速を支持する姿勢を見せました。

AIの現状については、個人的な利用頻度がわずか3カ月で10倍に増えたことを挙げ、日常の情報収集や準備作業での実用性を実感していると述べました。一方で精度の不足を最大の不満点として率直に語り、技術的なポテンシャルと現実のギャップを認識していることを示しました。

将来展望については、1年後には現在の想像を超えるAI活用が日常になると断言しました。推論（インファレンス）市場の急拡大が計算資源需要の新たな潮流を生んでいるとも指摘しており、訓練だけでなくインファレンス向けチップへの注力がAMD戦略の重要な柱であることを示唆しました。

出典：WIRED

GoogleがAIエージェントのコスト最適化フレームワークを発表

2025年12月12日 Google Gemini 検索推論コンプライアンスエージェントプロンプトコンテキスト

Budget TrackerとBATSの概要

GoogleとUC Santa Barbaraによる共同研究論文

LLMエージェントのツール使用予算を自律管理する新技術

シンプルなプラグイン型モジュール「Budget Tracker」の提案

予算残量を継続的にシグナルとして与え、戦略を動的調整

追加学習不要のプロンプトレベル実装

BrowseCompおよびHLE-Searchで複数モデルを用いて検証

BATSがもたらすコスト削減と性能向上

Budget Trackerだけで全体コストを31.3%削減、検索呼び出し40.4%減

包括的フレームワーク「BATS」が計画・検証モジュールを統合

Gemini 2.5 ProでBrowseCompの精度が12.6%→24.6%に向上

HLE-SearchでもReActの20.5%から27.0%へ大幅改善

BATSは同等精度を約23セントで達成、並列スケーリング比較の50セントを大幅下回る

デッドエンドへの無駄なツール呼び出しを事前に回避する仕組み

長期・大規模エンタープライズ用途（コードベース管理・デューデリジェンス等）への展開に期待

詳細を見る

GoogleとUC Santa Barbaraの研究者は、AIエージェントがツール呼び出しと計算リソースを効率的に使えるようにする新フレームワークを発表しました。

AIエージェントがウェブ閲覧などの外部ツールを呼び出す際、トークン消費・コンテキスト長・API費用が急増する問題が指摘されていました。

研究チームは、予算を意識させる信号がなければエージェントが行き詰まりのパスに多数のツール呼び出しを費やしてしまうと説明しています。

Budget Trackerはプロンプトレベルのプラグインとして動作し、追加学習なしでエージェントに残リソースを継続的に通知します。

実験の結果、Budget Trackerの導入だけで検索呼び出しが40.4%、ブラウズ呼び出しが19.9%、総コストが31.3%削減されました。

BATSはBudget Trackerに計画モジュールと検証モジュールを加えた包括的フレームワークで、予算に応じて掘り下げるか方針転換するかを動的に判断します。

BrowseComp벤치마ークでは、Gemini 2.5 Proを用いてReActの12.6%から24.6%へと精度が約2倍向上しました。

コスト面でも、BATSは23セント程度で従来の並列スケーリング手法（50セント超）と同等以上の精度を達成しています。

研究者らは「推論と経済性は不可分になる」と述べており、将来のモデルは価値を考慮した推論が求められると展望しています。

本技術は複雑なコードベース管理・競合調査・コンプライアンス監査など、長期にわたるエンタープライズ用途の実用化を加速させると期待されています。

出典：VentureBeat

Ai2、強化学習を延長したOLMo 3.1を公開

2025年12月12日 Qwen 数学推論強化学習 GPU コーディングベンチマーク Hugging Face Gemma

OLMo 3.1の概要と強化学習の延長

Ai2がOLMo 3.1をリリース、OLMo 3の後継として公開

OLMo 3.1 Think 32BとInstruct 32Bの2モデルを更新

Think 32Bは追加21日・224GPU規模でRLトレーニングを延長

AIMEで5点超、ZebraLogicで4点超など主要ベンチマークが大幅改善

Instruct 32Bは7Bモデルのレシピを32Bに適用して開発

現在はAi2 PlaygroundとHugging Faceで利用可能、API提供も予定

ベンチマーク性能とオープンソースへの取り組み

OLMo 3.1 ThinkはAIME 2025でQwen 3 32Bを上回る性能を記録

OLMo 3.1 InstructはGemma 3を上回る数学ベンチマーク結果を達成

32Bスケールのオープン命令調整モデルとして最高水準と主張

RL-Zero 7Bの数学・コーディングモデルも長期安定学習で更新

データ・コード・学習決定の完全な透明性を維持する方針を継続

OLMoTraceによる学習データ追跡ツールも引き続き提供

詳細を見る

アレン人工知能研究所（Ai2）は、オープンソース言語モデルファミリー「OLMo 3」のアップデート版となる「OLMo 3.1」を公開しました。前バージョンのリリース後も強化学習（RL）トレーニングを継続し、さらなる性能向上を実現しています。

OLMo 3.1 Think 32Bは、OLMo 3 Think 32BのRLトレーニングを追加21日間、224個のGPUを用いて延長することで開発されました。数学・推論・命令追従の各ベンチマークで大幅な改善が確認されています。

具体的な改善幅としては、AIMEで5点超、ZebraLogicで4点超、IFEvalで4点超、IFBenchで20点超の向上が報告されています。コーディングや複雑な多段階タスクの性能も向上しています。

OLMo 3.1 Instruct 32Bは、より小規模な7Bモデル向けの手法を大規模化することで構築されました。チャット、ツール利用、マルチターン対話に最適化された設計になっています。

ベンチマーク比較では、OLMo 3.1 ThinkがAIME 2025においてQwen 3 32Bを上回り、Gemma 27Bに近い性能を示しました。OLMo 3.1 InstructはGemma 3を数学ベンチマークで超えたとされています。

Ai2はデータ・コード・学習プロセスの完全な透明性を重視しており、企業や研究機関がモデルのデータ構成を把握・変更できる点を強調しています。OLMoTraceツールによるLLM出力と学習データの追跡機能も提供が続いています。

モデルはAi2 PlaygroundおよびHugging Faceで即時利用可能であり、API経由のアクセスも近日中に提供予定とされています。また、数学・コーディング向けのRL-Zero 7Bモデルも今回の更新で改善されています。

出典：VentureBeat

NY州知事にRAISE法署名求める親たちの訴え

2025年12月12日 Google OpenAI Meta Perplexity DeepSeek オラクルチャットボット広告エンジニアリスク Andreessen Horowitz Intel

RAISE法とは何か

NYのAI安全法案・RAISE法の概要

大規模AIモデル開発者に安全計画の策定を義務付け

安全インシデントの透明性確保ルールを規定

フロンティアモデルの危険なリリースを禁止

150名超の親がホーチャル知事に署名要請書を送付

「最低限の安全ガードレール」として現行案維持を主張

業界とのせめぎ合い

法案は6月に州上院・州議会の両院で可決済み

知事がテック企業寄りの大幅修正案を提示と報道

AIアライアンス（Meta・IBM等）が「実現不可能」と強く反発

Leading the Future PAC（OpenAI・a16z等支援）が法案共同提案者を攻撃

子供をAIチャットボット被害で失った親も署名に参加

ビッグテックの妨害はSNSの弊害回避時の繰り返しと書簡で批判

詳細を見る

ニューヨーク州のホーチャル知事に宛てて、150名を超える親たちが連名で書簡を送り、AI安全法案「RAISE法（Responsible AI Safety and Education Act）」を修正なしで署名するよう求めました。

RAISE法は、Meta、OpenAI、DeepSeek、Googleなど大規模AIモデルを開発する企業に対し、安全計画の策定と安全インシデントの透明な報告を義務付ける法案です。

法案は今年6月にニューヨーク州上院と州議会の両院で可決されましたが、今週、知事がテック企業に有利な形への大幅な書き直しを提案したと報じられています。

書簡を主導したParentsTogether ActionとTech Oversight Projectは、法案を「最低限のガードレール」と位置付け、現行の内容でそのまま法制化されるべきだと訴えています。

この法案の対象は「年間数億ドルを費やす最大手企業のみ」であり、すべてのAI開発者を規制するわけではないと署名者は強調しています。

対象開発者には、大規模安全インシデントを司法長官に開示すること、安全計画を公表することが求められます。さらに、100人以上の死傷や10億ドル以上の損害をもたらすリスクがあるフロンティアモデルのリリースも禁止されます。

一方、MetaやIBM、Intel、Oracleなどが加盟するAIアライアンスは「深刻な懸念」を示す書簡を6月に提出し、この法案を「実行不可能」と批判しています。

Perplexity AIやアンドリーセン・ホロウィッツ（a16z）などが支援するスーパーPAC「Leading the Future」は、法案の共同提案者であるアレックス・ボーレス州議会議員を標的にした広告を展開しています。

親たちは書簡の中で、「ビッグテックによるこうした基本的保護への反発は見覚えがある。アルゴリズム型SNSを透明性も監督も責任もなく普及させた時と同じパターンだ」と訴えています。

出典：The Verge

GitHubが提唱するAI自動最適化の新概念

2025年12月12日 OpenAI マイクロソフト GitHub Claude Claude Code Flow Codex ワークフローデザインエンジニア推論エージェントベンチマーク

Continuous Efficiencyとは何か

グリーンソフトウェアとContinuous AIを融合した新概念

コードベースの継続的・自動的な効率改善を目指す取り組み

GitHub NextとGitHub Sustainabilityチームが共同で開発

自然言語（Markdown）でワークフローを記述できる実験的フレームワーク

Claude CodeやOpenAI Codexなど複数のAIエンジンに対応

現在はオープンソースの研究プロトタイプとして公開中

実証された主な活用事例

グリーンソフトウェアルールをコードベース全体に自動適用

RegExp最適化PRがnpm月5億DL超プロジェクトでマージ済み

Web持続可能性ガイドライン（WSG）の自動適用も実施

「Daily Perf Improver」によるFSharp.Control.AsyncSeqのパフォーマンス改善を確認

リポジトリ構造に応じてビルド・ベンチマーク手順を自動推論

マイクロベンチマーク駆動の最適化PRが複数マージ済み

詳細を見る

GitHubは「Continuous Efficiency」と呼ぶ新しいエンジニアリング手法を提唱しました。これはグリーンソフトウェアの知見とContinuous AIを組み合わせ、コードの効率を継続的かつ自動的に改善するアプローチです。

同手法の基盤となるのが「Agentic Workflows」と呼ばれる実験的フレームワークです。エンジニアはYAMLやスクリプトの代わりにMarkdownで意図を記述し、GitHub Actions上でAIエージェントが自律的にタスクを実行します。

グリーンソフトウェアに関しては、月間5億回以上ダウンロードされるnpmパッケージにRegExpのホイスティング最適化を適用し、プルリクエストが承認・マージされました。小さな改善でも、スケールすることで大きな効果をもたらすことが実証されました。

Web持続可能性ガイドライン（WSG）のワークフローでは、GitHubおよびMicrosoftのWebプロパティに対してスクリプト遅延読み込みやネイティブブラウザ機能の活用など複数の改善機会を発見・修正しました。

パフォーマンスエンジニアリングへの応用では、「Daily Perf Improver」が三段階のワークフローを通じてリポジトリのビルド・ベンチマーク手順を自動推論し、FSharp.Control.AsyncSeqで実測可能な改善を実現しました。

AIエージェントは自然言語で記述されたルールを解釈し、コード全体に横断的に適用できます。従来の静的解析やリンターを超えた意味的な汎用性と、PRやコメントとして実装まで行うインテリジェントな修正が特徴です。

現時点では研究デモンストレーター段階であり、変更や誤りが生じる可能性もあります。GitHubはアーリーアダプターやデザインパートナーの参加を呼びかけており、今後さらなるルールセットやワークフローの公開を予定しています。

出典：GitHub公式

MIT、空間データの信頼区間推定を刷新する新手法を開発

2025年12月12日マイクロソフトシミュレーション機械学習倫理米国 MIT

既存手法の限界と問題の発見

機械学習モデルによる空間統計推定の信頼区間が根本的に誤る問題を特定

既存手法が持つ「データは独立同分布」という前提が空間データでは成立しない現実

モデルが95%の確信度を示しながら実際の値を全く捉えていないケースを実証

ソースデータとターゲットデータの空間的乖離がバイアスを生む構造的欠陥の解明

EPA大気センサーの設置場所と農村部の実態乖離など具体的な偏りの例示

NeurIPS 2024で発表された研究成果

空間的平滑性を活用した新手法の優位性

空間的平滑性の仮定を採用し、従来手法の欠陥を根本から回避する設計

シミュレーションと実データの双方で唯一一貫して正確な信頼区間を生成

ランダム誤差によるデータ歪みが存在する条件下でも安定した信頼性を維持

環境科学・疫学・経済学など広域空間分析を行う分野への応用が期待される

詳細を見る

MITの研究チームは、空間データを対象とした統計的関連性推定において、従来の機械学習手法が生成する信頼区間が根本的に誤っている問題を発見し、それを解決する新しい手法を開発しました。

従来手法は、データが独立同分布であること、モデルが完全に正しいこと、学習データと推定対象データが類似していることを前提としています。しかし空間データではこれらの前提が成立しないため、信頼区間が完全に外れてしまうことがあります。

たとえば、EPA（米国環境保護庁）の大気センサーは都市部に集中して設置されていますが、そのデータを使って農村部の健康アウトカムを推定しようとすると、データの性質が根本的に異なるためバイアスが生じます。

新手法は「空間的平滑性」という仮定を採用しています。たとえば微粒子大気汚染は一つのブロックから次のブロックへ急激に変化せず、汚染源から遠ざかるにつれ緩やかに減少するという性質です。この仮定は空間問題の実態により即した合理的なものです。

主任研究者のタマラ・ブロダリック准教授（MIT EECS）は、「天気や森林管理など、空間的な現象の理解が求められる問題は非常に多い。この種の問題群に対して、より適切な手法が存在し、より良いパフォーマンスと信頼性の高い結果をもたらせることを示した」と述べています。

シミュレーションと実データを用いた比較実験において、この新手法は既存の複数の手法の中で唯一、空間分析において一貫して信頼できる信頼区間を生成することが確認されました。観測データにランダムな誤差が混入している場合でも安定した性能を発揮します。

今後の研究として、チームは本手法をさまざまな変数タイプに適用し、他の応用分野への展開も探る予定です。本研究は、MIT社会的・倫理的コンピューティング責任（SERC）シード助成金、海軍研究局、Generali、Microsoft、全米科学財団（NSF）の支援を受けています。

出典：MIT News

Gemini搭載のリアルタイム翻訳、全イヤホン対応へ

2025年12月12日 Google Apple Gemini Android iOS 検索音声米国中国日本インドドイツイタリア Pixel

全ヘッドフォンで使える翻訳

Pixel Buds不要に、全イヤホン対応

Android版でベータ提供開始

米国・メキシコ・インドで展開

70以上の言語をサポート

Geminiによる翻訳精度向上

イディオム・スラングの自然な翻訳

話者の声のトーンや抑揚を保持

英語と約20言語で精度強化

テキスト翻訳も検索連携で高精度化

語学学習機能も拡充

20カ国に学習機能を拡大

Duolingo風の連続学習ストリーク追加

独・葡・印など複数言語に新対応

詳細を見る

Googleは2025年12月12日、Geminiを活用したリアルタイム音声翻訳機能をGoogle Translateアプリ（Android版）でベータ公開した。米国・メキシコ・インドを対象に展開が始まり、70以上の言語に対応。従来はPixel Buds専用だったライブ翻訳機能が、あらゆるヘッドフォン・イヤホンで利用できるようになった。

新機能は、Geminiのネイティブ音声間翻訳能力を基盤としており、話者のトーン、強調、テンポを保ちながらリアルタイムで自然な翻訳音声を耳元で届ける。会話、海外での講演・講義視聴、外国語映画・テレビ番組の視聴など、幅広いシーンでの活用が想定されている。

テキスト翻訳面でもGeminiによる強化が施された。イディオムや地域特有の表現、スラングなど文脈依存の慣用表現を、従来の逐語翻訳ではなく意味を捉えた自然な翻訳で提供する。英語と約20言語（スペイン語・ヒンディー語・中国語・日本語・ドイツ語など）を対象にアプリ（Android・iOS）およびWeb版で展開開始。

ライブ翻訳のiOS対応および追加国への展開は2026年を予定している。Appleも同様のライブ翻訳機能をiOS 18で提供しているが、AirPods必須であるのに対し、GoogleのAndroid版はあらゆるヘッドフォンで動作する点が差別化ポイントとなっている。

語学学習ツールも大幅に拡充された。ドイツ・インド・スウェーデン・台湾を含む約20カ国で新たに利用可能となり、英語話者向けのドイツ語・ポルトガル語学習、およびベンガル語・中国語（簡体字）・オランダ語・ドイツ語・ヒンディー語・イタリア語・ルーマニア語・スウェーデン語話者向けの英語学習が追加された。

Duolingoを意識した連続学習日数（ストリーク）のトラッキング機能も導入され、学習継続の可視化と習慣化を後押しする。スピーキング練習に基づくフィードバックの精度も向上し、実践的な語学力向上を支援する仕組みが整えられた。

今回の一連のアップデートは、GeminiモデルをGoogleの主力サービスに深く組み込む戦略の一環であり、同日発表されたGeminiの音声モデル強化とも連動している。AI翻訳の品質と即時性が実用水準に達しつつあることを示す重要な節目と言える。

出典：Google公式 | The Verge | Ars Technica | TechCrunch

GoogleのWillowチップ、英国研究者に開放

2025年12月12日 Google エコシステム半導体ハードウェアイギリス投資

英国量子コンピューティングセンターとの連携

GoogleとNQCCが新たな研究連携を発表

最先端WillowプロセッサへのアクセスをUK研究者に提供

量子コンピュータの応用発見を加速することが目的

提案書の締め切りは2026年1月31日

採択者にはWillowアクセスとNQCC研究助成金を付与

英国量子エコシステムとの長年の協力関係を拡充

英国との広範なAI・量子投資

GoogleはUK AI経済に50億ポンドの投資を今年発表済み

英国政府と量子コンピューティング活用を探るパートナーシップを締結

ブリティッシュの研究力と業界最先端ハードウェアを組み合わせる狙い

量子技術の社会実装に向けた官民連携モデルを構築

詳細を見る

Googleは2025年12月12日、英国国立量子コンピューティングセンター（NQCC）との新たな研究連携を発表しました。この取り組みにより、英国の科学者が最先端の量子プロセッサ「Willow」へのアクセスを申請できるようになります。

Willowプロセッサは、Googleが量子超越性の実証実験で使用した最新世代の量子チップです。NQCCとの連携では、高インパクトな科学研究プロジェクトの提案を2026年1月31日まで募集しています。採択されたプロジェクトにはWillowへのアクセス権とNQCC研究助成金が付与されます。

Googleは今年、英国AI経済への50億ポンドの投資と英国政府との技術パートナーシップをすでに発表しており、今回の連携はその延長線上に位置づけられます。英国の研究卓越性と世界トップクラスの量子ハードウェアを組み合わせることで、量子コンピュータの実用アプリケーション発見を加速させることが期待されています。

出典：Google公式

AI搭載おもちゃが子どもに有害コンテンツ、米PIRGが警告

2025年12月12日 OpenAI チャットボット広告 GPT-4 リスクコンテンツ音声中国提携

チャットボット玩具の問題点

米公益団体PIRGがAI玩具の安全性テスト結果を公開

性的・危険なコンテンツを子どもに提供した事例を確認

対象はマイク内蔵のインターネット接続型おもちゃ

チャットボットの無作為性が予測不能な有害応答を生む

中国Alilo社のAIバニーはGPT-4o miniを搭載して販売

子ども向けと銘打ちながら安全策が不十分と指摘

拡大するAI玩具市場のリスク

メーカー各社がAIをおもちゃに組み込む動きが加速

OpenAIとMattelの提携でAI玩具の普及が見込まれる

会話の多様性が子どもの長期的な愛着を高める一方で危険も

従来のプリセット応答型と異なり挙動制御が困難

ユーザー追跡・広告データ収集の懸念も同時に浮上

子どものオンライン安全確保の難しさがAI時代に一層増大

詳細を見る

米公益団体PIRGエデュケーション・ファンドは、AI機能を搭載したおもちゃが子どもに性的・危険なコンテンツを提供しているとして警告を発しました。同団体はAI玩具を実際にテストし、その結果をブログ記事として公開しています。

テスト対象には、中国・深センに拠点を置くAlilo社の「スマートAIバニー」が含まれます。このおもちゃはOpenAIのGPT-4o miniを使用しており、子ども向けのAIチャット機能や百科事典、語り聞かせ機能を売りにしています。対象年齢は0〜6歳とされています。

PIRGによると、AI玩具はマイク内蔵のインターネット接続デバイスであり、チャットボットを通じて子どもと会話します。従来の音声玩具がプリセットの台本を読み上げるだけだったのに対し、AI玩具は毎回異なる自然な応答ができるため、子どもが飽きにくいという特徴があります。

しかしその同じランダム性が、子どもにとって危険または不適切な応答を引き起こすリスクにもなっています。PIRGは今回の調査でその具体的な事例を確認しており、親や保護者に注意を促しています。

AI玩具市場はまだニッチな段階ですが、今後の成長が見込まれます。多くのメーカーがAI技術を自社製品に組み込み付加価値を高めようとしており、今年発表されたOpenAIとMattelの提携は、バービーやホットウィールで知られる同社と競合他社がAI玩具を大量に市場投入するきっかけになると見られています。

子どもをオンラインの危険から守ることはこれまでも課題でしたが、AIチャットボットの登場によってその難しさはさらに増しています。AI玩具にはユーザー追跡や広告データ収集に活用される可能性も指摘されており、技術的な利便性と安全性のバランスが問われています。

出典：Ars Technica

MIT、海軍将校向けAI応用修士プログラムを新設

2025年12月12日安全保障ロボットインド MIT

プログラムの概要と目的

MITの機械工学科と電気工学・計算機科学科が共同開設する「2N6」プログラム

海軍将校を対象とした応用AI修士号（2年制）とAI証明書の取得が可能

意思決定・自律システム・サイバー防衛など軍事応用AIを網羅するカリキュラム

米海軍のAI応用サブスペシャルティコードを満たす内容に設計

海軍以外のMIT在学将校にも開放される予定

まず米海軍将校のみで2年間のパイロット運用を開始

背景と将来展望

インド太平洋軍司令官パパロ提督のMIT訪問が創設の直接的契機

MITと米海軍の125年以上にわたる共同研究の歴史が基盤

海洋ロボット・流体力学・海中センシングなど海軍関連技術の最前線研究と連携

国家安全保障に特化した先端AIエデュケーションの新たな模範を目指す

将来的には他軍種や広範な国家安全保障人材へ拡大を計画

MITシュワルツマン・カレッジ・オブ・コンピューティングが教育基盤を提供

詳細を見る

MITは機械工学科（Course 2）と電気工学・計算機科学科（Course 6）が共同で、海軍将校向けの応用AI修士プログラム「2N6」を新設しました。

このプログラムは2年間の機械工学修士号と、MITシュワルツマン・カレッジ・オブ・コンピューティングが授与するAI証明書をセットで取得できる構成です。

カリキュラムはAIの基礎概念に加え、意思決定・製造設計・海洋自律システムなど海軍実務への応用に重点を置いており、米海軍のAI応用サブスペシャルティコードの要件を満たすよう設計されています。

プログラム創設の直接的な契機は、インド太平洋軍司令官サミュエル・パパロ提督がMITを訪問した際に、既存の2N海軍工学プログラムと先端AI研究を組み合わせた新たな教育形態を構想したことにあります。

MITと米海軍は125年以上の共同研究の歴史を持ち、流体力学・音響学・海洋ロボット・海中センシングなど多岐にわたる研究が現在も進行中です。2N6はこの長期的な関係の延長線上に位置づけられています。

最初のコホートは米海軍将校のみで構成され、少なくとも2年間のパイロットプログラムとして運用されます。その後、他軍種や国家安全保障に関わる幅広い人材へ門戸を広げる計画です。

MITのダン・フッテンローチャー工学部長は「このプログラムが国家の喫緊の課題に対応できる技術的専門性を海軍将校に提供する」と強調しており、国家安全保障に特化した先端AI教育の新たな模範として位置づけています。

出典：MIT News

2025年12月12日 の主要ヘッドライン

わずか4人のチームが実現した高速リリース

Codexを最大活用するための実践的ワークフロー

仕組みと特徴

性能とコスト優位性

大統領令の主な内容

業界と専門家の反応

音声エージェント機能の3つの強化点

リアルタイム音声翻訳機能の提供開始

BBVAが12万人全従業員へChatGPT Enterprise導入を拡大

BNYが「AI for everyone, everywhere」をガバナンス基盤と共に実現

競争優位と市場観

対中輸出規制と米国AI政策

AIの現状と将来展望

Budget TrackerとBATSの概要

BATSがもたらすコスト削減と性能向上

OLMo 3.1の概要と強化学習の延長

ベンチマーク性能とオープンソースへの取り組み

RAISE法とは何か

業界とのせめぎ合い

Continuous Efficiencyとは何か

実証された主な活用事例

既存手法の限界と問題の発見

空間的平滑性を活用した新手法の優位性

全ヘッドフォンで使える翻訳

Geminiによる翻訳精度向上

語学学習機能も拡充

英国量子コンピューティングセンターとの連携

英国との広範なAI・量子投資

チャットボット玩具の問題点

拡大するAI玩具市場のリスク

プログラムの概要と目的

背景と将来展望

2025年12月12日の主要ヘッドライン