詳細を見る
Microsoftは2026年4月2日、自社開発の基盤AIモデル3種(MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2)を発表しました。音声認識・音声生成・画像生成の3分野をカバーし、Microsoft FoundryとMAI Playgroundで即日提供を開始しています。
音声認識モデルMAI-Transcribe-1は、業界標準のFLEURSベンチマークで上位25言語において平均WER3.8%を達成しました。OpenAIのWhisper-large-v3を全25言語で上回り、GoogleのGemini 3.1 Flashにも22言語で勝利するなど、最高水準の精度を示しています。
この動きを可能にしたのは、2025年10月のOpenAIとの契約再交渉です。従来MicrosoftはAGIの独自追求を契約上禁じられていましたが、新条件により自社モデル開発の自由を獲得しました。ムスタファ・スレイマン率いる超知能チームが正式に発足し、AI自給自足を目指しています。
注目すべきは開発体制の効率性です。音声認識モデルはわずか10人のチームで構築され、画像チームも10人未満とのことです。競合の半分のGPUで最高水準の性能を実現しており、AI事業のコスト構造を根本的に変える可能性があります。
価格面では全ハイパースケーラー最安を明言し、MAI-Voice-1は100万文字あたり22ドル、MAI-Image-2はテキスト入力100万トークンあたり5ドルに設定されました。スレイマン氏は今後、大規模言語モデルでもフロンティア級の自社モデルを投入する方針を示しており、Microsoftの競争戦略は新たな段階に入っています。