Luma AIがマルチモーダル統合モデルで創作エージェント公開

2026年03月05日 Google Veo Veo 3 ワークフロー広告デザイン

統合知能モデルの特徴

Uni-1モデルで画像・動画・音声を統合処理

テキストから映像まで一貫した推論が可能

自己批評ループで出力品質を自動改善

Publicisやアディダス等が既に導入

1500万ドル規模の広告を40時間・2万ドルで制作

複数国向けローカライズ広告を自動生成

100種のモデルを個別操作する非効率を解消

会話型で方向性を指示し大量バリエーション生成

詳細を読む

Luma AIは2026年3月、テキスト・画像・動画・音声を横断して創作業務を一気通貫で担うLuma Agentsを公開しました。同社独自の統合知能モデル「Uni-1」を基盤とし、広告代理店やマーケティングチーム、デザインスタジオ向けに提供されます。

Uni-1モデルは音声・動画・画像・言語・空間推論を単一のマルチモーダル推論システムで学習しています。CEOのAmit Jain氏は「言語で思考し、ピクセルで想像・描画する」と表現し、この能力をピクセルの知能と呼んでいます。今後のリリースで音声・動画の出力にも対応予定です。

Luma Agentsの最大の強みは、アセットや協力者、クリエイティブの反復にわたって持続的なコンテキストを維持できる点です。自己批評による反復改善ループを備え、コーディングエージェントと同様に自らの成果物を評価・修正する能力を持ちます。

実際の導入事例では、あるブランドの1500万ドル規模・1年がかりの広告キャンペーンを、複数国向けのローカライズ広告として40時間・2万ドル未満で制作し、社内品質管理を通過しました。200語のブリーフと製品画像1枚から、ロケーション・モデル・配色の多様なアイデアを自動生成するデモも披露されています。

Luma AgentsはAPI経由で一般公開されていますが、ワークフローの安定性を確保するため段階的にアクセスを拡大する方針です。Google Veo 3やElevenLabsの音声モデルなど外部AIモデルとも連携し、エンドツーエンドの創作ワークフローを実現します。