Perceptron Mk1、動画解析AIを大手比80〜90%安で提供開始
詳細を読む
スタートアップのPerceptronは2026年5月12日、独自開発の動画解析推論モデル「Mk1」を発表しました。入力100万トークンあたり0.15ドル、出力100万トークンあたり1.50ドルという価格設定で、AnthropicのClaude Sonnet 4.5、OpenAIのGPT-5、GoogleのGemini 3.1 Proと比較して80〜90%低いコストで利用できます。
Mk1の最大の特徴は、動画を静止画の連続ではなく時間的連続性を保って処理する点にあります。最大2FPSで32Kトークンのコンテキストウィンドウを活用し、遮蔽物越しでも物体の同一性を維持できます。空間推論ベンチマークのEmbSpatialBenchでは85.1を記録し、GoogleのRobotics-ER 1.5(78.4)を上回りました。
同モデルは物理推論を強みとしており、物体の動きや相互作用を時空間的に理解できます。バスケットボールのシュートがブザーの前か後かを判定するといった、因果関係の把握が求められるタスクにも対応します。アナログ計器の読み取りや、密集シーンでの数百単位のカウントも高精度で実行可能です。
創業者のArmen Aghajanyan CEOとAkshat Shrivastavaは、いずれもMeta FAIRの出身です。2024年11月にワシントン州ベルビューでPerceptronを設立し、Metaで手掛けたマルチモーダル基盤モデルの研究を物理AIの領域へと発展させました。16カ月の開発期間を経て今回のリリースに至っています。
すでにスポーツ中継のハイライト自動切り出しや、製造ラインでの品質検査、ロボティクスの訓練データ生成といった実運用が始まっています。エッジ向けにはオープンウェイトのIsaacシリーズ(最新は0.2-2bプレビュー)も提供しており、200ミリ秒未満の応答速度でリアルタイム処理に対応します。APIとオープンウェイトの二本立てで、企業用途からコミュニティまで幅広い展開を狙います。