IBM、文書理解特化の小型視覚言語モデル「Granite 4.0 3B Vision」公開
出典:Hugging Face
詳細を読む
IBMは2026年3月31日、企業向け文書理解に特化した小型視覚言語モデル「Granite 4.0 3B Vision」をHugging Faceで公開しました。30億パラメータながら、表・図表・帳票からの情報抽出で大型モデルを上回る性能を発揮します。
本モデルはGranite 4.0 Microの上にLoRAアダプタとして構築されており、画像処理が不要な場面ではベースモデルに自動的にフォールバックします。この設計により、1つのデプロイでマルチモーダルとテキスト専用の両方に対応できます。
技術面では、独自のDeepStack Injection方式を採用しています。抽象的な視覚特徴を前段レイヤーに、高解像度の空間特徴を後段レイヤーに分離して注入することで、文書の内容と配置の両方を正確に理解します。
性能面では、図表理解ベンチマークのChart2Summaryで86.4%を達成し、自身の2倍以上のサイズのモデルを含む全評価対象中で首位となりました。表抽出でもPubTables-v2やTableVQAなど複数のベンチマークで最高スコアを記録しています。
さらに、170万件の合成チャートデータセット「ChartNet」を独自開発し、CVPR 2026で発表予定です。24種類のチャートタイプと6つの描画ライブラリをカバーし、コード・画像・データ表・要約・QAの5要素を揃えた高品質なデータで訓練されています。
活用面では、単体での画像理解に加え、文書処理ツールDoclingとの統合により、大規模PDFの自動処理パイプラインを構築できます。請求書や財務報告書、学術論文など幅広い文書に対応し、Apache 2.0ライセンスで自由に利用可能です。