IBM、文書理解特化の小型視覚言語モデル「Granite 4.0 3B Vision」公開

モデルの特徴と構造

企業文書の表・図・帳票を高精度抽出
30億パラメータの軽量設計
LoRAアダプタでテキスト専用と視覚の両対応
DeepStack方式で意味と空間情報を分離処理

ベンチマーク性能

図表要約スコア86.4%で全モデル首位
表抽出でも複数ベンチで最高精度達成
政府帳票KVP抽出で85.5%のゼロショット精度

導入と活用方法

Apache 2.0ライセンスで公開
Docling連携で大規模PDF処理に対応
詳細を読む

IBMは2026年3月31日、企業向け文書理解に特化した小型視覚言語モデル「Granite 4.0 3B Vision」をHugging Faceで公開しました。30億パラメータながら、表・図表・帳票からの情報抽出で大型モデルを上回る性能を発揮します。

本モデルはGranite 4.0 Microの上にLoRAアダプタとして構築されており、画像処理が不要な場面ではベースモデルに自動的にフォールバックします。この設計により、1つのデプロイマルチモーダルとテキスト専用の両方に対応できます。

技術面では、独自のDeepStack Injection方式を採用しています。抽象的な視覚特徴を前段レイヤーに、高解像度の空間特徴を後段レイヤーに分離して注入することで、文書の内容と配置の両方を正確に理解します。

性能面では、図表理解ベンチマークChart2Summaryで86.4%を達成し、自身の2倍以上のサイズのモデルを含む全評価対象中で首位となりました。表抽出でもPubTables-v2やTableVQAなど複数のベンチマークで最高スコアを記録しています。

さらに、170万件の合成チャートデータセット「ChartNet」を独自開発し、CVPR 2026で発表予定です。24種類のチャートタイプと6つの描画ライブラリをカバーし、コード・画像・データ表・要約・QAの5要素を揃えた高品質なデータで訓練されています。

活用面では、単体での画像理解に加え、文書処理ツールDoclingとの統合により、大規模PDFの自動処理パイプラインを構築できます。請求書や財務報告書、学術論文など幅広い文書に対応し、Apache 2.0ライセンスで自由に利用可能です。