PaddleOCR 3.5、Transformers推論に対応

2026年05月18日 OCR エンジニア推論インフラ画像エージェント

主な変更点

Transformersを推論バックエンドに追加

engineパラメータでバックエンド切替可能

dtype・デバイス配置等を柔軟に設定

パイプライン管理はPaddleOCR側が担当

開発者への影響

HuggingFace中心の環境と自然に統合

RAG・文書AI構築の前処理が容易に

Hub経由のモデル配布に対応

高スループット用途にはpaddle_staticを推奨

出典：Hugging Face

詳細を読む

PaddleOCR 3.5が2026年5月18日にリリースされ、Hugging Face Transformersを推論バックエンドとして選択できるようになりました。PP-OCRv5やPaddleOCR-VL 1.5といったOCR・文書解析モデルを、engineパラメータひとつでTransformersバックエンドに切り替えて実行できます。

RAGや文書エージェントの構築では、PDFやスキャン画像を構造化データに変換する前処理が精度を左右します。PaddleOCRはこの文書取り込み工程を担うOCR・文書解析モデルを提供してきましたが、従来はPaddlePaddle固有の推論エンジンが前提でした。今回の対応により、PyTorch/Transformersベースのインフラを使うチームでも統合の手間が大幅に減ります。

使い方はシンプルで、PaddleOCRのコンストラクタにengine="transformers"を指定するだけです。engine_configでdtypeやアテンション実装の選択も可能で、開発環境に合わせた最適化ができます。Hugging Face Spacesではライブデモも公開されています。

注意点として、OCR・文書解析のスループットを最大化したい場合は、PaddleOCRのデフォルトであるpaddle_staticバックエンドが引き続き推奨されます。Transformersバックエンドは既存のバックエンドを置き換えるものではなく、開発スタックに応じて推論バックエンドを選べる柔軟性を提供するものです。