詳細を見る
PaddleOCR 3.5が2026年5月18日にリリースされ、Hugging Face Transformersを推論バックエンドとして選択できるようになりました。PP-OCRv5やPaddleOCR-VL 1.5といったOCR・文書解析モデルを、engineパラメータひとつでTransformersバックエンドに切り替えて実行できます。
RAGや文書エージェントの構築では、PDFやスキャン画像を構造化データに変換する前処理が精度を左右します。PaddleOCRはこの文書取り込み工程を担うOCR・文書解析モデルを提供してきましたが、従来はPaddlePaddle固有の推論エンジンが前提でした。今回の対応により、PyTorch/Transformersベースのインフラを使うチームでも統合の手間が大幅に減ります。
使い方はシンプルで、PaddleOCRのコンストラクタにengine="transformers"を指定するだけです。engine_configでdtypeやアテンション実装の選択も可能で、開発環境に合わせた最適化ができます。Hugging Face Spacesではライブデモも公開されています。
注意点として、OCR・文書解析のスループットを最大化したい場合は、PaddleOCRのデフォルトであるpaddle_staticバックエンドが引き続き推奨されます。Transformersバックエンドは既存のバックエンドを置き換えるものではなく、開発スタックに応じて推論バックエンドを選べる柔軟性を提供するものです。