オープンソースの企業向けコンテンツ管理システム「Alfresco」のカスタム活用例として、PDFファイルからOCRでテキストを抽出する方法について紹介します。
「Alfresco」とは
Alfrescoとはエンタープライズ向けコンテンツ管理システムです。世界中で数多くの導入実績があり、オープンソースECM分野で世界市場シェア1位を誇ります。
Alfrescoの概要についてはこちらも参照ください。
PDFファイルからOCRでテキストを抽出
このアドオンは、Alfresco内の画像またはプレーンPDFからOCRテキストを抽出するアクションを提供します。
このアドオンを使用することにより、Alfrescoに格納した画像ファイルをタグ毎に自動で分類することや、新しいラベルを追加する事が可能となります。
サポートされているOCRソフトウェアは以下があります。
・pdfsandwich
OCR PDFファイルを生成します。
画像のみ(テキストなし)を含むPDFファイルは光学文字認識(OCR)によって処理され、テキストは画像の「背後」に目に見えない形で各ページに追加されます。
OCRスキャンされた書籍や雑誌に役立つコマンドライン ツールです。
複数列のテキストでもページ レイアウトを認識できます。
・OCRmyPDF
スキャンされたPDFファイルにOCRテキスト レイヤーを追加し、検索やコピー&ペーストを可能にします。
主な特徴には以下があります。
通常のPDFから検索可能なPDF/Aファイルを生成します
埋め込まれた元の画像の解像度を正確に維持します
要求に応じて、OCRを実行する前に画像の傾き補正やクリーニングを行います。
Tesseract OCRエンジンを使用して100以上の言語を認識します
個人データを非公開に保ちます 等があります。
最後に
Alfrescoでは、今回ご紹介した他にも、非常に多くの便利な機能を利用できます。
メインとなる強力なコンテンツ管理機能に加え、さまざまな便利機能を併用することで、さらに効率的なコンテンツ管理を行えます。
弊社にご連絡をいただければ、お客様の環境に合った適切なご提案も行えます。まずは、お気軽にお問い合わせください。
→お問い合わせ(もっと知りたい方へ)