【Alfrescoカスタム活用紹介】PDFファイルからOCRでテキストを抽出

オープンソースの企業向けコンテンツ管理システム「Alfresco」のカスタム活用例として、PDFファイルからOCRでテキストを抽出する方法について紹介します。

「Alfresco」とは

Alfrescoとはエンタープライズ向けコンテンツ管理システムです。世界中で数多くの導入実績があり、オープンソースECM分野で世界市場シェア1位を誇ります。

Alfrescoの概要についてはこちらも参照ください。

PDFファイルからOCRでテキストを抽出

このアドオンは、Alfresco内の画像またはプレーンPDFからOCRテキストを抽出するアクションを提供します。
このアドオンを使用することにより、Alfrescoに格納した画像ファイルをタグ毎に自動で分類することや、新しいラベルを追加する事が可能となります。

サポートされているOCRソフトウェアは以下があります。
・pdfsandwich
　OCR PDFファイルを生成します。
　画像のみ(テキストなし)を含むPDFファイルは光学文字認識(OCR)によって処理され、テキストは画像の「背後」に目に見えない形で各ページに追加されます。
　OCRスキャンされた書籍や雑誌に役立つコマンドラインツールです。
　複数列のテキストでもページレイアウトを認識できます。
・OCRmyPDF
　スキャンされたPDFファイルにOCRテキストレイヤーを追加し、検索やコピー&ペーストを可能にします。
　主な特徴には以下があります。
　通常のPDFから検索可能なPDF/Aファイルを生成します
　埋め込まれた元の画像の解像度を正確に維持します
　要求に応じて、OCRを実行する前に画像の傾き補正やクリーニングを行います。
　Tesseract OCRエンジンを使用して100以上の言語を認識します
　個人データを非公開に保ちます等があります。

最後に

Alfrescoでは、今回ご紹介した他にも、非常に多くの便利な機能を利用できます。

メインとなる強力なコンテンツ管理機能に加え、さまざまな便利機能を併用することで、さらに効率的なコンテンツ管理を行えます。

弊社にご連絡をいただければ、お客様の環境に合った適切なご提案も行えます。まずは、お気軽にお問い合わせください。
→お問い合わせ(もっと知りたい方へ)

参考元サイト
・https://github.com/keensoft/alfresco-simple-ocr