【Alfrescoカスタム活用紹介】PDFファイルからOCRでテキストを抽出

オープンソースの企業向けコンテンツ管理システム「Alfresco」のカスタム活用例として、PDFファイルからOCRでテキストを抽出する方法について紹介します。

「Alfresco」とは

Alfrescoとはエンタープライズ向けコンテンツ管理システムです。世界中で数多くの導入実績があり、オープンソースECM分野で世界市場シェア1位を誇ります。

Alfrescoの概要についてはこちらも参照ください。

→Alfresco(アルフレスコ)とは

PDFファイルからOCRでテキストを抽出

このアドオンは、Alfresco内の画像またはプレーンPDFからOCRテキストを抽出するアクションを提供します。
このアドオンを使用することにより、Alfrescoに格納した画像ファイルをタグ毎に自動で分類することや、新しいラベルを追加する事が可能となります。

サポートされているOCRソフトウェアは以下があります。
・pdfsandwich
 OCR PDFファイルを生成します。
 画像のみ(テキストなし)を含むPDFファイルは光学文字認識(OCR)によって処理され、テキストは画像の「背後」に目に見えない形で各ページに追加されます。
 OCRスキャンされた書籍や雑誌に役立つコマンドライン ツールです。
 複数列のテキストでもページ レイアウトを認識できます。
・OCRmyPDF
 スキャンされたPDFファイルにOCRテキスト レイヤーを追加し、検索やコピー&ペーストを可能にします。
 主な特徴には以下があります。
 通常のPDFから検索可能なPDF/Aファイルを生成します
 埋め込まれた元の画像の解像度を正確に維持します
 要求に応じて、OCRを実行する前に画像の傾き補正やクリーニングを行います。
 Tesseract OCRエンジンを使用して100以上の言語を認識します
 個人データを非公開に保ちます 等があります。

最後に

Alfrescoでは、今回ご紹介した他にも、非常に多くの便利な機能を利用できます。

メインとなる強力なコンテンツ管理機能に加え、さまざまな便利機能を併用することで、さらに効率的なコンテンツ管理を行えます。

弊社にご連絡をいただければ、お客様の環境に合った適切なご提案も行えます。まずは、お気軽にお問い合わせください。
→お問い合わせ(もっと知りたい方へ)

参考元サイト
https://github.com/keensoft/alfresco-simple-ocr