1. ホーム
  2. 電子化 
  3. PDFによる電子化
  4. PDFのOCRテキスト認識による文書検索

PDFのOCRテキスト認識による文書検索

PDFのOCRテキスト認識とは

小さい労力で大きな成果をもたらす自動OCR

  • スキャンした原稿の文字情報を機械的にPDFの中から拾い出して透明テキストとしてPDFファイルの中に埋め込みます。
  • 人間が読み取って手入力するのに比べて圧倒的に速く低コストで検索システムを構築出来ます。
  • 書類の中から必要なキーワードが含まれている箇所を探し出す必要がある場合におすすめです。

過去にお受けした実例

全文検索機能を備えたOCRテキスト認識が導入されたケース

  • 工場の図面を含む文書ファイル
  • 官庁の各種永年保存資料
  • 医療関係の論文
  • 教育現場で用いられる指導書

導入が簡単でも優れた検索機能

フリーソフトのダウンロードで準備OK

  • Adobe(アドビ)社のフリーソフトAcrobat Reader(アクロバットリーダー)の検索窓にキーワードを入力するだけで全文検索することが可能です。
  • 操作が簡単なため誰でもすぐに利用することが出来ます。

①「簡易検索」機能

キーワードを入れてエンターキーを押すだけの簡単検索

  • 専門的な知識は一切不要です。
  • 検索したキーワードからキーワードへジャンプしてハイライト表示されるので、該当箇所を誰でも簡単に見つけることが出来ます。
PDFのOCRテキスト認識での簡易検索
テキストデータをワード等の文書形式に書き出すことも可能です。

①電子化されたPDFファイルをアクロバットリーダーで開きます。

青矢印

②アクロバットリーダーのツールバーにある虫眼鏡アイコンをクリックし、現れた検索ボックスに任意のキーワードを入力します。(Adobe Acrobat Reader DCの場合)

青矢印

③エンターキーを押すと検索窓に(1/63)のように該当する語句の文書内の数量が表示され、該当するキーワードが全てハイライト表示されます。

青矢印

④エンターキーを押すごとに次の候補にジャンプして次々に移動していき、(2/63)、(3/63)・・・と数字が変化して表示されます。1ページが終わると次の該当ページに移ります。

青矢印

⑤文書内の目的箇所が見つかるまで続けます。

②「高度な検索」機能

機能強化されても、いたってシンプルで簡単に利用できる検索システム

  • 完全一致、部分一致、しおりを含めるかなど、検索条件を細かく指定できます。
  • 検索結果の一覧リストにキーワードの前後の文章も合わせて表示されるため、より簡単に探している箇所を見つけられます。
  • 検索結果一覧が別ウインドウに表示されるため、PDFのウインドウを次々と開いて確認することが出来ます。
PDFのOCRテキスト認識での高度な検索
検索結果の一覧リストをクリックするだけで、該当ページにジャンプします

①アクロバットリーダーのメニューの「編集」→「高度な検索」を選択します。(Adobe Acrobat Reader DCの場合)

青矢印

②検索ウインドウが開くので検索窓に検索ワードを入力し、「大文字と小文字を区別」などの詳細オプションを決め、検索ボタンを押します。

青矢印

③検索ウインドウ内にファイル内の全候補が、前後の文章と共にリスト表示されるので、気になる候補をクリックします。

青矢印

④該当PDFファイルが開くので、後は探しているページが見つかるまで、リストの候補箇所をクリックするだけです。

PDFのOCRテキスト認識における注意点

カラー原稿モノクロ原稿を問わず、テキスト情報を利用可能

JPEG画像、TIFF画像ともにテキスト情報を付与出来ます

※カラーやグレースケールのJPEG形式、モノクロのTIFF形式ともにPDFに変換しながらテキスト情報を付与します。

※すでにPDF形式になっているファイルにも、後からテキスト情報を抽出して付与することが可能です。

OCRが苦手な文字があります

パターン・特徴のある誤変換

機械的に自動変換するため、どうしても誤変換が発生したり文字として認識できない箇所が生じたりします。誤変換が生じやすいのは『』などの記号・特殊文字や和文の中に混在する英文字列などです。

※下記のような場合はPDFのOCRテキスト認識の作成が困難になります。

  • 手書きの文章
  • 段組が複雑な文章
  • 印字が薄かったり、汚れている書類
  • あまり一般的ではない記号が多用されている文章

OCR技術の飛躍的な向上

日進月歩のOCR技術

近年OCR変換の技術は10年前に比べて飛躍的に向上しており、本文の日本語の漢字・ひらがな・カタカナについては、検索機能をお使いいただく上で差しさわりがないレベルでの文字認識が可能となっています。

さらに現在テキスト認識出来ない書類でも将来的には問題なくなる可能性を秘めています。ですから実際にテキスト付きのPDFに電子化されたお客様の中には、来るべき将来に備えてJPEGやTIFFの画像も保管されていらっしゃるケースもございます。識字率が向上し、より精度の高い検索システムが構築出来る日はそう遠くないからです。

Copyright © 2014 West Japan arrangement.Co.Ltd All rights Reserved.
電子化、スキャン、拡大コピー、ラミネート、CAD出力、マイクロフィルム
プライバシーマーク

西日本アレンジメント株式会社 

710-0824 岡山県倉敷市白楽町412-1 TEL:086-476-1357 FAX:086-476-1359

 営業時間:08:3017:30  店休日:土、日、祝日