1. ホーム
  2. 電子化 
  3. PDFによる電子化
  4. 透明テキスト付PDFによる文書検索

透明テキスト付PDFによる文書検索

  • 書類に記載されている文書の中から必要なキーワードが含まれている箇所を探し出す必要がある場合におすすめの電子化方法です。
  • 手入力で同じ作業を行うと莫大な作業コストがかかってしまいますが、機械的に文書OCR変換作業を行って文字認識するため、低コストで安く検索システムの構築が可能です。
  • Adobe(アドビ)社のフリーソフトAcrobat Reader(アクロバットリーダー)の検索窓にキーワードを入力するだけで全文検索することが可能です。誰でもすぐに利用することが出来るというのも魅力の一つです。

透明テキスト付PDFによる電子化の流れ

機械的に文字情報を付与するため低コストで全文検索が可能になります

PDFに変換する際にOCR機能で自動的に文字情報を付与します。

人が目視で入力する従来の作業方法ですと膨大な時間と人件費がかかってしまいますが、この方法なら圧倒的に安価にもかかわらず優れた検索システムを導入出来ます。

PDFの透明テキストOCR検索
テキストデータをワード等の文書形式に書き出すことも可能です。

 ●電子化の流れ

①文書原稿をスキャンしてモノクロならTIFF、カラーならJPEGといった画像形式にします。

②画像の汚れの除去や傾きの修正をします。

③スキャン漏れがないか原稿と画像データを一枚ずつ丁寧に照合します。

④PDFファイル形式に変換します(シングルPDFまたはマルチPDF)。

⑤PDF画像上の文字列をOCR認識し、検索可能な文字列(透明テキスト)を抽出し、PDFファイル上に重ねます。

⑥識別しやすいファイル名をつけて保存します。

※OCRで文字情報を付与出来るのはモノクロのTIFF形式の画像データのみになります。カラーやグレースケールのJPEG形式のものは文字情報を集めることが出来ません。

透明テキスト付PDFの使用方法

キーワードを入れてエンターキーを押すだけの簡単検索

  • 専門的な知識は一切不要です。
  • 1000ページを超える文書ファイルからでも、キーワードを含むページを誰でも簡単に見つけることが出来ます。

①電子化されたPDFファイルをアクロバットリーダーで開きます。

②アクロバットリーダーの検索ボックスに任意のキーワードを入力します。

③エンターキーを押すと文書内で該当する最初のキーワードがハイライト表示されます。

④エンターキーを押すごとにハイライト表示が次の候補にジャンプして次々に移動していきます。1ページが終わると次の該当ページに移ります。

⑤文書内のキーワードを含む目的箇所が見つかるまで続けます。

透明テキスト付PDFの過去にお受けした実例

全文検索機能を備えた透明テキスト付PDFが必要とされたケース

  • 工場の図面を含む文書ファイル
  • 官庁の各種永年保存資料
  • 医療関係の論文
  • 教育現場で用いられる指導書

OCR技術の飛躍的な向上

機械的に自動変換するため誤変換や文字として認識できない箇所が所々生じます。しかしながら誤変換が生じるのは『』などの記号・特殊文字や和文の中に一部存在する英文字列などが主です。

近年OCR変換の技術は10年前に比べて飛躍的に向上しており、本文の日本語の漢字・ひらがな・カタカナについては、検索機能をお使いいただく上で差しさわりがないレベルでの文字認識が可能となっています。

※下記のような場合は透明テキスト付PDFの作成が困難になります。

  • 手書きの文章
  • 段組が複雑な文章
  • 印字が薄かったり、汚れている書類
  • あまり一般的ではない記号が多用されている文章
Copyright © 2014 West Japan arrangement.Co.Ltd All rights Reserved.
電子化、スキャニング、拡大コピー、ラミネート、CAD出力、マイクロフィルム
プライバシーマーク

西日本アレンジメント株式会社 

710-0824 岡山県倉敷市白楽町412-1 TEL:086-476-1357 FAX:086-476-1359

営業時間:08:3017:30  店休日:土、日、祝日