外部からのFAXや郵便文書が社内で散乱して、どこにどんな文書があるのかわからなくなっていました。
じゃぁ!ということで、FAXや郵便文書をスキャナで取り込み、PDF化して一元管理し、かつ社内で閲覧、検索できるようにしましょう!となりました・・・。
閲覧はWebサーバーに入れておき、Web上で見られるようにしました。
が、問題は検索。
スキャナで取り込んで作成したPDFは通常画像として扱われます。
よって内部文書検索ができないということになります。
一応、Adobe Acrobat StandardにはOCR機能があり、透明テキストをつけることができるのですが、どうも読み取り性能に難ありで、思い通りの文書になりません。
やっぱりOCRはORC専門のソフトでないといけないみたいで・・・。
ちょっとOCRソフトの比較をしてみました。・・・
[1回]
比較したのは以下のソフト。
本当は、e-typistも試してみたかったのですが、都合により試していません。
一応要求仕様としては、PFUのScanSnapに対応できること。透明テキスト付PDFに保存できることです。
読取革命
Panasonicが出しているコンシューマー向けOCRソフト。インストールし、初めて起動すると、ScanSnapを認識し、登録しますか?とメッセージが出るので、「OK」を押すと、登録される。
OCR認識:昔のOCRに比べてなんと進化したことか!ほぼ問題ないレベルに到達していました。ただ、「日」とか「申」の文字に弱いらしく、どうしても「口」と認識していました。検索を目的とするならばキーワードさえちゃんと認識してくれればいいので問題ないレベル。
OCR速度:文書によってはちょっともたつく感があるが、問題ないレベル。昔に比べて早くなったもんだと感心。
ダメな点:ScanSnapで白黒読取が選べなくなっている。カラーでスキャンすると薄くなってしまうので濃くしたくてもできなくなってしまう。読んだ後に白黒にするのかなぁ・・・・。
いい点:Office2007の形式に対応。また、XPSにも対応している。
読んde!ココ
A.Iソフトが出しているOCRソフト。と思っていたらいつのまにかエプソンに吸収されていた。インストールも問題なく、ScanSnapに自働登録された。
OCR認識:非常に高いレベル。ちょっと文字が薄いと誤認識するが、濃くスキャンした原稿だと格段に認識率が上がる。ScanSnapではちょっときれいに、そして白黒でスキャンするとよいだろう。
OCR速度:読取革命に比べるとちょっと遅いか?ときどき考えている様子も見られる。一ページ毎にアラートが鳴るのが難点(設定で消せるのか?)
ダメな点:要求仕様ではないが、Word形式に対応といいながら、実はrtf(リッチテキスト)。いいのか?
いい点:可もなく不可もなく。
PR