テキスト化・OCR編【デジタルブック先取り計画】
スキャンし終わった冊子は、人間が読むぶんには画像のままでも大してこまらない。ただし、そのままではコンピュータ上で検索したり引用したりすることはできない。そうした取りあつかいをしたい場合、なんらかの方法でテキストデータへと変換する必要がある。
そのための道具として使えるのが、OCR(光学式文字読み取り)ソフトだ。
スキャナ付属のOCRソフトを使った人のなかには、あまりの認識精度の悪さにがっかりし、パソコンではOCR機能は使えないものとあきらめてしまう人もいる。しかしいくつかのポイントを押さえ、使いどころを間違わなければ、かなり有効な道具になる。
個人がパソコンで使えるレベルのOCRソフトもずいぶん性能がよくなって、用途と使い方によってはかなり「使える」ようになった。OCRソフトの文字認識エンジンはどうやら数社のOEM元の独占状態らしく、それらの質がよくなってきたというのが本当のところらしいが。
いまわたしが使っているのは、松下が出している読取革命(→amazon)というソフトだ。これは文字を認識する部分についてはかなりの精度であって、条件をととのえてあげさえすれば、A4文書1ページにつき数文字の誤認識ですむぐらいになる。おそらく他社製ソフトでも似たようなものだろうが、多少の違いはあるかもしれない。
ここではこのソフト(読取革命)を前提に話をすすめる。
入力画像の解像度は、高ければ高いほど誤認識がすくなくなる。解像度を上げることによってファイルサイズが大きくなったりスキャンに時間がかかったとしても、誤字をさがして手作業で修正する手間を考えたら安いものだ。できることなら400dpi以上がよいが、300dpiでもかなりちがう。200dpiではすこしきびしい。
レイアウト枠の設定はぜひ手動でやるべきだ。自動認識では、よほど単調なものでないかぎりはひどいできあがりになってしまう。文字の認識そのものはかなりの精度でできるのがいまのOCRソフトだ。レイアウト指定さえしっかりされていれば、全体的な結果のしあがりがかなりよくなる。
画像の補正や修正は、認識率をたかめるためには必須だ。とくに目次やリストなどでは重要になる。読取革命(おそらく他のOCRソフトも)では認識中の文書の状態をひとつのファイルに保存しておけるため、スキャンした生の画像データとOCR用の修正画像はべつべつに管理できる。必要であれば積極的に手を入れるべきだ。
ただ、いまのところ対応しようがない弱点もいくつかあるある。
全体的に、得意なところ(文字認識)はとことん得意だが、苦手なところ(レイアウト認識、標準以外のフォント、図版との組み合わせ)もはっきりしている。文書の傾向を確認して、OCRソフトが使える文書かどうかか判断すべきだろう。
これらのことから、いまのOCRソフトは次のように使い分けができる。
あとの方ほど正確なテキストが得られるが、手間のかかりかたもハンパではない。それでもすべて手で入力するよりは圧倒的に、それこそ10倍以上はやい。500ページをこえる本を何冊か手入力したことがあるわたしがいうのだから、それは間違いない。
そしてなにより、いちど取り込んでしまったら作業は途中で止めていてもよい(OCR処理すらかけなくてよい)し、必要になるまでほおっておける。そうしておいても、つねにパソコンとともに手元にあることにはかわりがない。
物質的には手元にないけれど、でもたしかにここにあるという感覚。デジタルの本とは、きっとそういうものだと思う。
| 固定リンク


コメント