« ホントにモバイルするの?【モバイル談義】 | トップページ | システム屋は因果な商売 »

2004.02.07

テキスト化・OCR編【デジタルブック先取り計画】

スキャンし終わった冊子は、人間が読むぶんには画像のままでも大してこまらない。ただし、そのままではコンピュータ上で検索したり引用したりすることはできない。そうした取りあつかいをしたい場合、なんらかの方法でテキストデータへと変換する必要がある。
そのための道具として使えるのが、OCR(光学式文字読み取り)ソフトだ。

スキャナ付属のOCRソフトを使った人のなかには、あまりの認識精度の悪さにがっかりし、パソコンではOCR機能は使えないものとあきらめてしまう人もいる。しかしいくつかのポイントを押さえ、使いどころを間違わなければ、かなり有効な道具になる。
個人がパソコンで使えるレベルのOCRソフトもずいぶん性能がよくなって、用途と使い方によってはかなり「使える」ようになった。OCRソフトの文字認識エンジンはどうやら数社のOEM元の独占状態らしく、それらの質がよくなってきたというのが本当のところらしいが。

いまわたしが使っているのは、松下が出している読取革命(→amazon)というソフトだ。これは文字を認識する部分についてはかなりの精度であって、条件をととのえてあげさえすれば、A4文書1ページにつき数文字の誤認識ですむぐらいになる。おそらく他社製ソフトでも似たようなものだろうが、多少の違いはあるかもしれない。
ここではこのソフト(読取革命)を前提に話をすすめる。

  • 可能なかぎり解像度の高い画像データを用意する

  • レイアウト枠の設定は手動で行う

  • 画像に対して事前に傾き補正・ノイズ除去などの前処理を行う

  • 画像を加工して認識の障害となる飾り枠といった装飾をとりのぞく

  • 入力画像の解像度は、高ければ高いほど誤認識がすくなくなる。解像度を上げることによってファイルサイズが大きくなったりスキャンに時間がかかったとしても、誤字をさがして手作業で修正する手間を考えたら安いものだ。できることなら400dpi以上がよいが、300dpiでもかなりちがう。200dpiではすこしきびしい。

    レイアウト枠の設定はぜひ手動でやるべきだ。自動認識では、よほど単調なものでないかぎりはひどいできあがりになってしまう。文字の認識そのものはかなりの精度でできるのがいまのOCRソフトだ。レイアウト指定さえしっかりされていれば、全体的な結果のしあがりがかなりよくなる。

    画像の補正や修正は、認識率をたかめるためには必須だ。とくに目次やリストなどでは重要になる。読取革命(おそらく他のOCRソフトも)では認識中の文書の状態をひとつのファイルに保存しておけるため、スキャンした生の画像データとOCR用の修正画像はべつべつに管理できる。必要であれば積極的に手を入れるべきだ。

    ただ、いまのところ対応しようがない弱点もいくつかあるある。

  • 標準的でないフォント、デザイン文字を使っているもの

  • ふりがなや強調線、ページ下の注釈など、本文以外の文字が多く含まれるもの

  • 網がけや画像が本文と重なっているもの

  • レイアウトが複雑なもの

  • 全体的に、得意なところ(文字認識)はとことん得意だが、苦手なところ(レイアウト認識、標準以外のフォント、図版との組み合わせ)もはっきりしている。文書の傾向を確認して、OCRソフトが使える文書かどうかか判断すべきだろう。

    これらのことから、いまのOCRソフトは次のように使い分けができる。

  • かなりの誤認識を覚悟して、全自動でOCRしてしまう

  • レイアウト指定を手動でおこない、その後は自動でOCRする。

  • レイアウト指定してOCR認識後、手動で誤認識を直す

  • あとの方ほど正確なテキストが得られるが、手間のかかりかたもハンパではない。それでもすべて手で入力するよりは圧倒的に、それこそ10倍以上はやい。500ページをこえる本を何冊か手入力したことがあるわたしがいうのだから、それは間違いない。
    そしてなにより、いちど取り込んでしまったら作業は途中で止めていてもよい(OCR処理すらかけなくてよい)し、必要になるまでほおっておける。そうしておいても、つねにパソコンとともに手元にあることにはかわりがない。

    物質的には手元にないけれど、でもたしかにここにあるという感覚。デジタルの本とは、きっとそういうものだと思う。

    |

    « ホントにモバイルするの?【モバイル談義】 | トップページ | システム屋は因果な商売 »

    コメント

    コメントを書く



    (ウェブ上には掲載しません)




    トラックバック

    この記事のトラックバックURL:
    http://app.cocolog-nifty.com/t/trackback/4818/173121

    この記事へのトラックバック一覧です: テキスト化・OCR編【デジタルブック先取り計画】:

    « ホントにモバイルするの?【モバイル談義】 | トップページ | システム屋は因果な商売 »