« メモリカードは汎用品か【モバイル談義】 | トップページ | ホントにモバイルするの?【モバイル談義】 »

2004.01.27

スキャニング編:デジタルブック先取り計画

デジタルブック先取り計画も3回目をむかえ、ここでいよいよ画像への変換をするスキャナの出番となる。前回の書籍解体編で紙束とした本を、ここで一気にデジタル画像へと変換するのだ。

大量の紙をスキャンするにはオートシートフィーダ(ADF)が必須、というのは初回の概要編で述べたとおりだ。速度的な問題もあるが、人手で用紙を交換していたら他のことはできないし疲れるしミスするしと、いいことがない。こうしたルーチンワークはなるべくキカイにまかせたい。
具体的な機種としては、富士通ScanSnap fi-4110EOX3→Amazon)を強くおすすめする。おなじADF付きといっても、このfi-4110EOX3のようなタイプとフラットヘッドタイプとでは使い勝手にかなり差があるからだ。これについては後でくわしく述べる。

いくら自動給紙でラクできるとはいっても、いくつか気を付けなければならない点は残っている。

  • ダブルフィード(複数ページの吸い込み)によるスキャン漏れ

  • 用紙のセット方向

  • 保存ファイル形式と画質

  • ゴミ付着が原因の縦線ノイズ発生(fi-4110EOX3と同タイプのみ)

  • 用紙サイズの検出ミス(fi-4110EOX3と同タイプのみ)

  • 奇数ページと偶数ページのソーティング(フラットヘッドタイプのみ)

  • おもなポイントを挙げてみたが、わかりにくい点もあると思うので順に説明していく。

    まずいちばんありがちで、かつ致命的なミスなのがダブルフィードだ。
    紙が何枚か同時に吸い込まれると、そのあいだのページはスキャンされることなく処理が終わってしまう。せっかく手間をかけてデータ化したのに、かんじんのページが手元にないと気づいたときの脱力感といったらない。さらに原本を捨ててしまってからこれに気づくと取り返しがつかないこともあり最悪だ。このダブルフィードの回避が、ADF付きスキャナを使うときの最大のポイントになる。

    読みとるのが書籍であれば、カンタンなチェックでこれを避けられる。ページ番号をチェックし、かならず1~50ページとか1~100ページといった単位でスキャンするようにする。そうすれば、読みとり済みのファイルの数とつきあわせることでカンタンにスキャンもれに気づく。
    1枚目から1ページがはじまらなかったり、後ろの方でページ番号がない場合は、そこだけを取りわけて手で数えてからスキャンする。そうすることで、ページ番号のふってある大半のページを数えなくてもチェックできるようになるからだ。ページ数が表示されてないものの場合、大事な資料であれば、めんどうでもすべて手でかぞえてつきあわせるべきだろう。

    読みとり中にすぐダブルフィードに気づいたなら、そこで中断してそこから再開するのが早い。ただ他のことをしていた場合、どのページが抜けたかをいちいちしらべるよりも、再度50ページなりの束でスキャンした方が早かったりする。そのときはざっと紙束をさばいてみて、製本用のノリや紙の切り落とし不足などでくっついたままのページがないかだけはチェックした方がよい。なんども繰り返し起こるようなら、いちどに読みとる枚数をへらすと解決することがある。

    用紙のセット方向もダブルフィードをふせぐポイントになりうる。書籍によっては、製本するとき紙の裁断がされていない部分がのこっていることがある。ふつうは本の天頂部分からスキャナに読みこませるのだが、その部分が裁断によって切りそろえられていないと、給紙に失敗してダブルフィードをおこす率がはね上がる。いくらADFといえどもダブルフィードが起こったら手作業で対応しなければならず、スキャンにかかる時間が一気にふえてしまう。

    これを回避するためには、用紙が切りそろえられた方向から読みとらせておき、のちほど画像処理ソフトで一括で回転させるのがよい。
    またA5以下の紙(たとえば文庫本)などなら、辺が長いほうから読み取らせる(90度かたむける)ことで読みとり距離がみじかくなり、スキャンにかかる時間も節約できる。画像を回転させるためのにすこしばかり後処理の手間がかかるが、これは紙のスキャンとちがって失敗することがないので安心してパソコンにやらせておける。

    保存ファイル形式と画質の設定は、どういった用途を想定するかにもよる。
    画像として人間の目で見るだけなら150dpiのJPEGでも充分すぎるくらいだが、いくらかでもOCRをかけるつもりがあれば可能なかぎりの高解像度、かつ圧縮率を下げて(可能なら無圧縮)取りこむべきだ。200dpiと300dpi、300dpiと400dpiでは認識率がかなり違う。解像度を下げても10分やそこらしか節約できないが、非常に手間のかかる認識ミス修正がラクになるなら安いものだ。これは今後のOCR編でくわしく述べる。
    わたしとしては、いますぐOCRをするつもりがないとしても、あとでつぶしがきく最高解像度にしておくことをすすめる。大きすぎるぶんには小さくしようもあるが、あらい画像はもういちどスキャンしなおす以外の対策がないからだ。

    fi-4110EOX3やその同型機に特有なのが、縦線ノイズ発生と用紙サイズ検出ミスだ。紙のほうを移動させる構造のため、読みとり部にゴミがつくとそれが画像の上から下までずっとノイズとして読みとられてしまい、結果として縦線状のノイズが発生する。また、この方式では紙の切れ目を判定してページ分けする必要があるため、変形版だったり余白が多かったりすると判定に失敗してページの真ん中しか読み取らなかったり、ぎゃくに用紙のない部分まで余白として読み取ったりしてしまう。

    これは読みとりがすんだらかならず何枚か内容をチェックして、こういった現象が起こっていないか確認するほかない。異常に気づいたら、ゴミを取りのぞくなり用紙サイズを手動で固定するなどして対応する。
    この2点はfi-4110EOX3やその同タイプの弱点だ。とくに縦線ノイズは画像中心の本においては迷惑きわまりなく、おもにそういった書籍を取り込もうとしているなら注意が必要だ。

    奇数ページと偶数ページのソーティングは、ADF付きフラットヘッドタイプで両面印刷モノを取りこんだときだけの問題となる。
    片面だけしか読みとれないのだから奇数ページと偶数ページの2回にわけて取りこむ必要があるのだが、この画像たちをページ順と同じように並べるためには、交互に並ぶようにリネームするなど何かしらの処理をする必要があるのだ。

    わたしがこのタイプのスキャナを本格的に使ったことがないため、こういう処理をするソフトが一般にあるかどうかマジメに探したことはない。ひょっとしたらあるかもしれない。ただ、それほど難しい内容ではないので、プログラム、スクリプト、あるいはマクロなどが組める人ならば、ちょっと手間をかけるだけで対応できるだろう。
    それよりも、スキャンの回数が単純に2倍になってしまうほうがよっぽど問題ともいえる。時間が2倍かかるし、ダブルフィードなどの問題がおこる可能性も高くなる。それだけ人手がかかるということだからだ。


    代表的な点にしぼったつもりだが、けっこうな長文になってしまった。こうして順に書きあげていくことで、単純作業であるスキャニングではあるが、わりと省力化のノウハウがあることに気づかされた。まあ、実作業を何度がおこなえば誰でも気づくことばかりだが。

    これらのスキャニング作業にかかる時間は、わたしがいま使っているfi-4110EOX2(現行機の1つ古い型だが同じハードで添付ソフトのバージョンが違うだけ)で300dpiのJPEG(圧縮率最低)として処理した場合、A4サイズ100ページ(50枚)あたり10~15分ぐらいのペースとなる。用紙トレイにセットできるのがちょうどそのぐらいなので、スキャナとパソコンががんばっているあいだは別のことをしていてもよい。

    はじめて本をスキャンしようとしたときのことはいまでも覚えている。製本されたままの本を1ページずつ開いてはフラットヘッドスキャナにセットして読み取る、という行為をただひたすら繰り返した。スキャナが安物のせいもあったが、1時間かかって50ページも取りこめなかった。背表紙にちかい部分の画像はゆがんだりボケたりで、ページが飛んでいたり同じページが2度出てきたりした。結果としてまったく使いものにならず、労多くして益少なしとはまさにこのことだった。

    わたしと似たような体験をされた方もいるかもしれないが、本を解体し、オートシートフィーダ付きのスキャナ、とくにfi-4110EOXタイプを使うという手法ならば、同じことがウソのようにカンタンになる。
    本のデジタル化に興味のある方は、ぜひいちどこのタイプのスキャナの実物を、店頭などでごらんになることをおすすめする。これがパソコンの用途・能力をあたらしい分野に拡大するためのオプション製品なのだと納得できるはずだ。

    |

    « メモリカードは汎用品か【モバイル談義】 | トップページ | ホントにモバイルするの?【モバイル談義】 »

    コメント

    はじめまして。早速ですが…
    スキャニングしたデジタルブックを、後に読み返す時、どのような形式で保存すれば一番読みやすいでしょうか?
    できれば、目次をクリックすればそのページにジャンプするような仕組みがあれば利用しやすいのですが… そんな事ってできないですか?

    投稿: ころ | 2006.08.26 23:45

    コメントを書く



    (ウェブ上には掲載しません)




    トラックバック

    この記事のトラックバックURL:
    http://app.cocolog-nifty.com/t/trackback/4818/142135

    この記事へのトラックバック一覧です: スキャニング編:デジタルブック先取り計画:

    « メモリカードは汎用品か【モバイル談義】 | トップページ | ホントにモバイルするの?【モバイル談義】 »