« 【モバイル談義】データ一元化のためのモバイル | トップページ | 【モバイル談義】ノートPCの電池はどのぐらい持てばよいか »

2004.01.19

デジタルブック先取り計画:概論編

電子本は何冊もっていてもかさばらないので、モバイル向けといえる。しかし読みたい本・使える本がなかったら役にたたない。これを自分自身でなんとかしてしまおうというのが、「デジタルブック先取り計画」だ。
まずは、本をデジタル化するための方法論をしめす。

本をデジタルデータにするためには、画像としてスキャンし、それをそのまま読むかOCRしてテキストに落とすのが王道だ。

しかし1ページづつ手めくりしてはスキャンしていたのでは、時間がかかりすぎてやってられない。現実的な時間で取りこむには、オートシートフィーダ(自動紙送り機能)のあるスキャナを使うしかない。しかし、あたりまえのことだが、本は装丁されているから自動紙送りなどできるわけがない。
そこで、ここでは「本を解体して紙の束にしてしまう」ことにする。この乱暴な割り切りによって、取り込み作業は画期的にラクになる。

本をバラバラに割いた経験のある人はそんなに多くないだろうが、やってみるとこれもけっこうやっかいな作業だ。手でちぎるなんて論外だし、ハサミやカッターを使ってもなかなかはかどらない。
ここは、紙を裁つための専門の道具をつかうことで切り抜ける。世の中には、数十枚の紙束をほんの何回かなでるだけで裁ちきってしまうすばらしい裁断機があるのだ。

きれいに切りそろえた全ページをスキャナで取り込んだら、いよいよ画像として見ることができるようになる。このときハード・ソフトそれぞれのビューアが大事な要素になる。

しかし画像のままでは、人間の目で見ることはできても検索することができない。画像を文字に落とし込むために、OCR(光学文字読み取り)処理をおこなう必要がある。
そうしてできあがったテキストだが、これも快適に読むためにはビューアがいる。あるいは、専用のビューアを使うために独自形式に変換しなければならないかもしれない。

これらの方法論を確立してからは、200~300ページていどの本なら30分ほどでパソコンに画像として取り込めるようになった。1000ページちかい本でも、よっぽど条件が悪くなければ1時間ほどでなんとかなる。
いちど画像にしてしまえば持ちはこびには困らないし、OCRは空き時間に順次すすめることができるから、とりあえず突っ込んでおくということができるようになった。

これらの手順について、これから何回かに分けて書きしるしていくつもりだ。

|

« 【モバイル談義】データ一元化のためのモバイル | トップページ | 【モバイル談義】ノートPCの電池はどのぐらい持てばよいか »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/4818/116781

この記事へのトラックバック一覧です: デジタルブック先取り計画:概論編:

« 【モバイル談義】データ一元化のためのモバイル | トップページ | 【モバイル談義】ノートPCの電池はどのぐらい持てばよいか »