デジタルブック先取り計画【管理・加工編】
すっかり間が空いてしまったが、専用ビューアのΣBookも入手して、デジタルブック先取り計画も大詰めだ。今回はスキャンし終わった画像データをいかに扱いやすいカタチに整えておくかについて取り扱いたい。
最終的にはつぎのようなファイル群にまで落とし込む。
ただ、これらすべてを作ることはほとんどなく、カンペキに仕上げるのはよっぽど気に入ったものか、どうしても必要なものだけだ。テキスト・統合文書を作るには、スキャンする手間の数倍から10倍以上の労力が必要になるからだ。たいていは目次をベースにしたインデックスファイルの作成と画像調整までしかやらない。それで大体は用が足りるし、それ以上のものが必要になったら、そのとき作業すればいい。そう割り切ることにしてる。
以下、それぞれのファイル・形式について補足する。
・原本画像ファイル
スキャンしたままのファイル。あとで再加工したい場合に再度スキャンするのは大変に面倒なので、ちょっとジャマだが保管しておく。
・調整済画像ファイル
原本画像ファイルの余白部分を除くためにトリミングしたり、読みやすいように濃度調整などをおこなったもの。ファイル名もページ番号に対応した連番にしておくとエクスプローラ等で開くときにわかりやすいし、のちほどインデックスファイルを作成するときもラク。
・抽出図表ファイル
挿絵、表、図など、文章以外の要素だけを抜き出したもの。これらだけを利用したい場合があるので、必要に応じて切り出す。表はエクセルにしておくとあとで扱いやすい。一度にやろうとするとたいへんだから、必要になったところから切り出していくといい。
・インデックスファイル
画像ファイルへのリンクを張れる形式でつくった、リンク一覧文書。わたしの場合はタグジャンプが使えるエディタのテキスト形式を利用しているが、Word・Excel、HTMLでも同様のことができるだろう。この作業、pdfのように自分でタグ付けする必要がある場合はすこぶる面倒なのだが、テキストベースの形式なら目次をOCRしてちょっと手直しするだけでできあがりだ。
目次をベースにしてインデックスファイルを作ればかなり読みやすくなる。裏を返せば、ここまで済ませておかないとせっかくスキャンしたデータが活用できないということでもある。
・テキストファイル
書籍の文章部分をすべてテキストに変換したもの。かなりの手間がかかるが、全文検索したいとか、引用したい場合は致し方ない。OCRでの変換をベースに校正し、ダメな部分は手打ちする。このへんの詳しいところはテキスト化・OCR編を参照してほしい。
まあけっこうな手間なので、一度に全部やるのはあきらめて必要な部分だけちょこちょこテキストに落としていくのが現実的だ。
・統合電子文書(PDF、Word、HTML等)
なにやら物々しい名前をつけてしまったが、要は「画像・テキスト混じり文書」として組み上げなおしたもの。もともと画像だけだった書籍データを、汎用のフォーマット・汎用のアプリケーションだけで快適に読めるようにするのはけっこう大変だ。いわば出版社がやっている版組のやりなおしなのだから、当然といえば当然だが。
画像から直接WordやPDFを出力する機能のあるソフトもあるが、インデックスはないしOCRはボロボロだし、正直言って使用に耐えない。いくらかでもましなものを作ろうと思うなら、かなりの手作業を覚悟しなければならない。
・独自形式ファイル(Σbook形式等)
PDAや独自デバイスで読むために専用形式に変換したもの。これまで作った画像ファイルやテキストファイルをベースに変換する。
次はいよいよ最終回だが、こうした変換と閲覧に使うハードおよびソフトについてまとめる予定だ。
| 固定リンク


コメント
jdxv ejvutmyf szyki struyjanm nocxmwyld snedhy qadt
投稿: yhiuafkr dntjy | 2007.04.09 16:16