Scan Snap 本取り込み※09/10/063箇所追記

Scan Snap S500を久しぶりに使ってデータを読み込んでみた。

マンガ処理

読んでくれる方が居るかもしれないので解説しておくと、漫画などの書籍を解体してデジタルデータとして保存する作業である。デジタル化の利点解説は一番下の「貧乏おたく的デジタル化ノススメ」をごらん頂きたい。

Scan Snapを使う以上基本理念として画質よりも取り込みの利便性重視である。そう私はせっかちなのである。職人さん達からしたらクズであるが、一般人からしたら充分マニアである。解体用にはDC-200+アイロン+キッチンペーパーを使用。一応言っておくと私の装備はもう古いので今はもっと良いのが出ている。敢えて同装備を選択するとしたら導入コスト=価格を重視する場合くらい。何とも言えないけどUSB3.0なども出てきてもっと利便性の良い格安スキャナーが出てくる可能性もあるだろう。適当な話だけど。

参考スレ
【初めての】スキャン職人養成スレ 11【自炊】

加工
自炊技術Wikiより

以下手順を忘れた時用に残しておく。参考に読まれようとする方が居ればこんなメモ書きよりも見習い職人の館さんの所がお勧め。

利便性で差別化するために自動処理を最大限活用しADFで推奨される1枚ずつ手差しもしない加工も必須項目のみの最小限下手したら初めからPDF白黒読み込みでそのまま何もいじらず終了でも良い。私にとってデジタル化する媒体=読めれば良い程度の情報。だけどまぁ折角だからちょっと頑張って読みやすくしてみようかな?。何か便利な機能で楽できるみたいだし。
という程度の動機である。

S500へも20枚ずつ追加しながら一気に読み込む。ちょっと追加中の振動で画像が荒れるのが心配だけど。
ただし、読ませる前に1枚ずつ他頁から離し紙の間に空気を挟み。下面を斜めにしてS500差し込む。一応これでエラーは起きない。
勿論カラーの最高画質で取り込む。取り込み後の向き補正も全自動、加工もバッチ処理で行う。但しPC側の作業時間が結構かかるので、自動化=手間は省けるものの時間はそれほど短縮されない。賢い用い方としては2台マシンを用意して、スキャナーで読み込みながら、バッチ処理をするなど作業を平行して行うやり方と相性がよい。同じ時間で倍量〜3倍量位*1の書籍が処理できる。


1.横向き画像回転

まれに横向きに認識されてしまっている画像があった。
エクスプローラ-縮小版写真表示
より目視で、右クリック-左回りor右回りで無劣化回転*2-エラーを無視して保存


2.傾き補正

※09/10/06追記 時間がかかり仕上がり品質も高くない(私の操作ミスも有り得る)のでこの工程はパスしている
先に一応カラーページとその他を分けた方がいいかも。
eTilTran V0.11βというソフトが一括自動処理なら名前が挙がっていた。
デフォルト保存形式がPNGになってるので容量に注意するか、画質に妥協するならJPGに変更すること。処理が結構時間がかかる。

3.トリミング

Photoshopからアクションで行う。
一括処理したいファイルを同一フォルダに移動しておく。
メニューからアクションウインドウを表示-ウインドウ内の新規フォルダと新規アクション追加ボタンを押す

アクションを登録するやりかた

ここだけで一旦処理をしても良いし慣れれば、7.トーンカーブまで一気にアクション登録しても良い。その方が画像保存回数が減り時間短縮されるし。

記録●ボタンを押す-開く-イメージ-カンバスサイズ-(今回の場合)幅-20、相対ボックスON、基準位置↑
更に右が余白が目立ったので
イメージ-カンバスサイズ-(今回の場合)幅-3、相対ボックスON、基準位置→(左端)-別名で保存を選びそのまま上書きする-閉じる

アクション登録終わり■この辺の設定は分からない。家では開くは良回答の通りだがアクションの「保存」と「閉じる」は必要でなおかつバッチ処理の「保存して閉じる」&「別名で保存を無視」もチェックを入れたらうまく行った
「開くコマンドを無視」はバッチ処理そのものに指定フォルダ内を名前順に全て処理する機能が組み込まれてるので、開くを入れておく必要は無いから。→でもなんか動作が怪しかったからまだ分かっていない。色々試した方が無難。

バッチ処理

ファイル-自動処理-バッチ-任意のフォルダを選択-上記で作成したアクションが選択されていることを確認-保存して閉じるを選択-別名で保存・カラープロファイルを無視などその他色々無視するにチェックを入れる-実行

4.(単色)グレースケール化

以下転載うまく行ったのでさわりのみ

第3-一-(二) グレースケール化(及び紙の質感の緩和) Edit

 黒単色印刷物は、原則として、グレースケール化する。

1. Photoshopのカラー設定
1. 作業用スペースのグレーをsGray*2にする。
1. 編集/カラー設定を選択する。
2. [詳細オプション]ボタンをクリックする。詳細オプション表示にしないと、sGrayの選択肢が現れない。
3. 作業用スペースのグレーのプルダウンメニューをクリックして開き、一番下にあるsGrayを選択する。
2. Photoshopでの8bit/16bitグレースケール化
 次の①②の手順で行う。
①ウィンドウ/チャンネルを選択するか、チャンネルパレットのタブをクリックし、レッドチャンネルを選択する。(この処理のショートカットキーは Ctrl+1。キーボードでCtrlキーを押しながら1を押すと同じ処理になる。)この時に、適用されるカラープロファイルがRGBモード用からグレースケールモード用へ変更される。
②イメージ/モード/グレースケールを選択し、ほかのチャンネルを破棄する。

5.(単色)トーンカーブ

単色刷りも暗いページを選びトーンカーブをいじること。今回は0-255がの240程度までを白飛ばしさせた。白飛ばしなんて言葉昨日まで知らなかったけど。

4-5(2色カラー)白飛ばし

白黒の場合の上記5-6に該当する。対象が2色カラーの場合に用いる。こちらの方が難しいのでまだ余り綺麗に出来ない。
見習い職人の館さんのやりかたでとりあえず出来る。
その他は職人による自炊プロセス説明書をあたる。

具体的には下記アクションを作成した

カンバスサイズ-カンバスサイズ(左右偏りを解消)-イメージ-色調補正-色彩と彩度-イエロー-色彩+100彩度マイナス100-トーンカーブ-242*3-保存-閉じる

6.縮小

とりあえず1400を目標値に一旦4倍の5600へしてから品質8で保存した。

# Photoshopを使う場合
 イメージ/画像解像度を選択し、「ピクセル数」に値を入力、「縦横比を固定」にチェック、「画像の再サンプル」で「バイキュービック法」を選択して縮小する。目標のピクセル寸法へ1回で縮小すると、モアレが発生しやすい。
# モアレ対策
 縮小すると、モアレが発生することがある。これが、モアレの発生は必ず原寸(100%)表示で確認しなければならないことの理由。

1. 2段階縮小(特にPhotoshopで縮小する場合)
 目標のピクセル寸法へ1回で縮小せず、まず目標のピクセル寸法よりも整数倍大きなピクセル寸法へ縮小又は拡大し、2回目で目標のピクセル寸法へ縮小する(つまり、2回目に整数分の1で縮小するようにする。)と、モアレの恐れが少なくなる。

まとめ

傾き補正を済ませれば後は単色、2色ともPhotoshopでアクション一発で終えることが出来る。と言っても微調整が無茶むずいけど。

単色 2色
1 トリミング トリミング
2 グレースケール化 2色カラー白飛ばし
3 トーンカーブ トーンカーブ(上記に含む)
4 縮小 縮小
5 保存 保存

09/10/06追記 PDF形式での保存(OCRで文字埋め込み)

OCRで文字埋め込み=最終形態をPDFにする場合の方法。
1.Photoshopでの保存ファイル形式*4をJPGでなくPDF*5にする。
2.ファイル名Flexible Renamerで微調整*6
3.Adobe AcrobatでPDF作成-複数ファイルより追加し作成
4.Adobe Acrobatでページ1*7より先にあるファイルを抽出(抽出時削除)-巻末に追加
5.ScanSnapで別に読み込んだ1頁PDFに工程4で作成したファイルを連結*8
6.ScanSnap Organizerで工程5のファイルをOCR処理をさせる
7.Adobe Acrobat工程6のファイルの頁1(擬装用頁)を削除しファイル名を任意のものに変更、目次や索引などをしおりとして追加

仕上げ
1.画像ファイル最適化・不要情報削除ツール

JPEG Cleaner:ttp://hp.vector.co.jp/authors/VA012780/graphic.htm#JPEG_Cleaner
 JPEGファイルに埋め込まれた余分な情報(アプリケーション独自の情報やサムネイルなど)を削除して、サイズ削減
・Carmine.:ttp://www.vector.co.jp/soft/win95/art/se279366.html
 JPEGファイルを劣化無しでサイズ削減(ハフマンテーブルの最適化とExifヘッダ情報の削除)。GUIアプリ。フォルダ指定の一括処理可能。プログレJPEG未対応
・jpegtran:ttp://sylvana.net/jpegcrop/jpegtran/
 JPEGファイルを劣化無しで、サイズ削減、回転、切り取り、グレスケ化、(非)プログレ化。CUIアプリ

JPEG Cleaner・Carmineは試してみて138-124に下がった。

2.Flexible Renamerでリネームし、非圧縮ZIPで仕上げる。

文字検索をするPDFの場合はZIP化せず、Adobe Acrobatで最終処理(力尽きたのでこれは後日やろう・・・)。

tAdobe Acroba PDF編集(おまけ)

※09/10/06追記 上記自動処理でかなり手間と時間が悪くないので現在は使用していない
念のために書いておくが、Adobe Acrobat PDF編集取り込みと上のJPG取り込みの差はJPGの方が綺麗に仕上がるが手間が掛かるということだ。上記は昨日ほぼ一から(前やったけどアホ脳が忘れてるだけだけど)なので5時間以上かかった。

一番最後のページから読み込ませるのだが原稿を途切れさせたので、継続読み取りボタンで読み取らせると100-80と読み込ませても100-80&79-60Pと重なって行ってしまう。晴れてグチャグチャのデータが出来上がったorz。

ファイルを逆名前順でソートし、Flexible Renamerからファイル名先頭に連番を振る

ファイル-PDF作成-複数ファイル-開いている全てのファイル-作成

さらに横向きで置かれていたファイルがあったので

文書-ページの回転-左90度回転-横長ページ全て

貧乏おたく的デジタル化ノススメ

デジタル化の利点は何といっても

第1位.保管スペースが要らない
第2位.持ち運びが楽
第3位.劣化しない
第4位.何となくかっこいい

欠点は何といっても

第1位.紙の方が読みやすい
第2位.結構手間も知識も要るので大変
第3位.何となく全てがばからし
第4位.解体するので原本がばらばら

ポイントは
利点第1位.保管スペースが要らない VS 欠点第1位.紙の方が読みやすい
で難敵「紙の方が読みやすい」を上回る動機を持てるだけの時間を持て余してる高い志のある人で無いと挑戦する人は居ないかもしれない。

具体的用途

iPhoneなどなら大量の書籍を持ち運べるので長期出先で読書したい人などは悪くない。
他のも、雑誌や新聞など比較的短命な媒体とは、解体への抵抗が少なく若干相性が良い。
PDFなら検索可能なので

1.新聞記事を文字認識させてデータベース化したり
2.料理レシピを収集して材料名で検索したり

紙媒体にはない検索機能(索引)をプラスアルファさせ付加価値をつけることは出来る。

私の場合は資格本をデジタル化してPC上で書き込んで覚えたりした。
何も書き込んでない状態も保存しておけば気軽に戻れるので、これも一応利点。

自宅で電子書籍

後は良い出力デバイスを購入すれば、紙媒体を超える読書環境になる可能性もある。
文庫版だと小さくて読みにくくても、豪華版だと保管スペースがない人など
豪華版を解体して大型モニタに映し出してピボットで見る*9
将来こちらで書かれているように、200dpiという紙媒体での印刷用解像度の領域にモニタも入ってくるのでこれからデジタル保存の価値が上げるのは確かにある。
まぁそれでも紙のほうが読みやすいけど。

住み分けるだけ

というか、だんだん腹立ってきた。紙と比べる人は分かってないのである。紙版と、デジタル版が同時発売されデジタル版を安く販売したとして*10、それでも「紙が良い書籍」もあるし、「安いからデジタル版なら買ってみるか」となる書籍もある。「紙のほうが良い」のは当たり前に皆分かっているし*11
住み分け、使い分けがされるだけなのである。ある意味「紙のほうが良い」と言って心を閉ざす人は、MP3に対して「CDの方が音が良い」とか、「MDの方が使いやすい」と言ってた人と同じに近い将来いつかいずれなるのである。「紙のほうが読みやすい」は利点では有っても、全く持って電子書籍の可能性とは関係ないのである。今だってCDの方が音は良いのだから。

電子書籍で本屋壊滅

例えばデジタル化すれば、読み終わった後部屋に散らかった漫画を片付けなくて良かったり、
飲食物で汚れたり、タバコ臭くなったり、黄ばんだりカビたり虫食われたり落書きされたり誰かに貸して帰ってこなかったり、何故か途中8巻だけ行方不明になったり、奥深く終い込んで出してくるのが面倒で読めなかったり、そもそもどこにしまってあるか分からなくなったり
その他諸々から開放されるのである*12。それら全てのちょっとした便利さに過ぎないけど、あたかも1冊の本がボタン一つで全ての本に内容が変わる=MP3プレイヤーのようになればちょっと位読み難くても結構使っちゃうのは間違いない。新聞や雑誌や小説や漫画や番組表や地図や参考書やエロ本や辞書が外見全て同じになるのである
言い訳させて貰えば、良い出力媒体がまだないだけでコントラストやテカりや見易さや消費電力などが洗練された携帯電子ビューアーが
あれば、電子ブックの素晴らしさに皆が気づくのである。問題はそれが今無いだけである(←これ致命的だけどね)。

*1:個人的な妄想値

*2:先にフリーソフトインスト済み。名前忘れたけど同機能ソフトスレテンプレにある

*3:ここで値を小さくするほど白くなるが色が飛ぶ

*4:上記まとめ工程5

*5:縮小工程時に150dpiとして保存時はいじらない

*6:主に逆順連番の修正

*7:元画像の頁1と書かれた頁

*8:ScanSnap Organizerは自分が取り込んだPDFのみOCR化できるので巻頭&ファイル名を読み込んだPDFのままにして連結すると工程6が可能になる

*9:多分首が疲れるけど

*10:生産流通コストが安いので

*11:多分既に一部の使いこなしている人はデジタルの方が良いかも

*12:代わりに一発で消してしまう可能性もあるけど