PDFDiet に戻る

近代デジタルライブラリの PDF で読み込めないものがあるのですが・・・

PDFDiet は、バージョン 20110123 以降から、PDF の内部画像形式 JPEG2000 に対応いたしましたが、一部 PDF で読み込み・画像保存ができない場合があります。

近代デジタルライブラリで PDF 保存で、最大10コマ分の PDF をダウンロードすることができます。
この PDF の内部形式は原則として、

  • JPEG2000
  • TIFF

の2種類*1を指定しています(予算の都合でできない場合は、JPEG、PNG、GIF)。
現在(2011年01月)は内部形式の切り替えタイミングなのか、2010年秋頃にダウンロードした PDF の内部画像形式は TIFF でしたが、2011年1月にダウンロードした同じ文献の内部画像形式が JPEG2000 になっております。

PDFDiet では、TIFF および JPEG2000 の読み込みに対応しておりますが、近代デジタルライブラリのJPEG2000で保存されている PDF のうち一部の読み込みができません。
原因は不明ですが、分かっている現象は、

  1. Adobe Acrobat 9 なら開くことができる
  2. PDFDiet で開けない PDF は、PDF-XChange Viewer でも開けない。
  3. 近代デジタルライブラリの JPEG2000 には、XMLBOX という情報が含まれている。

という3点です。
一番困るのは、これら開けないPDFを PDFDiet で開くと CPU 使用率が 100% になってしまい、止まらなくなってしまいます。(PDF-XChange Viewer でも同様) この場合はタスクマネージャで PDFDiet を強制終了させてください。
※因果関係は不明ですが、dllhost.exe ( COM Surrogate ) が同様の現象に陥る場合もあり。

近代デジタルライブラリの PDF を処理する場合は、一度普通の PDF(内部画像形式が JPEG) のものに変換してから行ってください。

  1. PDF reDirect, PrimoPDF などの PDF 作成ソフトをインストールする。
  2. Adobe Acrobat/Reader で開く。
  3. 上記 PDF作成ソフトに対して印刷を行う。
  4. できあがった PDF を PDFDiet に読み込ませてみる。

出力ファイルサイズが一番小さいのはどれ?

PDFDiet で「画像フォーマット別出力ファイルサイズの違い」を調べてみました。
サンプルは、ScanSnap (ファイン・カラー) でスキャンした 220ページの書籍です。

意外や意外、TIF 4~8bit が以外といい成績を残しています。PC 上の PDF ビューアで見てみても、JPEG と変わらない画質。
PNG 4bit もなかなか良い画質を保ったままサイズが小さくなっているのですが、PDF にしてみると JPEG とあまり変わらない結果になりました。

画質とサイズを総合的に考えると TIF 8bit が一番良さそうですが、残念なのは Kindle3 で PNG 4~8bit, TIF 4~8bit の PDF を見るとページによってはオートスケールされてしまい、文字ががたがたになってしまいます(画像のピクセル数は 560x734 にしているんですがいけないのでしょうか?)
オートスケールの問題がなければ "TIF 8bit" を押すのですが、現状では JPEG が無難と思います。

フォーマット画像合計サイズPDF のサイズMOBI のサイズ
JPEG 24bit-圧縮 9514.4MB14.5MB28.2MB
PNG 4bit7.79MB12MB16.8MB
PNG 8bit17.2MB25.7MB31.7MB
PNG 24bit25.3MB25.5MB39.5MB
TIF 4bit8.35MB8.7MB表示されない
TIF 8bit20.5MB8.7MB表示されない
TIF 24bit34.3MB25.5MB表示されない


PDF を読み込む/画像に変換すると、ページの一部しか表示されません。

私も詳しくは分かっていないのですが、読み込んだ PDF によっては以下の画像のように、画像の一部分のみが表示されてしまいます。
Acrobat 等で PDF 出力をする際に 「用紙に合わせる」としてページいっぱいに表示されるようにしないで、PDF を作成すると、一つの画像が複数の画像に切り分けて PDF 内部に保存されます。
PDFDiet は、1ページ中の画像を結合してページ画像を構成する処理を行いますが、一部未対応の画像フォーマットが含まれている場合、以下のように上側だけの画像が表示されてしまう場合や、表示がおかしな場合があります。

このような場合は、「PDF→画像変換」で「普通のPDFを画像に変換」を使用し一度画像に変換してから読み込ませてください。

  • 欠けている画像
    nolink,正しい画像
  • 正しい画像
    nolink,欠けている画像

PDF を読み込む/画像に変換すると、ページが白黒反転して表示されてしまいます。

グレイスケール画像を含む PDF の場合で、内部に格納されている画像のビットが反転している場合やマスクを欠けている場合などがあります。
誠に申し訳ありませんが、現在の PDFDiet ではこれらを正しく表示するようにできておりません。
元の PDF を再度画像に変換するか、PDFDiet の白黒反転設定を行ってみてください。



PDFDiet に戻る


*1 国立国会図書館「資料デジタル化の手引き」より