PDF解析比較の致命的な弱点

Adobe Acrobat DC PROのPDF比較機能は解析比較方式です。二つのPDFのデータ構造を解析して付き合わせて比較します。

この方式の弱点は二つ。

  1. 時々比較もれが起きる
  2. 動作が重たい

1 の説明は『AcrobatのPDF比較で痛い目にあった話』を参照してください。

2 は時としてもっと厄介です。例えば100ページを超える二つのPDFを比較しようとすると、前処理に長い時間がかかった挙句、比較中にアプリが異常終了して時間が無駄になることも多いので。散々待たされた上に途中までの比較結果さえ提示してくれないという。

もちろん50ページずつに切り分けて別々に比較することはできるけど、面倒ですよね。場合によってはもっと細かく分けなければならないかもしれないし。

ちなみにXORなら100ページかそこらならへっちゃらだし、PDFを読み込んだら前処理もなくすぐに比較を始められます。

Proof Checker PRO 5使ってます?

Proof Checker PROはドキュメンテーション業界において最も信頼が厚いデジタル校正ソフトウェアです。よって「Proof Checker PRO導入済み」は制作受注コンペにおいてキラーワードとして効力を持つことさえあります。

なお、昨年リリースされたProof Checker PRO 5では、以前から定評のある解析比較に加えてビットマップ比較の機能が追加されました。解析比較ではPDFのデータ内容と比較アルゴリズムの相性次第では比較漏れが起き兼ねないけど、ビットマップ比較ならPDF間の差異を100%検出してくれます。よって両方を併用することで以前よりも厳格な比較が可能になりました。

ただし、Version 4 → 5へのアップグレードには月額10,000円(税別)の年間保守契約が必要だったはず。よって余裕のない制作会社の中には1年間12万円の保守契約料を惜しんでVersion 4を使い続けているところもあるのではないかと。だとするとビットマップ比較を使えません。

ならば保守契約の代わりにXORを導入していただくのもいいのではないかと。使い方の差こそあれど同じ目的を果たせるはずです。XORのサブスクリプション費は月額2,000円だから4ライセンスまでなら割安です。5ライセンスなら同額になるけどドングル不要なので5人で同時に使えるし。

心苦しいのはXORにWindows版がまだないこと。何とか夏のうちには出したいのですが。

DTP or Web

なんとなくWebをブラウズしていたら『DTPとWebの違いとは?今からデザインを学ぶならオススメはどちら?』という記事につき当たりました。

結論は

将来性や活躍の場の広さからWebデザインをおすすめします

だそうな。まあ、妥当かな。単純に比べればWebの方が有望ですよね。 WordPressをベースにHTML、CSS、PHP、Javascriptを複合的に駆使して作り上げる作業はいかにも今時のスキルです。業種的にはIT業界に属するのでしょう。

他方、DTPは言ってみればMicrosoft WordやPowerPointの高度版。それらを商用印刷レベルに高めたような感じかと。よって印刷業界です。ITに比べればちょっと泥臭いイメージがつきまとうかな。

ただし、これからの職業という観点だとどうなんでしょうね。Web制作はDTPよりもロジカルだし市場も大きいけど、だからこそ仕事としては難しくなるかも。秀逸なテーマやプラグイン、あるいはWebサイト自動生成アプリなんかが今後も続々と登場し、表示要素を用意してカスタマイズするだけでWebサイトの大部分を作ってくれるようになりそうな気がします。

もちろんシステムに近い部分のSE的な役割は相変わらず必要とされるし、デザイナー的なWebエンジニアの需要もあるだろうけど、HTMLとCSSを組み上げるプログラマ的なお仕事は、ひたすら単価が下がっていくのではないかと。

他方でDTPはもともと作業単価が安い傾向があるものの、あまり自動化が進まなそうなので仕事としては存続し続けるでしょう。しかも1990年代の黎明期に20代や30代で始めた人がそろそろリタイヤの頃合いかと。よって世代交代にうまくはまるかもしれません。

また、個人的には、IT業界では技術革新が速く常に最新の技術を取り入れる必要がある一方で、印刷業界の方は進歩が緩やかなため、むしろ熟練がモノを言う世界という印象です。

というわけで、一概にはどちらが優位とも言えないので、自身がより興味がある方を選ぶのがいいのではないでしょうか。

顧客サービスにもXORを

私が昨年春まで勤めていた都内のドキュメント制作会社の部署では、あるクライアントの取説を改版する際にAcrobatを使ってPDF上の変更箇所をコメント機能の四角形で囲んで提出していました。

これってそこそこ面倒な作業だし、それなりに人件費もかかっていたものの制作費としては請求できず、顧客サービスの一環で始めたものが慣習化してやめるにやめられなくなったそうで。

でも、一通り修正が完了したことを確かめてから、コメントの四角形を付けるのは二度手間ですよね。

さしあたXORを使えば、この工程は付加的な作業ではなく通常の確認作業の作業として済ませられます。

XORの導入後は、変更箇所に一通り四角形をつけてから確認作業に入るという順番になるので、確認結果がOKだと判断できたときには、すべての変更箇所に四角形が付加されています。

Result of comparison by xor
XORで変更箇所に囲みを付けてPDFに書き出した時のイメージ

PDFの不思議な仕様

以前、PDFのデータ形式を覗いてみたことがあります。きっかけは、ほんのわずかなテキスト修正だったのに、Adobe Acrobat DCのPDF比較機能が差異を見つけてくれなかったから。

そこで修正前と後のPDFをテキストエディタで開いてみて驚いたのが、描画要素の並びがかなり違っていたこと。HTMLなら基本的に上から下に要素を記述していくけど、PDFでは違うようです。「どこに描画されるべきか」という情報を持った要素が順不同で格納されていたかと。Acrobatの読み上げ機能でページを読ませても上から順に読み上げてくれないのもそのせいなのでしょう。

それってAmazonの倉庫のような感じかと。Amazonの倉庫では入荷した商品を整頓して格納するのではなく、無造作に格納する代わりにどこに何があるかを厳格に管理しているそうですね。これにより格納場所の選定や整列に迷うことがなくなり業務効率が上がります。

PDFの仕様がそのような思想で策定されたのかは知らないけど、それが正確なPDF比較を難しくしている要因の一つなのかも。もちろん各アプリは表示上の順番を把握した上で比較していくのだろうけど、それでもその仕様のおかげで要素のペアリングが難しいケースも出てくるのではないかと。