AcrobatのPDF比較で痛い目にあった話

まず最初にAdobe Acrobatは素晴らしいアプリであることを断言しておきます。印刷業を含む商用ドキュメンテーションを生業にしている人は誰しも恩恵を受けていることでしょう。もちろん私も愛用しています。

そのAcrobatシリーズの内、Acrobat PRO DCにはPDF比較機能があります。これ、便利だけど残念ながら完璧ではないのですよね。

例えば、以前私がとある冊子ものの取扱説明書を改版したときにこの機能を使ったところ、最終ページに存在した差異を報告してくれないことがありました。

その差異は無用な変更で、改版日の「2017」が「2016」になっているといった類の単純ミス。しかも運悪くダブルチェックをお願いした相手も見過ごしてしまったため、自信を持って提出したら、クライアントから指摘される失態を演じてしまいました。

見過ごした原因は修正原稿に赤字が入っていない箇所だったため。よもや赤字以外の箇所が変更されているとは思いもよらなかったわけです。

加えて、私もAcorobatのPDF比較機能が完璧でないことは承知していたものの、「単純なテキストの差異はすべて見つけてくれたはず」という先入観が働いていたのだと思います。

でも、途中のページまではしっかり差異を検出してくれていたので、何かの拍子にアルゴリズムが最終ページに到達する前に終了してしまったのでしょう。PDFのデータ構造は複雑なので、解析方式による比較ではどうしても相性の良し悪しが出てきます。

ひょっとしたら将来のAcrobatではビッグデータの利用やAI技術などを盛り込んで完璧に近い比較ができるようになるかもしれません。大きく修正された場合でも要素の正確なペアリングを推測するような。でもそれは未来の話。

よって現時点ではXORのようなPDFページをビジュアル的に比較するアプリを併用した方がいいと思います。

XORは「どう変わったか？」は無理だけど「どこが変わったか？」なら100%見つけ出します。

XOR blog