09:AIによるPDF比較の可能性は? – XOR for Mac & Windows:リアルタイムPDF比較ビューワ
XOR Tips

09

AIによるPDF比較の可能性は?

近年、ChatGPTやGeminiに代表されるAIの進歩には目覚ましいものがあり、「今後ホワイトカラー業務の多くがAIに置き換えられていくだろう」という予測もあります。

AIのイメージ

よって、印刷の版下PDFや配布用PDFの制作に携わっている人なら一連の行程にAIを導入してコストを下げたり、品質を向上させたいと思うことでしょう。例えば修正前と後のPDFの比較に。

その可能性について以下に記します。

ページの先頭に戻る

サンプルPDFを比較してみると...

現状、校正の際に修正前と後のPDFの差分を洗い出す作業にはPDF比較アプリを活用するか、もしくはプリントアウトした校正紙を使って人力で比較しているはずです。

校正の際には修正前と後のPDFの差分を必ず比較することを強くお勧めします。

修正後のPDFとDTP原稿を付き合わせて修正指示が適切に反映されているかを確認するだけでは、修正箇所以外に無用な変更があっても見過ごしがちになるからです。

この新旧比較をAIに任せられれば制作者の負担を減らせそうなので、こちらのサンプル(画像のクリックでダウンロード化)を使って試してみました。

比較用サンプルPDF(修正前)

比較用サンプルPDF(修正前)

比較用サンプルPDF(修正後)

比較用サンプルPDF(修正後)

ChatGPTに両PDFを添付し、プロンプトに入力したのがこちら。

二つのPDFの違いをすべて教えて

その結果は次の章で。

ページの先頭に戻る

ChatGPTの結果

「二つのPDFの違いをすべて教えて」に対するChatGPTのリポートは以下の通りでした。

主な違いの一覧

1. 著者情報

  • 1版(FrogfishWorld-1):

    • 「ヨガタ ミチアキ」「原稿依頼中。」と記載。

  • 2版(FrogfishWorld-2):

    • 「よがた みちあき」+詳細な経歴・プロフィールが記載されている(出身地、趣味、カメラ機材など)。


2. 目次の違い

  • 1版

    • 「全種類」→ p.23

    • 最後は「お味」→ p.29

  • 2版

    • 「全種類」→ p.24

    • 「INDEX」が新たに追加 → p.31

    • 各ページ番号が全体的に1ページずつ後ろにずれている(データ項目部分以降)


3. タイトル表記の違い

  • 1版

    • 表紙:Michiaki Yogata

  • 2版

    • 表紙:YOGATA Michiaki(欧文表記が全て大文字に)


4. 内容の細かい修正

4.1 撮影地の違い(p.4)

  • 1版:「撮影地:レンべ(インドネシア)」

  • 2版:「撮影地:アンボン(インドネシア)」


4.2 文言修正(p.18)

  • 1版:「金環食」

  • 2版:「金環蝕」
    → 制作側注釈あり:「他の箇所に揃えるべく『金環蝕』に修正」


5. 余計な改行・誤植の修正

  • 複数ページで微細な改行・レイアウト調整あり(特に目に見えるのはカラム内コメントやページ末尾のテキスト)。


6. 価格表示

  • 1版:FREE

  • 2版:¥0


7. クレジット表記

  • 1版:「與賀田 孔明」の名前が最後の数ページに複数回出てくる。

  • 2版:それが削除されている。


8. XOR関連の宣伝文句

  • どちらのファイルにも含まれているが、文の改行や語順に若干の違いあり。


🟡 全体的な評価

  • 2版は1版に対して明らかな完成版であり、著者情報や目次の充実、表記揺れの修正、ページ構成の調整が行われています。

  • 内容自体(写真・解説文)は基本的に同じですが、体裁と正確性の向上が2版の主な更新点です。


もし差分PDFを視覚的に見たい場合は、XORのような差分比較ツールでも確認できますが、上記の比較で内容の違いは把握できると思います。他にも確認したい部分があれば教えてください。

この結果に対する評価は以下の通り。

  1. ❶ 差分の検出もれが発生している
  2. ❷ 検出結果が分かりにくい

詳しい説明は次の章で。

ページの先頭に戻る

❶ 差分の検出もれが発生している

ChatGPTによる検出結果の冒頭に「✅ 主な違いの一覧」とある通り、検出した差異は抜粋です。

つまり、ChatGPTはこれら以外にも差異があることを認識しながらもすべてを洗い出してくれていません。これはPDFの新旧差分比較において致命的です。ドキュメント制作では一つの無用な変更の見逃しが後のコストを増大させる可能性があります。

言うまでもなく、修正前と後のPDFの比較では、すべての変更箇所を洗い出してくれないと信頼が置けません。

約10年前、筆者は当時勤務していた制作会社で、ある商用製品の取扱説明書制作に編集者として携わりました。

DTPオペレーターに修正を依頼し、上がってきた修正後PDFと修正前PDFをAcrobat Proで比較。DTP原稿の修正指示箇所はすべて正しく反映されていることを確認しました。そのうえでクライアントに提出し、校了を得て印刷工程へ進みました。

ところが後日、最終ページ(H4)に記載された作成日付が、指示していない内容に変更されていることが判明しました。調査の結果、当時のAcrobat Proの比較アルゴリズムでは差分として検出されず、見落としが発生していた可能性が高いことが分かりました。

結果として刷り直しが必要となり、再印刷費用に加えて関連する人件費の増加も招くことになりました。

現在ではAcrobat Proの比較アルゴリズムも大きく進歩しているはずですが、それでもなお、差分の見落としが完全になくなったと言い切れるかどうかは分かりません。

ページの先頭に戻る

❷ 検出結果が分かりにくい

例えば以下の箇所。

3. タイトル表記の違い

  • 1版

    • 表紙:Michiaki Yogata

  • 2版

    • 表紙:YOGATA Michiaki(欧文表記が全て大文字に)

いかにもChatGPTによる説明文ですが、これだと両方のPDFと照らし合わせて、指摘箇所がどこかを探して確認する必要があります。もし同じページに同様の表記が複数あれば迷うことでしょう。

対してXORで見つけた該当箇所の差分にマーキングした場合の例はこちら。

XORによる比較結果の例

比較結果を見つけてマーキングしている途中

どのように変化したかは分からないものの、どこが変わったかは見ただけで直観的に把握できます。

ページの先頭に戻る

結論

現状のChatGPTは、少なくとも図鑑や取扱説明書など画像とテキストがレイアウトされたPDFの比較には使い物にならないようです(2025年6月時点)。

AIへのプロンプトを工夫すれば、より正確な比較結果を得られる可能性はあるでしょう。でも、特定のサンプルPDFの組み合わせに対してだけ精度の高い結果が得られても、それ自体に実用的な意味はありません。

仮にAIによるPDF比較の精度が飛躍的に向上したとしても、専用のPDF比較アプリを上回る使い勝手やコストパフォーマンスを備えなければ、利用価値は高まりません。

「今後ホワイトカラー業務の多くがAIに置き換えられる」という予測は、正確には「ホワイトカラー業務のうち、情報処理を中心としたデスクワークがAIに置き換えられる」と表現したほうが妥当でしょう。

一方で、DTPや校正といった作業はホワイトカラーに分類されるものの、実態は手作業による判断と微調整の積み重ね、いわば職人技の連続です。そのため、こうした業務がAIに全面的に置き換えられるのは、まだ相当先の話になるはずです。

ページの先頭に戻る