09:AIによるPDF比較の可能性は? – XOR for Mac & Windows:リアルタイムPDF比較ビューワ
XOR Tips

09

AIによるPDF比較の可能性は?

近年、ChatGPTに代表されるAIの進歩には目覚ましいものがあり、「今後ホワイトカラー業務の多くがAIに置き換えられていくだろう」という予測もあります。

AIのイメージ

よって、印刷の版下PDFや配布用PDFの制作に携わっている人なら一連の行程にAIを導入してコストを下げたり、品質を向上させたいと思うことでしょう。例えば修正前と後のPDFの比較に。

その可能性について以下に記します。

ページの先頭に戻る

サンプルPDFを比較してみると...

現状、校正の際に修正前と後のPDFの差分を洗い出す作業にはPDF比較アプリを活用するか、もしくはプリントアウトした校正紙を使って人力で比較しているはずです。

校正の際には修正前と後のPDFの差分を必ず比較することを強くお勧めします。

修正後のPDFとDTP原稿を付き合わせて修正指示が適切に反映されているかを確認するだけでは、修正箇所以外に無用な変更があっても見過ごしがちになるからです。

この新旧比較をAIに任せられれば制作者の負担を減らせそうなので、こちらのサンプル(画像のクリックでダウンロード化)を使って試してみました。

比較用サンプルPDF(修正前)

比較用サンプルPDF(修正前)

比較用サンプルPDF(修正後)

比較用サンプルPDF(修正後)

ChatGPTに両PDFを添付し、プロンプトに入力したのがこちら。

二つのPDFの違いをすべて教えて

その結果は次の章で。

ページの先頭に戻る

ChatGPTの結果

「二つのPDFの違いをすべて教えて」に対するChatGPTのリポートは以下の通りでした。

主な違いの一覧

1. 著者情報

  • 1版(FrogfishWorld-1):

    • 「ヨガタ ミチアキ」「原稿依頼中。」と記載。

  • 2版(FrogfishWorld-2):

    • 「よがた みちあき」+詳細な経歴・プロフィールが記載されている(出身地、趣味、カメラ機材など)。


2. 目次の違い

  • 1版

    • 「全種類」→ p.23

    • 最後は「お味」→ p.29

  • 2版

    • 「全種類」→ p.24

    • 「INDEX」が新たに追加 → p.31

    • 各ページ番号が全体的に1ページずつ後ろにずれている(データ項目部分以降)


3. タイトル表記の違い

  • 1版

    • 表紙:Michiaki Yogata

  • 2版

    • 表紙:YOGATA Michiaki(欧文表記が全て大文字に)


4. 内容の細かい修正

4.1 撮影地の違い(p.4)

  • 1版:「撮影地:レンべ(インドネシア)」

  • 2版:「撮影地:アンボン(インドネシア)」


4.2 文言修正(p.18)

  • 1版:「金環食」

  • 2版:「金環蝕」
    → 制作側注釈あり:「他の箇所に揃えるべく『金環蝕』に修正」


5. 余計な改行・誤植の修正

  • 複数ページで微細な改行・レイアウト調整あり(特に目に見えるのはカラム内コメントやページ末尾のテキスト)。


6. 価格表示

  • 1版:FREE

  • 2版:¥0


7. クレジット表記

  • 1版:「與賀田 孔明」の名前が最後の数ページに複数回出てくる。

  • 2版:それが削除されている。


8. XOR関連の宣伝文句

  • どちらのファイルにも含まれているが、文の改行や語順に若干の違いあり。


🟡 全体的な評価

  • 2版は1版に対して明らかな完成版であり、著者情報や目次の充実、表記揺れの修正、ページ構成の調整が行われています。

  • 内容自体(写真・解説文)は基本的に同じですが、体裁と正確性の向上が2版の主な更新点です。


もし差分PDFを視覚的に見たい場合は、XORのような差分比較ツールでも確認できますが、上記の比較で内容の違いは把握できると思います。他にも確認したい部分があれば教えてください。

この結果に対する評価は以下の通り。

  1. ❶ 差分の検出もれが発生している
  2. ❷ 検出結果が分かりにくい

詳しい説明は次の章で。

ページの先頭に戻る

❶ 差分の検出もれが発生している

ChatGPTによる検出結果の冒頭に「✅ 主な違いの一覧」とある通り、検出した差異は抜粋です。

つまり、ChatGPTはこれら以外にも差異があることを認識しながらもすべてを洗い出してくれていません。これはPDFの新旧差分比較において致命的です。ドキュメント制作では一つの無用な変更の見逃しが後のコストを増大させる可能性があります。

言うまでもなく、修正前と後のPDFの比較では、すべての変更箇所を洗い出してくれないと信頼が置けません。

10年ぐらい前、当時勤めていた制作会社にて、私はとある商用製品の取扱説明書の制作に編集者の立場で携わりました。

DTPオペレータに修正を依頼し、上がってきたPDFと修正前のPDFをAcrobat Proで比較し、DTP原稿の修正指示の箇所はすべて正しく修正されていたのを確認。クライアントに提出し、OKをもらって印刷まで進んだものの、後からH4(最終ページ)の作成日付に無用な変更があることが発覚しました。どうやら当時のAcrobat Proの比較アルゴリズムに難があり、比較もれを起こしていたようです。

結果、刷り直しとなり再印刷および関連人件費の増加を招くことになりました。

Acrobat Proの比較アルゴリズムも今では大きく進歩していることでしょうが、見落としが絶対に起きないレベルに達しているかはわかりません。

ページの先頭に戻る

❷ 検出結果が分かりにくい

例えば以下の箇所。

3. タイトル表記の違い

  • 1版

    • 表紙:Michiaki Yogata

  • 2版

    • 表紙:YOGATA Michiaki(欧文表記が全て大文字に)

いかにもChatGPTによる説明文ですが、これだと両方のPDFと照らし合わせて、指摘箇所がどこかを探して確認する必要があります。もし同じページに同様の表記が複数あれば迷うことでしょう。

対してXORで見つけた該当箇所の差分にマーキングした場合の例はこちら。

XORによる比較結果の例

比較結果を見つけてマーキングしている途中

どのように変化したかは分からないものの、どこが変わったかは見ただけで直観的に把握できます。

ページの先頭に戻る

結論

現状のChatGPTは、少なくとも図鑑や取扱説明書など画像とテキストがレイアウトされたPDFの比較には使い物にならないようです(2025年6月時点)。

AIへのオーダーを工夫すればもっと正確な比較結果を導き出せるかもしれませんが、当然ながら上のサンプルPDFの組み合わせだけに当てはまる比較結果を正確に出せても意味はありません。

それに、先々AIによるPDF比較の精度が格段に上がったとしてもPDF比較の専門アプリよりも使い勝手やコストパフォーマンスが優れていなければ、やはり利用価値はありません。

「今後ホワイトカラー業務の多くがAIに置き換えられる」という予測は、実際のところ「ホワイトカラー業務の内、情報処理的なデスクワークがAIに置き換えられる」と言った方が妥当でしょう。

そしてDTPや校正の作業はホワイトカラーワークとはいえ手作業による職人技の連続なので、AIに置き換えられるのはずっと先になるはずです。

ページの先頭に戻る