PDFの不思議な仕様

以前、PDFのデータ形式を覗いてみたことがあります。きっかけは、ほんのわずかなテキスト修正だったのに、Adobe Acrobat DCのPDF比較機能が差異を見つけてくれなかったから。

そこで修正前と後のPDFをテキストエディタで開いてみて驚いたのが、描画要素の並びがかなり違っていたこと。HTMLなら基本的に上から下に要素を記述していくけど、PDFでは違うようです。「どこに描画されるべきか」という情報を持った要素が順不同で格納されていたかと。Acrobatの読み上げ機能でページを読ませても上から順に読み上げてくれないのもそのせいなのでしょう。

それってAmazonの倉庫のような感じかと。Amazonの倉庫では入荷した商品を整頓して格納するのではなく、無造作に格納する代わりにどこに何があるかを厳格に管理しているそうですね。これにより格納場所の選定や整列に迷うことがなくなり業務効率が上がります。

PDFの仕様がそのような思想で策定されたのかは知らないけど、それが正確なPDF比較を難しくしている要因の一つなのかも。もちろん各ツールは表示上の順番を把握した上で比較していくのだろうけど、それでもその仕様のおかげで要素のペアリングが難しいケースも出てくるのではないかと。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です