PDF优化:勘误,目录,锐化,空白页,纠偏,去阴影,OCR,封面封底,双页拆分为单页
前言
本文将介绍 PDF 的优化方法,包括勘误,目录,锐化,空白页,纠偏,去阴影,OCR,封面封底,并对 PDF 进行了简单的分类。
PDF 分类
根据我的经验,PDF 以制作方式可以粗略地分为两大类,一类是扫描版 pdf,使用扫描仪等工具制作,类似于拍照,另一类是 True PDF,使用 LATEX 等专业的排版工具制作,我也称之为文字版 PDF.
扫描版 PDF 质量参差不齐,质量上限低,下限也低。
例举几种差的情况。

上面这张图片,页面偏斜,透字,有黑边,字迹也很不清晰,可以说是集各种问题与一身。

这张图片初看其实没什么问题,但是放大后会发现字迹是这样的。

所以看起来会感觉模糊。
当然也有好的情况。

像这种,即使放大到 1600%, 字迹仍十分清晰。
True PDF 质量下限高,存在的问题往往是没有目录书签、缺失空白页、缺失封面封底、没有进行勘误等等。
True PDF 的一个特点是,无论怎么放大,字迹都是清晰的,而且背景白洁,图形往往也是可以在保持清晰度的情况下无限放大。

好的 PDF 标准
怎么样才算一个好的 PDF?我总结出以下标准。
- 带有目录书签
- 字迹清晰
- 背景无杂质,不透字
- 页面无偏斜
- 无错页,缺页,重复页的情况
- 文字可以复制粘贴(经过 OCR)
- 已经根据勘误表勘误过
- 页面大小基本一致
- 保留超链接,点击可跳转
如果还需要打印,那么还需:
- 页面边缘留白适中
- 有封面与封底
推荐的工具
QuickOutline
用来添加目录。
Adobe Acrobat Pro
主力工具,功能丰富。
PDF 24
免费,可以部分替代 Adobe Acrobat Pro, 也有一些 Adobe Acrobat Pro 没有的功能。
Xournal++
用来编辑数学公式。
Google Gemini
Gemini 2.5 pro 视觉能力卓著,可以用来 OCR 目录。
夸克手机 app
文档处理功能丰富。
优化
接下来我们根据上面提出的标准对问题逐个击破。
目录书签
参考我之前写的一篇回答。
字迹处理、页面偏斜、背景杂质
主要是用 Adobe Acrobat Pro 的“增强扫描的 PDF”功能,“文本锐化”强度没有通用的参数,需要根据实际情况反复调试。

值得注意的是,“识别文本”的“输出”项中提供了“可编辑的文本和图像”这个选项,经实测,这个选项对英语 PDF 效果卓著,对中文 PDF 则效果不佳。


这是英语 PDF 的效果。
但是中文 PDF 就比较怪异了,而且整体观感也不好,不如不开启这个选项。

“可编辑的文本和图像”这个功能比较玄学,在“优化扫描的页面使用”可能存在将行间公式识别为图像的问题,如下。


但是在“扫描与 OCR”中使用这个功能则没有这种问题(使用时还会自动纠偏),而且批量 OCR 比单独一个个 OCR 速度快很多。
错页、缺页、重复页
错页难以快速的检查出来,需要一页一页的看。
比如 Dummit D.S., Foote R.M. Abstract Algebra[M/OL]. Wiley, 2003. https://books.google.com/books?id=KJDBQgAACAAJ. 这本书的某个电子版存在如下的错页情况,表格不完整,这就不好发现了。

可以通过其他电子版,剪切 PDF 页面来修复这个页面。

缺页与重复页的情况都可以根据 PDF 页码与书籍实际页码的差值的变化量进行判定。缺页情况,除了通过查找其他电子版进行修复之外,还可以自己扫描,然后添加到 PDF. 重复页只需删除质量较差的那一页即可。
当然,比较极端的缺页错页情况是可以自己制作 PDF 页面,然后添加到原 PDF 的。
以 Isaacs Irving Martin. Character theory of finite groups[M]. New York: Academic Press, Inc., 1976. 为例,我找到了两个电子版,一个扫描清晰,但是没有目录页,不是指没有目录的书签,而是没有目录的 PDF 页面,另一个则扫描质量差,但所幸有目录页。


于是我用 LATEX 制作了目录的 PDF 页面。


有一种特殊的情况是缺失空白页。即使是从 springer 官网下载的 Number Theory (Henri Cohen) 也会存在空白页缺失情况。这样会导致目录书签添加时发生错位,因此也需要修复。
张筑生的《数学分析新讲》某个电子版就存在上述的所有情况,我通过自己扫描书籍完成了修复工作。
OCR
Adobe Acrobat Pro 的“扫描与 OCR”中就有“识别文本”的功能。

勘误
主要讨论两种情况。
一种是纯文字,使用 Adobe Acrobat Pro 的“编辑 PDF”功能即可。
另一种是编辑数学公式,目前我并没有找到十分满意的方法。
一个可行的方法是使用 Xournal++ 这个工具,具体的操作方式见官网教程。
在 Richter Birgit. From categories to homotopy theory[M]. Cambridge: Cambridge University press, 2020. 这本书的勘误页中,对于下面这一条。

示例如下。

这是修改前的部分。

这是修改后的结果。
另一种可行的方式是使用 LATEX 生成勘误后的 PDF 页面,然后替换在原 PDF 中。这种方法耗时耗力,实乃下策。
页面大小
使用 PDF24 中“更改 PDF 页面大小”功能。

超链接
目前没有满意的修复方式。
页面边缘留白
留白过大过小都不适合打印,过大会使中间的文字过小,过小会使页面局促,不便批注。
比如下面这个页面,个人看来是属于留白过大的。

解决方法是使用 Adobe Acrobat Pro 的“组织页面”中“裁剪页面”的功能。

封面与封底
一般来说,封面容易获取,在 Google 一搜即是。但封底却没那么容易。
对于已有的封面封底图片,如果清晰度不高的话,可以使用下面两个网址提高画质。
对于某一系列的某本书,我们可以通过这个系列的其它书的封底来制作这本书的封底。主要是通过 Adobe Acrobat Pro 这个工具实现。如果涉及取色的话,可能还需要 Adobe Illustrator 软件。
对某一本孤立的书,也就是没有封底可参考的书,我的做法是自己制作封底。首先对封面进行取色,然后在封底添加从书籍官网处获得的书籍简介,最后在作者主页上获取头像与简介,贴在封底。
展示一些我自己做的封面封底。
Richter Birgit. From categories to homotopy theory[M]. Cambridge: Cambridge University press, 2020.

Modern Real Analysis (William P. Ziemer).

Dummit D.S., Foote R.M. Abstract Algebra[M/OL]. Wiley, 2003.

李文威《代数学讲义》。

非扫描件转扫描件
用夸克手机 app 的扫描文件功能。


双页拆分为单页
使用夸克手机 app,扫描文件,试卷,A 3 转 A 4.


呼吁
呼吁大家将优化后的 PDF 能分享出来,比如上传 Z-Library,造福他人。
