有的PDF文件在复制的时候,会出现ff或者fi以问号的形式替代的情况,比如figure复制出来就是?gure,这是什么原因,怎么破?
我们先看看原因
这些PDF文件复制的时候出现ff或者fi以问号的形式替代的情况,很可能是原始文件使用LaTeX进行排版之后转换的。
LaTeX我不了解,曾经想学习使用过,但是这鸟实在与我的使用习惯相差太大最终而放弃。在Latex中,把ff这样的字母组合会当成一个连体号排版出来的,而不是分开来的。如要将两者分开,应在两者中间加入“\/”,即“f\/f”。
另外有人说是嵌入字体的问题。有的PDF文件使用的字体可能比较特殊,而系统中没有这种字体。但是这种情况即使没有相应的字体,应该只是显示样式的不同,不会影响复制结果。当然这是我的猜测而已。
如何破
最简单的方法是换一种PDF阅读器,如Adobe Reader,这样再复制的时候就不会出现上述问题。
但是我喜欢用的是PDF-XChange Viewer,如何在使用PDF-XChange Viewer的情况下成功复制这些不正确的单词呢。
PDF-XChange Viewer有个OCR识别功能,在PDF-XChange Viewer的工具栏中选择OCR图标,打开OCR识别。如果工具栏中没有OCR图标,在工具栏上右击选择「文件工具栏」即可。
- 识别主语言:根据页面主要语言进行选择,一般是英文
- PDF输出类型:选择「仅转换页面内容为图像-添加文字层」
- 页面范围:可以根据需要选择当前页或者全部页面
识别以后再次复制就可以正确复制这些ff或者fi的单词了。