PDF文件复制ff或fi以问号替代怎么破

有的PDF文件在复制的时候,会出现ff或者fi以问号的形式替代的情况,比如figure复制出来就是?gure,这是什么原因,怎么破?

我们先看看原因

这些PDF文件复制的时候出现ff或者fi以问号的形式替代的情况,很可能是原始文件使用LaTeX进行排版之后转换的。

LaTeX我不了解,曾经想学习使用过,但是这鸟实在与我的使用习惯相差太大最终而放弃。在Latex中,把ff这样的字母组合会当成一个连体号排版出来的,而不是分开来的。如要将两者分开,应在两者中间加入“\/”,即“f\/f”。

另外有人说是嵌入字体的问题。有的PDF文件使用的字体可能比较特殊,而系统中没有这种字体。但是这种情况即使没有相应的字体,应该只是显示样式的不同,不会影响复制结果。当然这是我的猜测而已。

如何破

最简单的方法是换一种PDF阅读器,如Adobe Reader,这样再复制的时候就不会出现上述问题。

但是我喜欢用的是PDF-XChange Viewer,如何在使用PDF-XChange Viewer的情况下成功复制这些不正确的单词呢。

PDF-XChange Viewer有个OCR识别功能,在PDF-XChange Viewer的工具栏中选择OCR图标,打开OCR识别。如果工具栏中没有OCR图标,在工具栏上右击选择「文件工具栏」即可。

  • 识别主语言:根据页面主要语言进行选择,一般是英文
  • PDF输出类型:选择「仅转换页面内容为图像-添加文字层」
  • 页面范围:可以根据需要选择当前页或者全部页面

识别以后再次复制就可以正确复制这些ff或者fi的单词了。

  • 本博客文章如未特别说明,皆为本站原创,默认采用署名-相同方式共享 4.0 国际协议
  • 相关文章

    发表回复

    您的电子邮箱地址不会被公开。 必填项已用 * 标注