pdftotext 不输出希伯来字符

Question 1

幸运的是，友好的 Ubuntu 用户让安装语言变得非常简单。只需在 shell 中输入以下命令：

sudo apt-get install language-support-he language-pack-he

您会注意到它为许多其他子系统（例如 HSpell、Myspell 和 PostgreSQL）添加了希伯来语支持，并且还安装了一些希伯来语字体。

为了达到更好的效果，请安装以下希伯来字体：

sudo apt-get install culmus culmus-fancy xfonts-efont-unicode xfonts-efont-unicode-ib xfonts-intl-european msttcorefonts

最后，确保在运行 pdftotext 时指定 UTF-8 编码格式，因为它可能无法自动检测您的源：

pdftotext -enc UTF-8 input.pdf output.txt

Answer

幸运的是，友好的 Ubuntu 用户让安装语言变得非常简单。只需在 shell 中输入以下命令：

sudo apt-get install language-support-he language-pack-he

您会注意到它为许多其他子系统（例如 HSpell、Myspell 和 PostgreSQL）添加了希伯来语支持，并且还安装了一些希伯来语字体。

为了达到更好的效果，请安装以下希伯来字体：

sudo apt-get install culmus culmus-fancy xfonts-efont-unicode xfonts-efont-unicode-ib xfonts-intl-european msttcorefonts

最后，确保在运行 pdftotext 时指定 UTF-8 编码格式，因为它可能无法自动检测您的源：

pdftotext -enc UTF-8 input.pdf output.txt

Question 2

你应该看看TET，文本提取工具包由 PDFlib.com 提供（由《PostScript 和 PDF Bible》的作者 Thomas Merz 运营）。

TET 主要是一个用于其他 PDF 处理应用程序的库，但它们也……

这个可以从 PDF（包括 CJK、希伯来语、阿拉伯语）中提取非 ASCII 文本，将连字符恢复为其原始字符对或三个字符，并且总体上它可以超越 Adobe 自己的文本提取功能……

它适用于 Windows、Linux、Mac OS X 和各种 Unix 系统。

Answer

你应该看看TET，文本提取工具包由 PDFlib.com 提供（由《PostScript 和 PDF Bible》的作者 Thomas Merz 运营）。

TET 主要是一个用于其他 PDF 处理应用程序的库，但它们也……

这个可以从 PDF（包括 CJK、希伯来语、阿拉伯语）中提取非 ASCII 文本，将连字符恢复为其原始字符对或三个字符，并且总体上它可以超越 Adobe 自己的文本提取功能……

它适用于 Windows、Linux、Mac OS X 和各种 Unix 系统。

相关内容