我们有一个内部网,用户经常在上面发布 PDF 格式的信息。
其中许多 PDF 都无法搜索。也就是说,它们看起来像是图像(文本不可选择/搜索,SharePoint 搜索无法索引内容)。不过,有些 PDF 还可以。
不可搜索 PDF 上的元数据显示,它们是在公司提供的硬件上使用 Office365 在 Windows 上保存的。我询问了元数据中提到的一些用户,他们确认他们所做的只是将 Word 保存为 PDF。
不受影响的(可搜索)PDF 显示它们要么保存在 MacOS 计算机上(通常使用 InDesign),要么使用 Google Chrome(也许是某些扩展程序?)。
这是一个信息权限管理问题?
如果是这样,我对此不负责任,但我可以找到那个人并询问他们。
或者可能是其他问题?
编辑:
这是我所看到的,但我无法测试下面第 2 点(仅被告知会发生这种情况):
在非公司提供的 Windows 机器上,从 Word 保存 PDF。默认情况下,生成的 PDF 是可搜索的。
在公司提供的 Windows 机器上从 Word 保存 PDF。生成的 PDF 不可搜索,用户也无法进行搜索。
在公司提供的 Macintosh 机器上从 Word 保存 PDF。默认情况下,生成的 PDF 是可搜索的(使用“最适合打印“ 或者 ”最适合电子分发(使用 Microsoft 在线服务)“。
答案1
进一步的调查表明这不是 IRM 问题。但它与平台有关。
虽然我还没有找到支持这一观点的引文,但如果文档中使用了“标准”字体(我不确定其定义),则使用 MS Word(Office365)的 Windows 计算机会默认将 PDF 保存为可搜索的。即 Calibri、Arial、Times Roman 等。
如果使用需要嵌入的“非标准”字体,Windows 上的 Word 将生成无法搜索的 PDF。
但是,如果您在 MacOS 上使用 MS Word,相同的“非标准”字体似乎会在生成的 PDF 中被视为可搜索文本。
我不知道这是否与字体本身的构造有关,或者某些底层的 Windows 字体处理问题有关,需要进一步测试。
因此,虽然这是原始问题的答案,但它并不能解决更广泛的问题,导致内联网大约有 50% 是无用的。