用于仅从文档中下载选择性页面/特定页面的工具!

用于仅从文档中下载选择性页面/特定页面的工具!

许多工具具有打印特定页面或连续范围的选定页面的功能。

同样,我们可能只需要查看互联网上可用的特定文档的几页。因此,与其下载整个文档,不如只下载该文档中的几个选择性页面。是否有工具/协议可以帮助下载文档的特定页面而不是整个文档(PDF 或 Word 文档或基于 Linux 的文档文件或 PPT 文件或 Excel 文件)?

如果该工具具有从同一文档下载多个随机/连续选择页面的功能,那将会更有帮助!

我真的很惊讶下载管理器也不支持这个功能!!

我认为有很多优点,例如仅快速下载特定用户想要的内容并节省带宽。

许多文件传输/共享工具/协议不支持此功能的具体原因是什么?

Linux 或 Windows 环境中有这样的工具/协议吗?有什么想法吗?

非常感谢,Karthik Balaguru

答案1

您需要的是能够识别应用程序的 HTTP 或 FTP 服务器。这就要求 Web 服务器能够解释所需的每种文档类型。PDF、Word...哦,等等,哪个版本?Word XP?2000?2003?.doc 还是 .docx?

您可能能够找到一个单独的应用程序,它可以在您的 Web 服务器上动态执行此功能,但这会消耗资源。这确实可以节省带宽 - 但是我预计,完成此操作所需的服务器处理资源将远远超过仅发送整个文件的带宽成本。

答案2

好的,我不认为该工具应该打开文件进行解释。它应该通过解析内存布局(十六进制格式)来解释页面(只是猜测)!这样不可能吗?

如果该文件位于服务器的地址 0x20000000,则假设第 10 页位于位置 0x20001000。要下载页面,只需直接转到 0x20001000 位置(直接访问)并发送内容即可。客户端可以检查页面结束字符并通知服务器。这可能有助于减轻服务器的负担。除此之外,这是从服务器发送数据的通常功能。难道不是这样吗?

答案3

如果服务器不了解应用程序(如 Kara Marfia 所暗示的),则无法实现这一点。您不能简单地跳转到文件的中间并假设那就是文档的中间,因为大多数数据格式的结构都不是那样的。

以 OpenOffice Writer 文档为例(我使用这个例子是因为我知道小的关于格式有些问题,但使用其他格式也会遇到类似的问题)。

文件的文本内容出现在一个小块中(并用元数据包裹)。

文件的不同部分包含元数据(例如作者姓名)

其他地方是有关如何设置内容样式的信息。

并且文件中还存在大量其他数据。

因此,数据以非线性方式排列。然后对其进行压缩——因此,即使部分文件中的线性部分被分割。

(以上内容已简化。对 odt 文件运行解压缩,您就可以自己查看其结构。)

大多数文档格式都不是简单的、线性的文档呈现方式。您不能简单地将它们剪成碎片并提取您关心的部分。

相关内容