用于仅从文档中下载选择性页面/特定页面的工具！

Question 1

您需要的是能够识别应用程序的 HTTP 或 FTP 服务器。这就要求 Web 服务器能够解释所需的每种文档类型。PDF、Word...哦，等等，哪个版本？Word XP？2000？2003？.doc 还是 .docx？

您可能能够找到一个单独的应用程序，它可以在您的 Web 服务器上动态执行此功能，但这会消耗资源。这确实可以节省带宽 - 但是我预计，完成此操作所需的服务器处理资源将远远超过仅发送整个文件的带宽成本。

Answer

您需要的是能够识别应用程序的 HTTP 或 FTP 服务器。这就要求 Web 服务器能够解释所需的每种文档类型。PDF、Word...哦，等等，哪个版本？Word XP？2000？2003？.doc 还是 .docx？

您可能能够找到一个单独的应用程序，它可以在您的 Web 服务器上动态执行此功能，但这会消耗资源。这确实可以节省带宽 - 但是我预计，完成此操作所需的服务器处理资源将远远超过仅发送整个文件的带宽成本。

Question 2

好的，我不认为该工具应该打开文件进行解释。它应该通过解析内存布局（十六进制格式）来解释页面（只是猜测）！这样不可能吗？

如果该文件位于服务器的地址 0x20000000，则假设第 10 页位于位置 0x20001000。要下载页面，只需直接转到 0x20001000 位置（直接访问）并发送内容即可。客户端可以检查页面结束字符并通知服务器。这可能有助于减轻服务器的负担。除此之外，这是从服务器发送数据的通常功能。难道不是这样吗？

Answer

好的，我不认为该工具应该打开文件进行解释。它应该通过解析内存布局（十六进制格式）来解释页面（只是猜测）！这样不可能吗？

如果该文件位于服务器的地址 0x20000000，则假设第 10 页位于位置 0x20001000。要下载页面，只需直接转到 0x20001000 位置（直接访问）并发送内容即可。客户端可以检查页面结束字符并通知服务器。这可能有助于减轻服务器的负担。除此之外，这是从服务器发送数据的通常功能。难道不是这样吗？

Question 3

如果服务器不了解应用程序（如 Kara Marfia 所暗示的），则无法实现这一点。您不能简单地跳转到文件的中间并假设那就是文档的中间，因为大多数数据格式的结构都不是那样的。

以 OpenOffice Writer 文档为例（我使用这个例子是因为我知道小的关于格式有些问题，但使用其他格式也会遇到类似的问题）。

文件的文本内容出现在一个小块中（并用元数据包裹）。

文件的不同部分包含元数据（例如作者姓名）

其他地方是有关如何设置内容样式的信息。

并且文件中还存在大量其他数据。

因此，数据以非线性方式排列。然后对其进行压缩——因此，即使部分文件中的线性部分被分割。

（以上内容已简化。对 odt 文件运行解压缩，您就可以自己查看其结构。）

大多数文档格式都不是简单的、线性的文档呈现方式。您不能简单地将它们剪成碎片并提取您关心的部分。

Answer