有没有一种方法可以分割 HTML 文件而不丢失每个片段中的所有格式?

有没有一种方法可以分割 HTML 文件而不丢失每个片段中的所有格式?

所以分割命令允许我将文件分成几部分。但问题是,只有一个文件将包含 HTML 标头,并且只有一个文件将包含 HTML 页脚。

(这可能与许多包含页眉/页脚信息的其他文件相关)

答案1

大多数 UNIX 工具(例如split)与文件格式无关。要将使用特定格式(如 HTML)的文件拆分为较小的有效格式文件,请使用特定工具。对于 HTML 分割,htmldoc是我在网上快速查找的第一个。它已经被打包了(至少在 debian、ubuntu、fedora、gentoo 等中......)。

不是使用sed-ish 技巧对文件做出麻烦的假设,因为有一天或另一天它会适得其反。

答案2

您可以首先提取并删除源文件的页眉/页脚,将其拆分并将提取的页眉/页脚添加到每个拆分中。

您可以使用xpathsed来编辑源文件。

例如,此命令行删除文件的页眉页脚:

$ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html

其中 sed 是 GNU 版本,并且假定 body 标记位于其自己的行上。

相关内容