所以分割命令允许我将文件分成几部分。但问题是,只有一个文件将包含 HTML 标头,并且只有一个文件将包含 HTML 页脚。
(这可能与许多包含页眉/页脚信息的其他文件相关)
答案1
大多数 UNIX 工具(例如split
)与文件格式无关。要将使用特定格式(如 HTML)的文件拆分为较小的有效格式文件,请使用特定工具。对于 HTML 分割,htmldoc
是我在网上快速查找的第一个。它已经被打包了(至少在 debian、ubuntu、fedora、gentoo 等中......)。
做不是使用sed
-ish 技巧对文件做出麻烦的假设,因为有一天或另一天它会适得其反。
答案2
您可以首先提取并删除源文件的页眉/页脚,将其拆分并将提取的页眉/页脚添加到每个拆分中。
您可以使用xpath
或sed
来编辑源文件。
例如,此命令行删除文件的页眉页脚:
$ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html
其中 sed 是 GNU 版本,并且假定 body 标记位于其自己的行上。