我有一些 HTML 文档需要批量修复。文件中的主要问题是:
- 无序标签 (
<p><i>like this</p></i>
) - 未关闭的标签 (
<p>like this
)
我知道输出不会是完美的,但我需要快速修复这些简单的问题以便进一步处理。
有工具可以实现这个吗?我想要一个可以在 Mac OS X 或 Linux 上运行的命令行工具。如果没有可用的工具,我最终会自己编写,但如果存在的话,我更喜欢已经为这个任务构建的工具。
澄清:这不是软件推荐的问题——我很确定没有一个软件可以做到这一点,我更想找一些可以组合在一起的软件,比如 sed/awk/Python/等。它们可以完成这个任务。两个主要问题是上面提到的无序和未关闭的标签。如果我能解决这些问题,剩下的问题就容易解决了(编码等)。
答案1
HTML Tidy 是一款用于检查和清理 HTML 源文件的工具。它对于查找和纠正深层嵌套 HTML 中的错误,或使怪异的代码再次清晰易读特别有用。