如何删除一批 700 多个文件中的 HTML 部分？

Question

最常见的通用 IDE 具有在文件（目录结构内）中（正则表达式）搜索和替换的功能。即使是小型编辑器也倾向于提供此功能；在 Windows 中，NotePad++ 就是一个很好的例子。

对于 OSX，您有常用的 shell 工具，这可能是 sed 的典型任务，它本身就是一个编辑器……一个非常特殊的编辑器。

假设所有文件都位于同一目录中，您可以在该目录中使用它来删除不需要的部分，并将输出放在以 .htm 结尾的文件中（经过一些检查后）您可以将其重命名为 .html。

$ cat just-an-html.html
<tag> txt_a Content1_to_delete txt_b </tag>
<tag> txt_a Content2_to_delete txt_b </tag>
<tag> txt_a Content3_to_delete txt_b </tag>
$ for HTML in *.html; do sed -e 's@\(tag> txt_a\) .*\(txt_b </tag\)@\1 \2@g' $HTML > $(basename $HTML html)htm ; done
$ ls *.htm
just-an-html.htm
$ cat just-an-html.htm
<tag> txt_a txt_b </tag>
<tag> txt_a txt_b </tag>
<tag> txt_a txt_b </tag>

也可以直接删除文件内部的子字符串（-i：inplace），但除非您有最新的备份，否则我不建议这样做。

$ cat just-an-html.html
<tag> txt_a Content1_to_delete txt_b </tag>
<tag> txt_a Content2_to_delete txt_b </tag>
<tag> txt_a Content3_to_delete txt_b </tag>
$ for HTML in *.html; do sed -i -e 's@\(tag> txt_a\) .*\(txt_b </tag\)@\1 \2@g' $HTML  ; done
$ cat just-an-html.html
<tag> txt_a txt_b </tag>
<tag> txt_a txt_b </tag>
<tag> txt_a txt_b </tag>

Answer 1

最常见的通用 IDE 具有在文件（目录结构内）中（正则表达式）搜索和替换的功能。即使是小型编辑器也倾向于提供此功能；在 Windows 中，NotePad++ 就是一个很好的例子。

对于 OSX，您有常用的 shell 工具，这可能是 sed 的典型任务，它本身就是一个编辑器……一个非常特殊的编辑器。

假设所有文件都位于同一目录中，您可以在该目录中使用它来删除不需要的部分，并将输出放在以 .htm 结尾的文件中（经过一些检查后）您可以将其重命名为 .html。

$ cat just-an-html.html
<tag> txt_a Content1_to_delete txt_b </tag>
<tag> txt_a Content2_to_delete txt_b </tag>
<tag> txt_a Content3_to_delete txt_b </tag>
$ for HTML in *.html; do sed -e 's@\(tag> txt_a\) .*\(txt_b </tag\)@\1 \2@g' $HTML > $(basename $HTML html)htm ; done
$ ls *.htm
just-an-html.htm
$ cat just-an-html.htm
<tag> txt_a txt_b </tag>
<tag> txt_a txt_b </tag>
<tag> txt_a txt_b </tag>

也可以直接删除文件内部的子字符串（-i：inplace），但除非您有最新的备份，否则我不建议这样做。

$ cat just-an-html.html
<tag> txt_a Content1_to_delete txt_b </tag>
<tag> txt_a Content2_to_delete txt_b </tag>
<tag> txt_a Content3_to_delete txt_b </tag>
$ for HTML in *.html; do sed -i -e 's@\(tag> txt_a\) .*\(txt_b </tag\)@\1 \2@g' $HTML  ; done
$ cat just-an-html.html
<tag> txt_a txt_b </tag>
<tag> txt_a txt_b </tag>
<tag> txt_a txt_b </tag>

如何删除一批 700 多个文件中的 HTML 部分？

答案1

相关内容