帮助使用 sed 脚本删除维基百科引用编号

2024-6-4 • tag-icon

sed text-processing

帮助使用 sed 脚本删除维基百科引用编号

我刚刚开始学习 sed 和 awk。明天我要交一份家庭作业，内容是从 Wikipedia 复制粘贴的。正好有机会练习一下 sed 脚本！

我有 html 格式的文档。现在我需要将其替换[<number>]为空。我该怎么做？

这是我尝试过的，但我认为它甚至不符合我想要的模式：

cat content.xml | sed 's/\[\d+\]/ /g' > content2.xml

下一步，我将实现这些模式的替换，这些模式是超链接，但即使是上面提到的简单模式也无法匹配：

<a href="https://en.wikipedia.org/wiki/Immune_system">immune system</a>

然后删除引用：

<a name="cite_ref-Gleeson2007_27-0"/><a href="https://en.wikipedia.org/wiki/Physical_exercise#cite_note-Gleeson2007-27">[27]</a>

答案1

你走错了方向，你应该学习 XML/XSLT :)（XML 样式表）。无论是用于 ODT 还是 XHTML。对于 ODT，宏可能更好，但我不知道。

看一下这个可以接受的答案：RegEx 匹配除 XHTML 自包含标签之外的开放标签

解决方案这个答案是关于如何用 Libreoffice 中的描述替换所有图像只需稍加修改即可。

相关内容