使用标记标签的化学式中的 sed/awk 下标数字

Question 1

例如：

sed -r 's:([A-Za-z])([0-9]+):\1<sub>\2</sub>:g'

应该做这项工作。

（匹配一个字母后跟一组数字，并将其记住为 \1 和 \2。将所有这些替换为相同的字母 (\1) 加上标记中包含的数字组 (\2) sub。）

Answer

例如：

sed -r 's:([A-Za-z])([0-9]+):\1<sub>\2</sub>:g'

应该做这项工作。

（匹配一个字母后跟一组数字，并将其记住为 \1 和 \2。将所有这些替换为相同的字母 (\1) 加上标记中包含的数字组 (\2) sub。）

Question 2

由于您提到可能存在误报，需要稍后手动更正，因此您可能需要考虑一种稍微更稳健的形式，其中包含以下限制：

鉴于这些你可以尝试，例如：

sed 's|\([[:upper:]][[:lower:]]\{0,1\}\)\([0-9]\{1,\}\)|\1<sub>\2</sub>|g'

使用非 POSIX-r选项，可读性会稍好一些，但可移植性较差：

sed -r 's|([[:upper:]][[:lower:]]?)([0-9]+)|\1<sub>\2</sub>|g'

通过确保全部的正在处理的“单词”不包含连续的小写字母，当然可以通过专门检查每个可能的化学符号来进一步改进，但这会变得越来越花哨，但回报却越来越少。上述内容应该已经大大减少了误报。

Answer

由于您提到可能存在误报，需要稍后手动更正，因此您可能需要考虑一种稍微更稳健的形式，其中包含以下限制：

鉴于这些你可以尝试，例如：

sed 's|\([[:upper:]][[:lower:]]\{0,1\}\)\([0-9]\{1,\}\)|\1<sub>\2</sub>|g'

使用非 POSIX-r选项，可读性会稍好一些，但可移植性较差：

sed -r 's|([[:upper:]][[:lower:]]?)([0-9]+)|\1<sub>\2</sub>|g'

通过确保全部的正在处理的“单词”不包含连续的小写字母，当然可以通过专门检查每个可能的化学符号来进一步改进，但这会变得越来越花哨，但回报却越来越少。上述内容应该已经大大减少了误报。

Question 3

分组和反向引用就是诀窍。感谢您朝着正确的方向推动。最后，我使用了以下内容：

sed 's/\([A-Z][a-z]*\)\([0-9][0-9]*\)/\1<sub>\2<\/sub>/g' file

这可以容忍文档中出现标题（例如 h2）的情况。

Answer

分组和反向引用就是诀窍。感谢您朝着正确的方向推动。最后，我使用了以下内容：

sed 's/\([A-Z][a-z]*\)\([0-9][0-9]*\)/\1<sub>\2<\/sub>/g' file

这可以容忍文档中出现标题（例如 h2）的情况。

相关内容