Notepad++ 正则表达式查找/替换相邻的 ID

Question

在 CSV 中查找/替换重复的 ID

我使用的不是完全优化但功能齐全的正则表达式是：

(GO:[\d]+),(GO:[\d]+)(.*)

替换为：

$1$3\n$2$3

给出输出：

ID, term, functional category
GO:0008166,viral replication,P,
GO:0008167,sigma virus replication,P,
GO:0008168,methyltransferase activity,F,
GO:0004480,methyltransferase activity,F,
GO:0008169,C-methyltransferase activity,F,

请注意没有在您想要的输出中重复逗号，因为我认为这可能是副作用，而不是期望的。

如果需要重复的逗号，请使用：

$1,$3\n$2$3

作为替代。

解释

(GO:[\d]+)- 第一个捕获组，匹配文字“GO：”后跟一个或多个数字（$1）

,- 匹配文字逗号（用于检测重复的 ID/忽略非重复的 ID）

(GO:[\d]+)- 第二个捕获组，与第一个相同！( $2)

(.*)- 第三个捕获组，匹配 0 个或更多“任何内容” - 此处为“该行剩余部分”的简写 ( $3)

$1$3\n$2$3- 打印 id 1，然后打印剩余行；然后换行；打印 id 2，然后打印剩余行

警告

请注意，要使上述正则表达式起作用，您必须. matches newline禁用搜索选项。否则，第三个捕获组将匹配过多。

点匹配换行符

Answer 1

在 CSV 中查找/替换重复的 ID

我使用的不是完全优化但功能齐全的正则表达式是：

(GO:[\d]+),(GO:[\d]+)(.*)

替换为：

$1$3\n$2$3

给出输出：

ID, term, functional category
GO:0008166,viral replication,P,
GO:0008167,sigma virus replication,P,
GO:0008168,methyltransferase activity,F,
GO:0004480,methyltransferase activity,F,
GO:0008169,C-methyltransferase activity,F,

请注意没有在您想要的输出中重复逗号，因为我认为这可能是副作用，而不是期望的。

如果需要重复的逗号，请使用：

$1,$3\n$2$3

作为替代。

解释

(GO:[\d]+)- 第一个捕获组，匹配文字“GO：”后跟一个或多个数字（$1）

,- 匹配文字逗号（用于检测重复的 ID/忽略非重复的 ID）

(GO:[\d]+)- 第二个捕获组，与第一个相同！( $2)

(.*)- 第三个捕获组，匹配 0 个或更多“任何内容” - 此处为“该行剩余部分”的简写 ( $3)

$1$3\n$2$3- 打印 id 1，然后打印剩余行；然后换行；打印 id 2，然后打印剩余行

警告

请注意，要使上述正则表达式起作用，您必须. matches newline禁用搜索选项。否则，第三个捕获组将匹配过多。

点匹配换行符

Notepad++ 正则表达式查找/替换相邻的 ID

答案1

在 CSV 中查找/替换重复的 ID

解释

警告

相关内容