将多行列表转换为 TSV

Question 1

我喜欢将问题分解，并尝试优化我发现的任何.*问题.*?。请注意，如果 HTML 结构发生变化，则发生问题的可能性会大大增加。

我也是支持该标志的正则表达式的粉丝，/x这样我就可以添加空格和注释来帮助一切适应我的大脑。

这是我的想法，并附上了一些注释以帮助理解每个部分的作用：

<li>
(?>[<](?!a\b)[^<>]*[>]|[^<>]+)*
<a\shref="(?<url>[^"]+)"[^>]*>

# Match until we reach '<img'
(?>[<](?!img\b)[^<>]*[>]|[^<>]+)*
<img

# Match until we reach 'alt=' within '<img...>'
(?>[^<>=]*+(?<!alt)=|"[^<>"=]*"\s)*
alt="(?:On\sContact[\s–:\-â€“]*)?(?<on_contact>[^"]+)"[^<>]*>

# Match until it reaches a '<p...>' that does not contain some other opening '<' tag element.
(?>[<](?!p\b)[^<>]*[>]|[^<>]+|<p[^>]*>\s*<(?!\/?p\b)[^<>]*>)*
<p[^>]*>

# Match 'stuff stuff ... stuff stuff' without including trailing whitespace.
(?<desc>[^<>\s]+(?>\s+[^<>\s]+)*
  # Handle <strong>...</strong> nested tags
  (?>\s*[<](?!\/p)[^<>]*[>]|\s*[^<>\s]+(?>\s+[^<>\s]+)*)*
)

\s*<\/p>

# Match until we reach another '<p...>'
(?>[<](?!p\b)[^<>]*[>]|[^<>]+)*
<p[^>]*>

# Capture the date
(?<date>[^<]+)

# Match until we reach a '<li>' (or end of string)
(?>[<](?!li\b)[^<>]*[>]|[^<>]+)*

您可以看到此操作作用于您的原始文本这里。

可以找到相同的正则表达式，但删除了注释行和空格这里同样，它应该能够直接放入 Notepad++ 或任何您拥有的兼容 PCRE2 的工具中。

Answer

我喜欢将问题分解，并尝试优化我发现的任何.*问题.*?。请注意，如果 HTML 结构发生变化，则发生问题的可能性会大大增加。

我也是支持该标志的正则表达式的粉丝，/x这样我就可以添加空格和注释来帮助一切适应我的大脑。

这是我的想法，并附上了一些注释以帮助理解每个部分的作用：

<li>
(?>[<](?!a\b)[^<>]*[>]|[^<>]+)*
<a\shref="(?<url>[^"]+)"[^>]*>

# Match until we reach '<img'
(?>[<](?!img\b)[^<>]*[>]|[^<>]+)*
<img

# Match until we reach 'alt=' within '<img...>'
(?>[^<>=]*+(?<!alt)=|"[^<>"=]*"\s)*
alt="(?:On\sContact[\s–:\-â€“]*)?(?<on_contact>[^"]+)"[^<>]*>

# Match until it reaches a '<p...>' that does not contain some other opening '<' tag element.
(?>[<](?!p\b)[^<>]*[>]|[^<>]+|<p[^>]*>\s*<(?!\/?p\b)[^<>]*>)*
<p[^>]*>

# Match 'stuff stuff ... stuff stuff' without including trailing whitespace.
(?<desc>[^<>\s]+(?>\s+[^<>\s]+)*
  # Handle <strong>...</strong> nested tags
  (?>\s*[<](?!\/p)[^<>]*[>]|\s*[^<>\s]+(?>\s+[^<>\s]+)*)*
)

\s*<\/p>

# Match until we reach another '<p...>'
(?>[<](?!p\b)[^<>]*[>]|[^<>]+)*
<p[^>]*>

# Capture the date
(?<date>[^<]+)

# Match until we reach a '<li>' (or end of string)
(?>[<](?!li\b)[^<>]*[>]|[^<>]+)*

您可以看到此操作作用于您的原始文本这里。

可以找到相同的正则表达式，但删除了注释行和空格这里同样，它应该能够直接放入 Notepad++ 或任何您拥有的兼容 PCRE2 的工具中。

Question 2

您的正则表达式包含一些错误，导致它与文本不匹配。

删除无用的（在 Notepad++ 中）斜线字符转义\/==>/
.*用非贪婪的替换所有.*?
你的暴躁贪婪令牌顺序错误，(?:.(?!))+应该(?:(?!).)+

此外，<li>示例文本中的 2 的结构并不相同：

前者在第二段中有图片
后者在第一段中有图片

那么捕获组就不会捕获相同的数据。

您可以查看正则表达式这里

我稍微改变了你的正则表达式，假设想要的段落不包含任何标签，它适用于你的例子：

<li>.*?<a href="([^"]+)".*?alt="On Contact: ([^"]+)".*?<p[^>]*>((?:(?![<>]).)+?)</p>.*?<p[^>]*>([a-zA-Z]{3} \d\d?, \d{4} \d\d?:\d\d)\s*</p>

演示与说明

在 Notepad++ 中运行

Ctrl+H
找什么：<li>.*?<a href="([^"]+)".*?alt="On Contact: ([^"]+)".*?<p[^>]*>((?:(?![<>]).)+?).*?<p[^>]*>([a-zA-Z]{3} \d\d?, \d{4} \d\d?:\d\d)\s*
用。。。来代替：$4\n$2\n$1\n$3\n\n
查看环绕
查看 正则表达式
查看 . matches newline
Replace all

截图（之前）：

截图（之后）：

Answer