正则表达式匹配缺少结束双引号的打开双引号

Question

您为数据提供的规范存在一个大问题。如果"|"是有效字符串，或者更准确地说，允许带引号的字符串以竖线开头，那么如果缺少结尾引号的字符串（例如）的"Account1第一个后续带引号字段以竖线开头（例如）"|Mary"，则无法确定在所有情况下如果是"|的结束引文|"Account1||||||||||||"|或的开始引文|"|Mary"|。

例如，使用缩短的（为了可读性）稍微修改过的数据版本，其中从第二个开始的所有带引号的字符串都以竖线开头，并且缺少结尾的引号

123|110092|ACCT|"HC Account"|"Account1||||||||||||"|Mary|||"|||||132|"|STE|504|1253

可以看出，这将被错误地解释为

123 110092 ACCT "HC Account" "Account1||||||||||||" Mary "|||||132|" STE 504 1253

请注意，无论使用正则表达式、Python 还是其他语言，这都是一个问题。一般情况下的问题能可以“解决”，但它会很复杂，需要了解每行有多少个字段以及这些字段的数据结构。（并且可能总是有一些边缘情况没有得到解决。）

话虽如此，一个正则表达式解决方案至少可以检测最多开头双引号缺少结尾双引号的情况需要采用多遍方法，因为正则表达式需要捕获从每行开头到第一个未处理的不匹配开头双引号的所有文本。（否则，正如您的正则表达式所示，即使在最简单的情况下也会发现误报。）

所需的传递次数是整个文件中任何一行中仅打开引号的字段的最大数量加一。终止每个文件的处理需要检测正则表达式何时不再对文件进行修改。

这是适用于大多数情况的最简单的正则表达式：

                    Capturing Group 1           Capturing Group 2
               (All previous valid fields)  (Unclosed opening quote)
  __________________________|_________________________  |
 |                                                    || |
^((?:(?:(?!")[^|\r\n]*|"[^"\r\n]*"(?=$|\|))(?:$|\|))*+)(")
        |____________| |_________________| |______|
              |                 |              |
      Unquoted field  OR  Quoted field     EOL or hypen delimiter

将其与以下替换字符串一起使用：

$1\\$2

演示

Answer 1