将包含键值记录的文件压缩为 CSV

Question 1

下面的awk程序应该可以工作。理想情况下，您可以将其保存到单独的文件中（例如squash_to_csv.awk）：

#!/bin/awk -f

BEGIN {
    FS=": *"
    OFS=","
    recfields=split("name,description,email,lastLogon,status",fields,",")
}

function printrec(record) {
    for (i=1; i<=recfields; i++) {
    if (record[i]=="") record[i]="n/a"
    printf "%s%s",record[i],i==recfields?ORS:OFS;
    record[i]="";
    }
}
    
$1=="name" && (FNR>1) { printrec(current) }

{
    for (i=1; i<=recfields;i++) {
        if (fields[i]==$1) {
            current[i]=$2
            break
        }
    }
}

END {
    printrec(current)
}

然后您可以将其称为

awk -f squash_to_csv.awk input.dat
John Doe,AM,[email protected],999999999999999,active
Jane Doe,HR,[email protected],8888888888,active
Foo Bar,XX,[email protected],n/a,inactive

这将在BEGIN块中执行一些初始化：

将输入字段分隔符设置为“a:后跟零个或多个空格”
将输出字段分隔符设置为,
初始化字段名称数组（我们采用静态方法并对列表进行硬编码）

如果name遇到该字段，它将检查它是否在文件的第一行，然后如果不，打印之前采集的数据。然后它将开始收集数组中的下一条记录current，从name刚刚遇到的字段开始。

对于所有其他行（为了简单起见，我假设没有空行或注释行 - 但话又说回来，该程序应该默默地忽略这些行），程序检查该行中提到了哪些字段，并将值存储在current数组中用于当前记录的适当位置。

该函数printrec将这样的数组作为参数并执行实际的输出。缺失值将替换为n/a（或您可能想要使用的任何其他字符串）。打印后，字段将被清除，以便数组为下一组数据做好准备。

最后，还打印最后一条记录。

笔记

如果文件的“值”部分还可以包含:-space-combinations，则可以通过替换来强化程序
```
current[i]=$2
```
经过
```
sub(/^[^:]*: */,"")
current[i]=$0
```
这会将值设置为“:行中第一个 -space 组合之后的所有内容”，方法是删除 ( sub) 直到包括:行上第一个 -space 组合的所有内容。
如果任何字段可以包含输出分隔符（在您的示例中,），您将必须采取适当的措施来转义该字符或引用输出，具体取决于您要遵守的标准。
正如您正确指出的那样，非常不鼓励使用 shell 循环作为文本处理工具。如果您有兴趣阅读更多内容，您可能想看看本次问答。

Answer

下面的awk程序应该可以工作。理想情况下，您可以将其保存到单独的文件中（例如squash_to_csv.awk）：

#!/bin/awk -f

BEGIN {
    FS=": *"
    OFS=","
    recfields=split("name,description,email,lastLogon,status",fields,",")
}

function printrec(record) {
    for (i=1; i<=recfields; i++) {
    if (record[i]=="") record[i]="n/a"
    printf "%s%s",record[i],i==recfields?ORS:OFS;
    record[i]="";
    }
}
    
$1=="name" && (FNR>1) { printrec(current) }

{
    for (i=1; i<=recfields;i++) {
        if (fields[i]==$1) {
            current[i]=$2
            break
        }
    }
}

END {
    printrec(current)
}