在 awk 中将双引号内的逗号转义为字段分隔符

Question 1

我不会用来awk解析 csv 文件，最好使用专用工具，例如使用 python csv 模块：

#!/usr/bin/env python3
import csv, shutil
from tempfile import NamedTemporaryFile
from datetime import datetime 
from datetime import timedelta

tempfile = NamedTemporaryFile(mode='w', delete=False)

with open('input.csv') as csvfile:
    reader = csv.DictReader(csvfile)
    writer = csv.DictWriter(tempfile, fieldnames=reader.fieldnames)
    writer.writeheader()

    for row in reader:
        row['CallEndTime']=datetime.strptime(row['DateTime'], '%Y-%m-%d %H:%M:%S') + timedelta(seconds=int(row['TotalDuration']))
        writer.writerow(row)

shutil.move(tempfile.name, 'output.csv')

输出.csv：

DateTime,Dealers,Locations,CallEndTime,TotalDuration
2018-12-27 12:19:14,"Dealer1,Dealer2,Dealer3",Gujarat,2018-12-27 12:20:21,67
2018-12-27 12:19:14,"Dealer1,Dealer2","Gujarat,Vadodara",2018-12-27 12:20:54,100

Answer

我不会用来awk解析 csv 文件，最好使用专用工具，例如使用 python csv 模块：

#!/usr/bin/env python3
import csv, shutil
from tempfile import NamedTemporaryFile
from datetime import datetime 
from datetime import timedelta

tempfile = NamedTemporaryFile(mode='w', delete=False)

with open('input.csv') as csvfile:
    reader = csv.DictReader(csvfile)
    writer = csv.DictWriter(tempfile, fieldnames=reader.fieldnames)
    writer.writeheader()

    for row in reader:
        row['CallEndTime']=datetime.strptime(row['DateTime'], '%Y-%m-%d %H:%M:%S') + timedelta(seconds=int(row['TotalDuration']))
        writer.writerow(row)

shutil.move(tempfile.name, 'output.csv')

输出.csv：

DateTime,Dealers,Locations,CallEndTime,TotalDuration
2018-12-27 12:19:14,"Dealer1,Dealer2,Dealer3",Gujarat,2018-12-27 12:20:21,67
2018-12-27 12:19:14,"Dealer1,Dealer2","Gujarat,Vadodara",2018-12-27 12:20:54,100

Question 2

使用 csvkit >= 1.0.4（当前开发版本），您可以使用csvsql：

csvsql --query '
    update input
    set CallEndTime = datetime(DateTime,"+"||TotalDuration||" seconds");
' input.csv

Answer

使用 csvkit >= 1.0.4（当前开发版本），您可以使用csvsql：

csvsql --query '
    update input
    set CallEndTime = datetime(DateTime,"+"||TotalDuration||" seconds");
' input.csv

Question 3

你的第二个例子几乎可以工作。您只是缺少 a,作为输出分隔符 ( OFS=",") 并在新计算的日期两边加上双引号。这有效：

BEGIN { FPAT = "([^,]*)|(\"[^\"]+\")"; OFS=","}
NR==1 {
        for (i=1; i<=NF; i++) {
            f[$i] = i
        }
      }
NR>1  {
        begSecs = mktime( gensub(/[":-]/," ","g",$(f["DateTime"])) )
        endSecs = begSecs + $(f["TotalDuration"])
        $(f["CallEndTime"]) = "\"" strftime("%Y-%m-%d %H:%M:%S", endSecs) "\""
      }
{print}

对于给出的例子。

但是 csv 的内容比 awk 能够处理的要多得多。正如其他答案已经建议的那样，请使用正确理解 csv 格式的工具。

Answer

你的第二个例子几乎可以工作。您只是缺少 a,作为输出分隔符 ( OFS=",") 并在新计算的日期两边加上双引号。这有效：

BEGIN { FPAT = "([^,]*)|(\"[^\"]+\")"; OFS=","}
NR==1 {
        for (i=1; i<=NF; i++) {
            f[$i] = i
        }
      }
NR>1  {
        begSecs = mktime( gensub(/[":-]/," ","g",$(f["DateTime"])) )
        endSecs = begSecs + $(f["TotalDuration"])
        $(f["CallEndTime"]) = "\"" strftime("%Y-%m-%d %H:%M:%S", endSecs) "\""
      }
{print}

对于给出的例子。

但是 csv 的内容比 awk 能够处理的要多得多。正如其他答案已经建议的那样，请使用正确理解 csv 格式的工具。

Question 4

BEGIN {
    FPAT="\"[^\"]*\"|[^,]*"
}

例如，要提取所有值并将分隔符逗号替换为--：

awk 'BEGIN { OFS = "--"; FPAT="\"[^\"]*\"|[^,]*"} NR > 1 { print $1, $2, $3, $4, $5 }' input.csv

输出示例：

"2018-12-27 12:19:14"--"Dealer1,Dealer2,Dealer3"--"Gujarat"----67
"2018-12-27 12:19:14"--"Dealer1,Dealer2"--"Gujarat,Vadodara"----100

FS定义字段分隔符，即定义字段是什么不是。

FPAT另一方面，定义了一个字段是。

_{顺便说一句，示例 input.csv 中的第一行有 6 个值，而第二行和标题行表明应该有 5 列。}

Answer

BEGIN {
    FPAT="\"[^\"]*\"|[^,]*"
}