awk 搜索并替换 CSV 文件特定列中的字符串

Question 1

awk -F '|' -v OFS='|' '$16 == "Market1" { $16 = "MarketPrime" }1' file.csv >new-file.csv

代码中唯一真正的问题是您不仅将输入文件分隔符设置为空格|，而且还设置为空格。这将使空格算作数据中的字段分隔符，并且很难找出正确的字段编号（因为某些字段包含可变数量的空格）。

您也无法重定向到与读取时使用的文件名相同的文件名。这样做会导致 shell 首先截断（清空）输出文件，并且您的awk程序将没有数据可供读取。

您的代码执行正则表达式替换。这没问题，但你需要注意，如果第 16 个字段恰好是Market12或之类的内容TheMarket1，则会因缺少锚点而触发替换。用作^Market1$替换的表达式或使用字符串比较会更安全。

上面的命令awk仅用作|字段分隔符，然后与第 16 个字段进行字符串比较。如果该字段为Market1，则将其设置为MarketPrime。

1代码末尾的尾随awk会导致打印每条记录（修改或未修改）。

Answer

awk -F '|' -v OFS='|' '$16 == "Market1" { $16 = "MarketPrime" }1' file.csv >new-file.csv

代码中唯一真正的问题是您不仅将输入文件分隔符设置为空格|，而且还设置为空格。这将使空格算作数据中的字段分隔符，并且很难找出正确的字段编号（因为某些字段包含可变数量的空格）。

您也无法重定向到与读取时使用的文件名相同的文件名。这样做会导致 shell 首先截断（清空）输出文件，并且您的awk程序将没有数据可供读取。

您的代码执行正则表达式替换。这没问题，但你需要注意，如果第 16 个字段恰好是Market12或之类的内容TheMarket1，则会因缺少锚点而触发替换。用作^Market1$替换的表达式或使用字符串比较会更安全。

上面的命令awk仅用作|字段分隔符，然后与第 16 个字段进行字符串比较。如果该字段为Market1，则将其设置为MarketPrime。

1代码末尾的尾随awk会导致打印每条记录（修改或未修改）。

Question 2

问题在于输入字段分隔符。

由于您想使用多个字段分隔符（这不是必需的），因此每行中的字段数量不同，如下所示。

$ awk -F '[| +]' '{print NF}' test.csv
17
26
23
21

如果您仅用作| IFS，那么您的代码将起作用。由于每行有 17 个字段，如下所示。

awk -F "|" '{print NF}' test.csv
17
17
17
17

解决方案1：具有多个 IFS。

awk -F '[| +]' '{gsub("Market1","MarketPrime",$(NF-1)); print}' OFS="|" test.csv

SUBSCRIBER_ID|ACCOUNT_CATEGORY|ACCOUNT_ACTIVATION_DATE|PACKAGE_NAME|PACKAGE_TYPE|DURATION|ACTIVE_DATE|INACTIVE_DATE|STB_NO|PRIMARY_SECONDARY|MODEL_TYPE|VC_NO|MULTIROOM|STB_TYPE|IPKG|SERVICE_STATE|CURRENT_STATUS
1001098068|ResidentialRegular|01/20/2007|Annual|package|199|May17|pack|Basic|Package|Annual|08/28/2017||027445053518|Primary|Pace|-|31|000223871682|Yes|AMP|Package|199|pack|MarketPrime|Active
1001098068|ResidentialRegular|01/20/2007|Annual|Pack|Premium|Package|Annual|08/28/2017||027445053518|Primary|Pace|-|31|000223871682|Yes|AMP|English|Movies|pack|MarketPrime|Active
1001098068|ResidentialRegular|01/20/2007|Annual SingleUnit Jun17 Pack|Secondary Pack|Annual|08/28/2017||032089364015|Secondary|Kaon|000017213968|Yes|AMP|SingleUnit|Market2|Active

解决方案2：固定字段 16

awk -F '|' '{gsub("Market1","MarketPrime",$16); print}' OFS="|" test.csv

SUBSCRIBER_ID|ACCOUNT_CATEGORY|ACCOUNT_ACTIVATION_DATE|PACKAGE_NAME|PACKAGE_TYPE|DURATION|ACTIVE_DATE|INACTIVE_DATE|STB_NO|PRIMARY_SECONDARY|MODEL_TYPE|VC_NO|MULTIROOM|STB_TYPE|IPKG|SERVICE_STATE|CURRENT_STATUS
1001098068|ResidentialRegular|01/20/2007|Annual package 199 May17 pack|Basic Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|Package 199 pack|MarketPrime|Active
1001098068|ResidentialRegular|01/20/2007|Annual Pack|Premium Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|English Movies pack|MarketPrime|Active
1001098068|ResidentialRegular|01/20/2007|Annual SingleUnit Jun17 Pack|Secondary Pack|Annual|08/28/2017||032089364015|Secondary|Kaon|000017213968|Yes|AMP|SingleUnit|Market2|Active

Answer

问题在于输入字段分隔符。

由于您想使用多个字段分隔符（这不是必需的），因此每行中的字段数量不同，如下所示。

$ awk -F '[| +]' '{print NF}' test.csv
17
26
23
21

如果您仅用作| IFS，那么您的代码将起作用。由于每行有 17 个字段，如下所示。

awk -F "|" '{print NF}' test.csv
17
17
17
17

解决方案1：具有多个 IFS。

awk -F '[| +]' '{gsub("Market1","MarketPrime",$(NF-1)); print}' OFS="|" test.csv

SUBSCRIBER_ID|ACCOUNT_CATEGORY|ACCOUNT_ACTIVATION_DATE|PACKAGE_NAME|PACKAGE_TYPE|DURATION|ACTIVE_DATE|INACTIVE_DATE|STB_NO|PRIMARY_SECONDARY|MODEL_TYPE|VC_NO|MULTIROOM|STB_TYPE|IPKG|SERVICE_STATE|CURRENT_STATUS
1001098068|ResidentialRegular|01/20/2007|Annual|package|199|May17|pack|Basic|Package|Annual|08/28/2017||027445053518|Primary|Pace|-|31|000223871682|Yes|AMP|Package|199|pack|MarketPrime|Active
1001098068|ResidentialRegular|01/20/2007|Annual|Pack|Premium|Package|Annual|08/28/2017||027445053518|Primary|Pace|-|31|000223871682|Yes|AMP|English|Movies|pack|MarketPrime|Active
1001098068|ResidentialRegular|01/20/2007|Annual SingleUnit Jun17 Pack|Secondary Pack|Annual|08/28/2017||032089364015|Secondary|Kaon|000017213968|Yes|AMP|SingleUnit|Market2|Active

解决方案2：固定字段 16

awk -F '|' '{gsub("Market1","MarketPrime",$16); print}' OFS="|" test.csv

SUBSCRIBER_ID|ACCOUNT_CATEGORY|ACCOUNT_ACTIVATION_DATE|PACKAGE_NAME|PACKAGE_TYPE|DURATION|ACTIVE_DATE|INACTIVE_DATE|STB_NO|PRIMARY_SECONDARY|MODEL_TYPE|VC_NO|MULTIROOM|STB_TYPE|IPKG|SERVICE_STATE|CURRENT_STATUS
1001098068|ResidentialRegular|01/20/2007|Annual package 199 May17 pack|Basic Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|Package 199 pack|MarketPrime|Active
1001098068|ResidentialRegular|01/20/2007|Annual Pack|Premium Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|English Movies pack|MarketPrime|Active
1001098068|ResidentialRegular|01/20/2007|Annual SingleUnit Jun17 Pack|Secondary Pack|Annual|08/28/2017||032089364015|Secondary|Kaon|000017213968|Yes|AMP|SingleUnit|Market2|Active

Question 3

为了让可能面临类似问题的其他人清楚地了解：

这两个答案都适用于这种情况：

拘萨罗南达的回答：

awk -F '|' -v OFS='|' '$16 == "Market1" { $16 = "MarketPrime" }1' file.csv >new-file.csv

我根据 Kusalananda 的回答修改后的答案：

awk -F '|' '{gsub("Market1","MarketPrime",$16); print}' OFS="|" marketinfo_2018-06-26.csv > marketinfo_2018-06-26.csv

Answer