通过 bash 脚本更改 CSV 文件中的日期

通过 bash 脚本更改 CSV 文件中的日期

目前我有一个包含如下记录的文件:

D20211011,S0519,306668,1
D20211004,S1600,306668,1
D20211009,S1604,306668,1
D20211010,S1605,306668,1
D20211006,S1610,306668,1
D20211011,S1611,306668,1

假设当前日期是20211011,我需要仅对日期小于当前日期的行应用转换,并且日期为过去的行应更新为当前日期。

在上面共享的示例中,应在第 2 行到第 5 行上进行转换。

D20211004,S1600,306668,1 -> D20211011,S1600,306668,1
D20211009,S1604,306668,1 -> D20211011,S1604,306668,1
D20211010,S1605,306668,1 -> D20211011,S1605,306668,1
D20211006,S1610,306668,1 -> D20211011,S1610,306668,1

答案1

在您的情况下,您的优势是日期以 ISO 样式给出,这意味着它们可以被解释为整数值,并使用算术运算符( 和 )进行简单比较,<同时=仍然>产生正确的顺序。

因此,您可以使用以下awk程序:

awk -v cur="20211011" 'BEGIN{FS=OFS=","} {ldate=substr($1,2); if (ldate<cur) $1="D" cur} 1' input.csv

当前日期定义为awk变量cur。一开始,输入和输出的字段分隔符设置为,。然后,对于每一行,行日期是通过从该行的字段 1 中删除第一个字符来确定的。如果生成的“整数”小于,则该字段将被和 的内容的cur串联覆盖。规则块之外看似“杂散”的内容指示打印当前行,包括任何可能的修改。Dcur1awk

答案2

尝试awk

awk -v today=$(date +%Y%m%d) '
    BEGIN{FS=OFS=","}
    substr($1,2)<today{$1="D"today;}
1' file
  • -v today=$(date +%Y%m%d)设置一个包含当前日期的变量。
  • BEGIN{FS=OFS=","}设置输入 ( FS) 和输出 ( OFS) 字段分隔符。
  • substr($1,2)<today从第一个字段切断D并将其与当前日期进行比较。
  • $1="D"today;将第一个字段替换为当前日期
  • 1评估始终为真,从而打印该行

答案3

$ awk -v d='D20211011' 'BEGIN{FS=OFS=","} $1<d{$1=d} 1' file
D20211011,S0519,306668,1
D20211004,S1600,306668,1
D20211009,S1604,306668,1
D20211010,S1605,306668,1
D20211006,S1610,306668,1
D20211011,S1611,306668,1

$ awk -v d="$(date +'D%Y%m%d')" 'BEGIN{FS=OFS=","} $1<d{$1=d} 1' file
D20211012,S0519,306668,1
D20211012,S1600,306668,1
D20211012,S1604,306668,1
D20211012,S1605,306668,1
D20211012,S1610,306668,1
D20211012,S1611,306668,1

答案4

使用 Raku(以前称为 Perl_6)

raku -pe 's/ ^^ D <(\d*?)> \, /20211011/;'

正如 @StéphaneChazelas 在对您的 OP 的评论中指出的那样,目前尚不清楚“未来日期”是否会出现在您的第一栏中。如果没有,那么简单的s///替换就足够了,这就是上面的 Raku 代码所完成的功能(替换它找到的所有日期数字,无论数字< = >比较如何)。

但是,如果您希望将第一列更新为基于数值< = >比较的值,则可以使用下面的 Raku 代码,该代码在s///运算符的替换部分中执行包含 Raku 三元运算符的块:

raku -pe 'my Int $d=20211011; s/ ^^ D (\d*?) \, /D{$0 < $d ?? $d !! $0},/;'

输入示例:

D20211011,S0519,306668,1
D20211004,S1600,306668,1
D20211009,S1604,306668,1
D20211010,S1605,306668,1
D20211006,S1610,306668,1
D20211011,S1611,306668,1

示例输出(对于上面的 Raku 代码示例):

D20211011,S0519,306668,1
D20211011,S1600,306668,1
D20211011,S1604,306668,1
D20211011,S1605,306668,1
D20211011,S1610,306668,1
D20211011,S1611,306668,1

对于第二个 Raku 代码示例,请注意该变量$d受到类型约束,Int以进一步检查正确性。正如 @AdminBee 指出的那样,你很幸运,第一列包含 ISO 日期,可以与< = >运算符进行比较,并且仍然给出正确的结果。

关于上面 Raku 代码的(简单)第二行,您应该注意,没有对$0捕获进行检查以确保有效日期(例如,确保没有出现第 13 个月或第 32 天)。甚至没有代码来排除不完整的日期(例如月/日无字体年)。

OTOH,使用 Raku 的内置支持DateDateTime对象,添加适当的日期验证检查应该相对容易(不需要额外的模块;下面的示例和链接)。

$ echo "2020-02-29" | raku -ne '.Date.raku.say'
Date.new(2020,2,29)

$ echo "2021-02-29" | raku -ne '.Date.raku.say'
Day out of range. Is: 29, should be in 1..28
  in block <unit> at -e line 1

https://docs.raku.org/language/temporal#index-entry-Date_and_time_functions
https://raku.org

相关内容