目前我有一个包含如下记录的文件:
D20211011,S0519,306668,1
D20211004,S1600,306668,1
D20211009,S1604,306668,1
D20211010,S1605,306668,1
D20211006,S1610,306668,1
D20211011,S1611,306668,1
假设当前日期是20211011
,我需要仅对日期小于当前日期的行应用转换,并且日期为过去的行应更新为当前日期。
在上面共享的示例中,应在第 2 行到第 5 行上进行转换。
D20211004,S1600,306668,1 -> D20211011,S1600,306668,1
D20211009,S1604,306668,1 -> D20211011,S1604,306668,1
D20211010,S1605,306668,1 -> D20211011,S1605,306668,1
D20211006,S1610,306668,1 -> D20211011,S1610,306668,1
答案1
在您的情况下,您的优势是日期以 ISO 样式给出,这意味着它们可以被解释为整数值,并使用算术运算符( 和 )进行简单比较,<
同时=
仍然>
产生正确的顺序。
因此,您可以使用以下awk
程序:
awk -v cur="20211011" 'BEGIN{FS=OFS=","} {ldate=substr($1,2); if (ldate<cur) $1="D" cur} 1' input.csv
当前日期定义为awk
变量cur
。一开始,输入和输出的字段分隔符设置为,
。然后,对于每一行,行日期是通过从该行的字段 1 中删除第一个字符来确定的。如果生成的“整数”小于,则该字段将被和 的内容的cur
串联覆盖。规则块之外看似“杂散”的内容指示打印当前行,包括任何可能的修改。D
cur
1
awk
答案2
尝试awk
:
awk -v today=$(date +%Y%m%d) '
BEGIN{FS=OFS=","}
substr($1,2)<today{$1="D"today;}
1' file
-v today=$(date +%Y%m%d)
设置一个包含当前日期的变量。BEGIN{FS=OFS=","}
设置输入 (FS
) 和输出 (OFS
) 字段分隔符。substr($1,2)<today
从第一个字段切断D
并将其与当前日期进行比较。$1="D"today;
将第一个字段替换为当前日期1
评估始终为真,从而打印该行
答案3
$ awk -v d='D20211011' 'BEGIN{FS=OFS=","} $1<d{$1=d} 1' file
D20211011,S0519,306668,1
D20211004,S1600,306668,1
D20211009,S1604,306668,1
D20211010,S1605,306668,1
D20211006,S1610,306668,1
D20211011,S1611,306668,1
$ awk -v d="$(date +'D%Y%m%d')" 'BEGIN{FS=OFS=","} $1<d{$1=d} 1' file
D20211012,S0519,306668,1
D20211012,S1600,306668,1
D20211012,S1604,306668,1
D20211012,S1605,306668,1
D20211012,S1610,306668,1
D20211012,S1611,306668,1
答案4
使用 Raku(以前称为 Perl_6)
raku -pe 's/ ^^ D <(\d*?)> \, /20211011/;'
正如 @StéphaneChazelas 在对您的 OP 的评论中指出的那样,目前尚不清楚“未来日期”是否会出现在您的第一栏中。如果没有,那么简单的s///
替换就足够了,这就是上面的 Raku 代码所完成的功能(替换它找到的所有日期数字,无论数字< = >
比较如何)。
但是,如果您希望将第一列更新为基于数值< = >
比较的值,则可以使用下面的 Raku 代码,该代码在s///
运算符的替换部分中执行包含 Raku 三元运算符的块:
raku -pe 'my Int $d=20211011; s/ ^^ D (\d*?) \, /D{$0 < $d ?? $d !! $0},/;'
输入示例:
D20211011,S0519,306668,1
D20211004,S1600,306668,1
D20211009,S1604,306668,1
D20211010,S1605,306668,1
D20211006,S1610,306668,1
D20211011,S1611,306668,1
示例输出(对于上面的 Raku 代码示例):
D20211011,S0519,306668,1
D20211011,S1600,306668,1
D20211011,S1604,306668,1
D20211011,S1605,306668,1
D20211011,S1610,306668,1
D20211011,S1611,306668,1
对于第二个 Raku 代码示例,请注意该变量$d
受到类型约束,Int
以进一步检查正确性。正如 @AdminBee 指出的那样,你很幸运,第一列包含 ISO 日期,可以与< = >
运算符进行比较,并且仍然给出正确的结果。
关于上面 Raku 代码的(简单)第二行,您应该注意,没有对$0
捕获进行检查以确保有效日期(例如,确保没有出现第 13 个月或第 32 天)。甚至没有代码来排除不完整的日期(例如月/日无字体年)。
OTOH,使用 Raku 的内置支持Date
和DateTime
对象,添加适当的日期验证检查应该相对容易(不需要额外的模块;下面的示例和链接)。
$ echo "2020-02-29" | raku -ne '.Date.raku.say'
Date.new(2020,2,29)
$ echo "2021-02-29" | raku -ne '.Date.raku.say'
Day out of range. Is: 29, should be in 1..28
in block <unit> at -e line 1
https://docs.raku.org/language/temporal#index-entry-Date_and_time_functions
https://raku.org