管道后的两个连续 OP 或一次运行中的两个 jq OP？

Question 1

检查一下：

第一个变体

perl -pe 's/"characater"/"\"char" . (++$n) . "\""/ge' input.json |
jq -r '.frames.frame.lps.lp|.ncharacter,(.characters[]|[.code_ascii,.confidence]|@tsv)'

解释

perl -pe 's/"characater"/"\"char" . (++$n) . "\""/ge' input.json
- -p- 循环遍历每一行并打印，就像sed.
- -e- 可用于输入一行程序。如果-e给出，Perl 将不会在参数列表中查找文件名。
- s///ge- g：全局替换，e：将替换命令的右侧部分计算为表达式。
- "\"char" . (++$n) . "\""- 点用于连接。
jq -r '.frames.frame.lps.lp|.ncharacter,(.characters[]|[.code_ascii,.confidence]|@tsv)'
- .frames.frame.lps.lp|- 它可以写为.frames | .frame | .lps | .lp |，因此它的工作方式如下：获取输入，选择所有frames字段并将它们通过管道传输到另一个过滤器 - .frame，然后获取所有frame字段并将它们通过管道传输到下一个过滤器 - .lps，依此类推。看jq手册，这管道部分。
- |.ncharacter,(.characters[]|...)'-jq手册，这逗号部分：“如果两个过滤器用逗号分隔，则相同的输入将被输入到两个过滤器中，并且两个过滤器的输出值流将按顺序连接：首先，左侧表达式产生的所有输出，然后是所有例如，filter.foo, .bar会生成“foo”字段和“bar”字段作为单独的输出。
- (.characters[]|[.code_ascii,.confidence]|@tsv)- 括号用于.characters[]与过滤器输出分开处理的输出.ncharacter。

第二种变体- 使用gawk代替perl文件json修复，该jq部分与第一个变体中相同：

gawk '{ORS= (RT) ? "\"char" NR "\"" : ""; print}' RS='"characater"' input.json

笔记-perl和gawk命令不会char每帧重置块的计数器。也就是说，它从头开始char1并递增到最后。

输入- 您的样本重复了 3 次。

输出

Answer

检查一下：

第一个变体

perl -pe 's/"characater"/"\"char" . (++$n) . "\""/ge' input.json |
jq -r '.frames.frame.lps.lp|.ncharacter,(.characters[]|[.code_ascii,.confidence]|@tsv)'

解释

perl -pe 's/"characater"/"\"char" . (++$n) . "\""/ge' input.json
- -p- 循环遍历每一行并打印，就像sed.
- -e- 可用于输入一行程序。如果-e给出，Perl 将不会在参数列表中查找文件名。
- s///ge- g：全局替换，e：将替换命令的右侧部分计算为表达式。
- "\"char" . (++$n) . "\""- 点用于连接。
jq -r '.frames.frame.lps.lp|.ncharacter,(.characters[]|[.code_ascii,.confidence]|@tsv)'
- .frames.frame.lps.lp|- 它可以写为.frames | .frame | .lps | .lp |，因此它的工作方式如下：获取输入，选择所有frames字段并将它们通过管道传输到另一个过滤器 - .frame，然后获取所有frame字段并将它们通过管道传输到下一个过滤器 - .lps，依此类推。看jq手册，这管道部分。
- |.ncharacter,(.characters[]|...)'-jq手册，这逗号部分：“如果两个过滤器用逗号分隔，则相同的输入将被输入到两个过滤器中，并且两个过滤器的输出值流将按顺序连接：首先，左侧表达式产生的所有输出，然后是所有例如，filter.foo, .bar会生成“foo”字段和“bar”字段作为单独的输出。
- (.characters[]|[.code_ascii,.confidence]|@tsv)- 括号用于.characters[]与过滤器输出分开处理的输出.ncharacter。

第二种变体- 使用gawk代替perl文件json修复，该jq部分与第一个变体中相同：

gawk '{ORS= (RT) ? "\"char" NR "\"" : ""; print}' RS='"characater"' input.json

笔记-perl和gawk命令不会char每帧重置块的计数器。也就是说，它从头开始char1并递增到最后。

输入- 您的样本重复了 3 次。

输出

Question 2

这是同一主题的另一个问题的延续，这里的主要问题是输入包含具有非唯一键的对象。这仍然是有效的 JSON，但后面的键会覆盖前面的键，因此解析文档时数据会“丢失”。

我在这里回答了之前的问题，使用以下命令，该命令在答案中进行了解释：

$ jq -r -n --stream 'fromstream(1|truncate_stream(5|truncate_stream(inputs)|select(.[0][0] == "characater"))) | [.code_ascii, .confidence] | @tsv' test.json
1       97
5       89
4       97
5       97
1       77
B       97
B       94
L       34

问题在这问题是输出需要在其本身的一行上输出的行数前面。这些格式奇怪的 JSON 文档不仅有一个实例，还有一整套，每行一个。

以下是上述命令的修改，它在输出之前将结果收集到数组中，以计算元素的数量：

$ jq -r -n --stream '[fromstream(1|truncate_stream(5|truncate_stream(inputs)|select(.[0][0] == "characater"))) | [.code_ascii, .confidence]] | length, (.[]|@tsv)' test.json
8
1       97
5       89
4       97
5       97
1       77
B       97
B       94
L       34

然后只需为原始文件中的每一行调用一次此命令即可：

#!/bin/bash

cmd=( jq -r -n --stream '[fromstream(1|truncate_stream(5|truncate_stream(inputs)|select(.[0][0] == "characater"))) | [.code_ascii, .confidence]] | length, (.[]|@tsv)' )

while IFS= read -r json; do
    printf '%s\n' "$json" | "${cmd[@]}"
done <test.json

Answer