查找所有文件中另一个字符串之后出现的所有字符串

Question 1

假设您始终将登录名和值放在双引号中，彼此后面没有空格，这是 grep 和计数的构造：

grep -o 'login":"[^"]*"' * | cut -d'"' -f3 | sort | uniq -c

这将生成多次出现的登录列表。

现在我们需要根据它形成您需要的 json 格式。sed能够为您做到这一点：

| sed '1i{
       s/\s*\([0-9]*\)\s*\(.*\)/"\2": \1,/;$a}'

这里sed将放入{块的开头和}结尾，并将uniq输出更改为您期望的 json 格式。

UPD：最后的命令应该是这样的：

grep -o 'login":"[^"]*"' * | cut -d'"' -f3 | sort | uniq -c | sed '1i{
       s/\s*\([0-9]*\)\s*\(.*\)/"\2": \1,/;$a}' > file.txt

Answer

假设您始终将登录名和值放在双引号中，彼此后面没有空格，这是 grep 和计数的构造：

grep -o 'login":"[^"]*"' * | cut -d'"' -f3 | sort | uniq -c

这将生成多次出现的登录列表。

现在我们需要根据它形成您需要的 json 格式。sed能够为您做到这一点：

| sed '1i{
       s/\s*\([0-9]*\)\s*\(.*\)/"\2": \1,/;$a}'

这里sed将放入{块的开头和}结尾，并将uniq输出更改为您期望的 json 格式。

UPD：最后的命令应该是这样的：

grep -o 'login":"[^"]*"' * | cut -d'"' -f3 | sort | uniq -c | sed '1i{
       s/\s*\([0-9]*\)\s*\(.*\)/"\2": \1,/;$a}' > file.txt

Question 2

获取所有用户名，即与某个关联的所有字符串login要从 a格式良好的 JSON 文档，在不知道文档结构的情况下：

jq -r '..|select(.login?).login' file.json

将其应用于多个 JSON 文件，并对结果进行排序和计数：

jq -r '..|select(.login?).login' *.json | sort | uniq -c

这里使用的表达jq是

..：递归遍历所有键和值。
select(.login?)：选择遇到的包含键的对象login。
.login：获取该键的值。

你想要的字典，基于上面的jq表达式：

jq -sr '[..|select(.login?).login]|group_by(.)|map({key:.[0],value:length})|from_entries' *.json

测试：

$ cat file.json
{"this":"is", "A":{"login":"username2"}, "type":{"of":"object", "but":"please"},
 "go":"withit", "login":"me"}

$ jq -sr '[..|select(.login?).login]|group_by(.)|map({key:.[0],value:length})|from_entries' file.json
{
  "me": 1,
  "username2": 1
}

给它相同的文件两次：

$ jq -sr '[..|select(.login?).login]|group_by(.)|map({key:.[0],value:length})|from_entries' file.json f
ile.json
{
  "me": 2,
  "username2": 2
}

使用jqwith-c可获得单行紧凑输出。

对于我们的示例文件，jq -sr '[..|select(.login?).login]' file.json将产生

[
  "me",
  "username2"
]

通过这个group_by(.)给出

[
  [
    "me"
  ],
  [
    "username2"
  ]
]

该map({key:.[0],value:length})部分给出

[
  {
    "key": "me",
    "value": 1
  },
  {
    "key": "username2",
    "value": 1
  }
]

最后from_entries给出最终结果。

Answer

获取所有用户名，即与某个关联的所有字符串login要从 a格式良好的 JSON 文档，在不知道文档结构的情况下：

jq -r '..|select(.login?).login' file.json

将其应用于多个 JSON 文件，并对结果进行排序和计数：

jq -r '..|select(.login?).login' *.json | sort | uniq -c

这里使用的表达jq是

..：递归遍历所有键和值。
select(.login?)：选择遇到的包含键的对象login。
.login：获取该键的值。

你想要的字典，基于上面的jq表达式：

jq -sr '[..|select(.login?).login]|group_by(.)|map({key:.[0],value:length})|from_entries' *.json

测试：

$ cat file.json
{"this":"is", "A":{"login":"username2"}, "type":{"of":"object", "but":"please"},
 "go":"withit", "login":"me"}

$ jq -sr '[..|select(.login?).login]|group_by(.)|map({key:.[0],value:length})|from_entries' file.json
{
  "me": 1,
  "username2": 1
}

给它相同的文件两次：

$ jq -sr '[..|select(.login?).login]|group_by(.)|map({key:.[0],value:length})|from_entries' file.json f
ile.json
{
  "me": 2,
  "username2": 2
}

使用jqwith-c可获得单行紧凑输出。

对于我们的示例文件，jq -sr '[..|select(.login?).login]' file.json将产生

[
  "me",
  "username2"
]

通过这个group_by(.)给出

[
  [
    "me"
  ],
  [
    "username2"
  ]
]

该map({key:.[0],value:length})部分给出

[
  {
    "key": "me",
    "value": 1
  },
  {
    "key": "username2",
    "value": 1
  }
]

最后from_entries给出最终结果。

Question 3

如何使用以正则表达式匹配为键的 Perl 哈希，您可以使用 JSON 模块进行转换：

$ perl -MJSON -lne '$h{$1}++ for /(?<="login":")(.*?)(?=")/g }{ print encode_json \%h' file1 file2
{"username3":1,"username2":1,"username1":2}

Answer

如何使用以正则表达式匹配为键的 Perl 哈希，您可以使用 JSON 模块进行转换：

$ perl -MJSON -lne '$h{$1}++ for /(?<="login":")(.*?)(?=")/g }{ print encode_json \%h' file1 file2
{"username3":1,"username2":1,"username1":2}

Question 4

@rush 使用sed在我的 shell 中不起作用，所以我这样做了

grep -Poh '(?<=login":")[^"]*' json* | sort | uniq -c | awk  -v OFS=': ' 'BEGIN{print "{"}{print $2, $1}END{print"}"}' | sed -E 's/([0-9])$/\1,/g;s/:/\":/g;s/^([^{}])/\"\1/g'

sed如果您的 shell 允许您转义并在语句"中打印它们，则可以修改倍数。awk

grep -Poh '(?<=login":")[^"]*' json* | sort | uniq -c | awk  -v OFS=': ' 'BEGIN{print "{"}{print \"$2\", $1}END{print"}"}' | sed -E 's/([0-9])$/\1,/g'

我的外壳被第二个脚本awk噎住了。\"不知道为什么，但我确信有人会告诉我。

我也尝试过，jq但是它被 json 文件卡住了。似乎有语法错误

"this":"is' #is written so I edited these to
"this":"is"

也不jq喜欢这个结构

{"a":"strange"} # so I also edited these to
b: {"a":"strange"}

如果原始文件应该与所做的编辑一致，那么就jq可以工作

jq '.login' json* | sort | uniq -c | awk -v OFS=': ' 'BEGIN{print "{"}{print $2, $1}END{print"}"}' | sed -E 's/([0-9])$/\1,/g'

Answer