AWK：在字典中的源术语之后插入随机选择的行目标术语

Question 1

以下是如何使用 awk 从输入文件中随机选择 5 个行号（第一遍使用 wc 仅计算行号）：

$ awk -v numLines="$(wc -l < file)" 'BEGIN{srand(); for (i=1; i<=5; i++) print int(1+rand()*numLines)}'
7
2
88
13
18

现在你所要做的就是采取我之前的回答对于块中读取的每个“旧”字符串，ARGIND==1生成 5 个行号，如上所示，填充一个数组，将生成的行号映射到与每个行号关联的旧字符串，并在读取最终输入文件时检查当前是否行号位于数组中，如果是，则循环遍历数组中存储的该行号的“旧”，执行gsub()我之前的答案中显示的操作。

使用 GNU awk 表示ARGIND、IGNORECASE、字边界、数组的数组以及的\s简写[[:space:]]：

$ cat tst.sh
#!/usr/bin/env bash

awk -v numLines=$(wc -l < file) '
    BEGIN {
        FS = "\\s*:\\s*"
        IGNORECASE = 1
        srand()
    }
    ARGIND == 1 {
        old = "\\<" $1 "\\>"
        new = "& " $2
        for (i=1; i<=5; i++) {
            lineNr = int(1+rand()*numLines)
            map[lineNr][old] = new
        }
        next
    }
    FNR in map {
        for ( old in map[FNR] ) {
            new = map[FNR][old]
            gsub(old,new)
        }
    }
    { print }
' dict file

$ ./tst.sh
I love the Raspberry Pi.
The monkey loves eating a banana Banane.
Who wants an apple Apfel pi?
Apple Apfel pen... pineapple pen... pen-pineapple-apple Apfel-pen!
The banana Banane is tasty and healthy.
An apple a day keeps the doctor away.
Which fruit is tastes better: raspberry Himbeere or strawberry?

Answer

以下是如何使用 awk 从输入文件中随机选择 5 个行号（第一遍使用 wc 仅计算行号）：

$ awk -v numLines="$(wc -l < file)" 'BEGIN{srand(); for (i=1; i<=5; i++) print int(1+rand()*numLines)}'
7
2
88
13
18

现在你所要做的就是采取我之前的回答对于块中读取的每个“旧”字符串，ARGIND==1生成 5 个行号，如上所示，填充一个数组，将生成的行号映射到与每个行号关联的旧字符串，并在读取最终输入文件时检查当前是否行号位于数组中，如果是，则循环遍历数组中存储的该行号的“旧”，执行gsub()我之前的答案中显示的操作。

使用 GNU awk 表示ARGIND、IGNORECASE、字边界、数组的数组以及的\s简写[[:space:]]：

$ cat tst.sh
#!/usr/bin/env bash

awk -v numLines=$(wc -l < file) '
    BEGIN {
        FS = "\\s*:\\s*"
        IGNORECASE = 1
        srand()
    }
    ARGIND == 1 {
        old = "\\<" $1 "\\>"
        new = "& " $2
        for (i=1; i<=5; i++) {
            lineNr = int(1+rand()*numLines)
            map[lineNr][old] = new
        }
        next
    }
    FNR in map {
        for ( old in map[FNR] ) {
            new = map[FNR][old]
            gsub(old,new)
        }
    }
    { print }
' dict file

$ ./tst.sh
I love the Raspberry Pi.
The monkey loves eating a banana Banane.
Who wants an apple Apfel pi?
Apple Apfel pen... pineapple pen... pen-pineapple-apple Apfel-pen!
The banana Banane is tasty and healthy.
An apple a day keeps the doctor away.
Which fruit is tastes better: raspberry Himbeere or strawberry?

Question 2

具有扩展正则表达式模式 (-E) 和 s/// 命令的 (/e) 修饰符的 GNU sed：

n=$(< file wc -l)
sed -E '/\n/ba
  s#^(\S+)\s*:\s*(\S+)$#s/\\<\1\\>/\& \2/Ig#;h'"
  s/.*/shuf -n 5 -i '1-$n'/e;G
  :a
  s/^([0-9]+)(\n.*\n(.*))/\1 \3\2/
  /\n.*\n/!s/\n/ /
  P;D
" dict | sed -f /dev/stdin file

从duct文件的内容生成GNU sed命令。
将命令存储为保持状态。
掷骰子并在输入文件的行长度范围内生成 5 个随机数。
坚持保留模式并生成仅在这些特定行上运行的 sed 命令。
应用在输入文件上生成的这些命令。

Answer

具有扩展正则表达式模式 (-E) 和 s/// 命令的 (/e) 修饰符的 GNU sed：

n=$(< file wc -l)
sed -E '/\n/ba
  s#^(\S+)\s*:\s*(\S+)$#s/\\<\1\\>/\& \2/Ig#;h'"
  s/.*/shuf -n 5 -i '1-$n'/e;G
  :a
  s/^([0-9]+)(\n.*\n(.*))/\1 \3\2/
  /\n.*\n/!s/\n/ /
  P;D
" dict | sed -f /dev/stdin file

从duct文件的内容生成GNU sed命令。
将命令存储为保持状态。
掷骰子并在输入文件的行长度范围内生成 5 个随机数。
坚持保留模式并生成仅在这些特定行上运行的 sed 命令。
应用在输入文件上生成的这些命令。

AWK：在字典中的源术语之后插入随机选择的行目标术语

答案1

答案2

相关内容