AWK：“更改”FS 的现场操作和“链接”操作在一起

Question

我不会讨论使用 awk 解析 JSON 的智慧（除非您使用 gawks JSON 库），但我将讨论如何转换 awk 调用的 shell 管道：

awk 'BEGIN { FS = "|" }\
gsub (/\\n/, "\n") gsub (/\[\[[^\|]*\||\]\]/, "")\
gsub (/\|\|/, "|")' |\ # Sub. "\n" for line-break, remove "[[" and "]]", substitute "||" for "|"
awk 'gsub (/^\|/, "")' |\ # Remove leading "|"
awk 'BEGIN { FS = "|" } {print $5}' |\ # Print 5th field
awk '{gsub (/^[ \t]*/, "")} NF' # Remove any leading whitespace and delete empty lines

到单个 awk 命令中。

awk 是一种类似 C 的编程语言，它在语法或语义上与 shell 不同。您不会考虑如何在 C 程序中通过管道相互传输 C 语句，同样，您也不会在 awk 程序中这样做。

尝试这个：

$ cat tst.awk
BEGIN { FS = "|" }
{
    gsub(/(\[\[[^|]*\|)|(]])/, "")
    gsub(/\|\|/, FS)
    split($0,lines,/\\n/)
    for (i=1; i in lines; i++) {
        $0 = lines[i]
        sub(/^[[:space:]]+/, "", $6)
        if ( $6 !~ /^$/ ) {
            print $6
        }
    }
}

curl -s 'https://en.wikipedia.org/w/api.php?action=parse&prop=sections&page=List_of_islands_of_Spain&section=1&prop=wikitext&format=json' |
awk -f tst.awk

Province
Isla de \u00cdzaro
Garraitz
Santa Clara
Aqueche
Txatxarramendi
Villano
Montehano
Santa Marina o Los Jorganes
Pedrosa
Virgen del Mar
Castril, Am\u00edo o M\u00edo, Las Lastras de Pech\u00f3n
La Pasiega o Solita
La Torre
Ratones o Marnay
Neptuno Ni\u00f1o
Ori\u00f1\u00f3n
Castro
Cuarezo
Llera
\u00c1guila
Suaces
Garfanta
Deva
Pantorgas
Isla Herbosa
Isla del Carmen
Illa de Arousa
Ons
La Toja Peque\u00f1a
Ansar\u00f3n
Guidoiro Areoso
A Creba
Lobeiras
Centoleiras
Beiro
Farall\u00f3ns
Guidoiro Pedregoso
Malveiras
Isla de Santa Cruz
Isla Herbosa
San Clemente
San Vicente
San Ant\u00f3n (Pontevedra)
San Ant\u00f3n (La Coru\u00f1a)
Pancha
Gavoteira
Isla de Santa Catalina
Isla Canela
Isla de Salt\u00e9s
Las Palomas
Trocadero
Sancti Petri
San Andr\u00e9s
Terreros
Isla Negra
Albor\u00e1n
San Sebasti\u00e1n
Piedra del Hombre
Isla Mayor
Rondella
Las Palomas
Isla de Tabarca
Benidorm
Portichol
Descubridor
Medas
Port Lligat
Encalladora
Cabrera
Isla del Rey

值得注意的是，使用 GNU awk，您可以设置自动RS分隔 s 处的输入\\n，然后您不需要\\n在脚本内拆分 s ：

$ printf 'foo\\\\nbar\n'
foo\\nbar

$ printf 'foo\\\\nbar\n' | awk '{split($0,lines,/\\\\n/); for (i=1; i in lines; i++) print i, lines[i]}'
1 foo
2 bar

$ printf 'foo\\\\nbar\n' | awk 'BEGIN{RS="[\\\\]{2}n|\n"} {print NR, $0}'
1 foo
2 bar

Answer 1