我以这种方式将数据下载到文件中(代码归功于 Valentin Bajrami):
curl https://en.wikipedia.org/wiki/Help:Special_page -s | grep -o 'Special:[a-zA-Z0-9]*' | sort -u > special_page_names
我Special:
只是为了准确匹配而使用,但实际上在下载数据后我不应该有这个Special:
文本。
之后sort
,我可以通过管道删除什么Special:
?
答案1
无需另一根管道。尝试这个:
curl https://en.wikipedia.org/wiki/Help:Special_page -s | grep -oP 'Special:\K[a-zA-Z0-9]*' | sort -u > special_page_names