检索并提取链接(Linux/Windows)

检索并提取链接(Linux/Windows)

我有一个“source.txt”文件,其中包含一些 URL 列表。例如:

source.txt:    
http://www.amazon.com/gp/product/B007OZNZG0/ref=s9_pop_gw_g349_ir05/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846
http://www.amazon.com/gp/product/B0083PWAPW/ref=s9_pop_gw_g424_ir04/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846

我想要取回“source.txt” 中的每个链接和搜索每个 html并从中提取所有包含以下内容的链接“/gp/产品”然后将它们存储在“extracted.txt”文件中,类似于:

extracted.txt:
http://www.amazon.com/gp/product/B008GFRB9E/ref=fs_j
http://www.amazon.com/gp/product/B008GFUA4C/ref=fs_2
...

我正在使用 Windows 7(64 位)和 Cygwin,因此我也可以运行 Linux 命令。

答案1

在 bash shell 中您可以使用 grep。grep "/gp/product/" source.txt >extracted.txt

相关内容