离线下载网站时忽略链接中的 GET 变量

离线下载网站时忽略链接中的 GET 变量

很简单,我正在下载的网站的每个链接都以&sid=335345346fdsfdsfs.这不断变化,并index.html为许多其他页面创建了一堆相同的内容。

我想知道是否有人已经处理过这样的问题。我所需要的只是sed -e 's/&sid=.*$//g'.

  1. 所以该工具从互联网获取链接http://foo.bar/&sid=yada
  2. 对其进行预处理http://foo.bar
  3. 检查它是否已经存在,相应地下载或跳过。
  4. 如果下载,请替换s/&sid=.*$//g对下载内的链接执行相同操作.html

如果已经有一些聪明的方法来忽略嵌入在站点名称中的 GET 变量,欢迎。

相关内容