很简单,我正在下载的网站的每个链接都以&sid=335345346fdsfdsfs
.这不断变化,并index.html
为许多其他页面创建了一堆相同的内容。
我想知道是否有人已经处理过这样的问题。我所需要的只是sed -e 's/&sid=.*$//g'
.
- 所以该工具从互联网获取链接
http://foo.bar/&sid=yada
- 对其进行预处理
http://foo.bar
- 检查它是否已经存在,相应地下载或跳过。
- 如果下载,请替换
s/&sid=.*$//g
对下载内的链接执行相同操作.html
如果已经有一些聪明的方法来忽略嵌入在站点名称中的 GET 变量,欢迎。