我使用 wget 下载在线画廊中的所有 html 页面 - 为了获取全尺寸图像的所有链接,如下所示:
wget --wait=3 --user-agent=Webtography --no-cookies --timestamping --recursive --level=2 --convert-links --no-parent --page-requirements --adjust-extension - -max-redirect=0 --exclude-directories=博客http://example.com/jasper1123/a434784.html
它成功下载了用户特定图库中的所有页面,并且不会抓取其他任何地方 - 很好。
它不抓取任何图像。
我使用 wget 对不同的画廊执行此操作,效果很好 - 需要进行一些修补才能让 wget 抓取所有内容并保留在画廊内 - 例如 example.com/jasper1123。
下载后,我使用 cat、sed 和 awk 命令创建一个仅包含图像链接的文本文件。
我计划将这些图像链接导入到批量图像下载器中,以便抓取它们并保持下载的排序。
这是我在使用该网站时遇到的问题:
全尺寸图像的链接不是标准 html - 它们位于脚本中,如下所示:
图像链接脚本:
var e='.jpg',t='b',i='14712583',h='0.us.is.example.com',s='/',n='WIV',u='jasper1123 /3/example.com_'+i+n.charAt(2)+n.charAt(0)+n.charAt(1); document.getElementById('big_pic').src='http://'+t+h+s+u.charAt(0)+s+u+e;
图片的实际链接:
http://b0.us.is.example.com/j/jasper1123/3/example.com_14712583VWI.jpg
我的问题:
有没有办法将链接脚本转换为实际链接?
我想在批处理过程中执行此操作 - 终端命令会很棒 - 所有链接脚本都在一个文本文件中。
现在想到的唯一解决方案是将文本文件导入 Libre Calc 并使用公式进行转换。
有什么想法吗?
十分感谢。