wgetting 以脚本形式编写的链接 - 不是纯 html

2024-5-15 • tag-icon

我使用 wget 下载在线画廊中的所有 html 页面 - 为了获取全尺寸图像的所有链接，如下所示：

wget --wait=3 --user-agent=Webtography --no-cookies --timestamping --recursive --level=2 --convert-links --no-parent --page-requirements --adjust-extension - -max-redirect=0 --exclude-directories=博客http://example.com/jasper1123/a434784.html

它成功下载了用户特定图库中的所有页面，并且不会抓取其他任何地方 - 很好。

它不抓取任何图像。

我使用 wget 对不同的画廊执行此操作，效果很好 - 需要进行一些修补才能让 wget 抓取所有内容并保留在画廊内 - 例如 example.com/jasper1123。

下载后，我使用 cat、sed 和 awk 命令创建一个仅包含图像链接的文本文件。

我计划将这些图像链接导入到批量图像下载器中，以便抓取它们并保持下载的排序。

这是我在使用该网站时遇到的问题：

全尺寸图像的链接不是标准 html - 它们位于脚本中，如下所示：

图像链接脚本：

var e='.jpg',t='b',i='14712583',h='0.us.is.example.com',s='/',n='WIV',u='jasper1123 /3/example.com_'+i+n.charAt(2)+n.charAt(0)+n.charAt(1); document.getElementById('big_pic').src='http://'+t+h+s+u.charAt(0)+s+u+e;

图片的实际链接：

http://b0.us.is.example.com/j/jasper1123/3/example.com_14712583VWI.jpg

我的问题：

有没有办法将链接脚本转换为实际链接？

我想在批处理过程中执行此操作 - 终端命令会很棒 - 所有链接脚本都在一个文本文件中。

现在想到的唯一解决方案是将文本文件导入 Libre Calc 并使用公式进行转换。

有什么想法吗？

十分感谢。

相关内容