有比 httrack 更好的下载文件的方法吗?

有比 httrack 更好的下载文件的方法吗?

我正在尝试从包含 javascript 和框架的网页下载文档(pdf、tiff、图像)。例如:http://127.0.0.1/web/guest/en/websys/webArch/mainFrame.cgi

'httrack --get-files' 没有下载任何文件,您还能想到其他方法吗?另一个程序?我必须自己编写该程序吗?

多谢!

答案1

由于该 URL 以“cgi”结尾,我猜想这是在服务器上运行 CGI 脚本——这意味着它可能在等待其他数据。关于它可能从哪里获取这些数据,有几个选项

首先,这些其他数据可能来自您登录的会话。查看 wget 的文档,了解--load-cookies指定应使用您浏览器中的 cookie 文件的选项(我的计算机中的说明适用于旧浏览器 cookie 文件格式)。

另一个选项是它期待从浏览器获取 POST 数据。您需要弄清楚表单变量和值是什么,然后使用 wget--post-data--post-file选项传递它们。

相关内容