如何告诉 wget 镜像链接没有 html 扩展名的网站？

2024-6-5 • tag-icon

我有网站（书店）https://helion.pl其链接如下所示：

/kategoria/programowanie

磁盘上可能有一个 php 应用程序，而不是实际文件。

我如何镜像该网站？我只想拥有除 pdf 文件和图像（图像位于不同域）之外的所有内容。

我试过这个命令：

wget -rmLk -U Mozilla --domains=helion.pl --wait=5 --reject-regex="pdf$" https://helion.pl/kategorie/ksiazki

但它下载单个index.html 文件。

另外，有些链接具有htm扩展名（不带t），并且它们位于//helion.pl前面。

注意：我想镜像他们的网站，以便我可以更好地使用他们的合作伙伴程序（他们提供了带有书籍的 xml 文件，但缺少数据，所以我想镜像他们的网站，然后我将处理它并提取信息）。

我正在使用 Fedora 29，如果有什么改变（需要升级）。

相关内容