如何告诉 wget 镜像链接没有 html 扩展名的网站?

如何告诉 wget 镜像链接没有 html 扩展名的网站?

我有网站(书店)https://helion.pl其链接如下所示:

/kategoria/programowanie

磁盘上可能有一个 php 应用程序,而不是实际文件。

我如何镜像该网站?我只想拥有除 pdf 文件和图像(图像位于不同域)之外的所有内容。

我试过这个命令:

wget -rmLk -U Mozilla --domains=helion.pl --wait=5 --reject-regex="pdf$" https://helion.pl/kategorie/ksiazki

但它下载单个index.html 文件。

另外,有些链接具有htm扩展名(不带t),并且它们位于//helion.pl前面。

注意:我想镜像他们的网站,以便我可以更好地使用他们的合作伙伴程序(他们提供了带有书籍的 xml 文件,但缺少数据,所以我想镜像他们的网站,然后我将处理它并提取信息)。

我正在使用 Fedora 29,如果有什么改变(需要升级)。

相关内容