我有网站(书店)https://helion.pl其链接如下所示:
/kategoria/programowanie
磁盘上可能有一个 php 应用程序,而不是实际文件。
我如何镜像该网站?我只想拥有除 pdf 文件和图像(图像位于不同域)之外的所有内容。
我试过这个命令:
wget -rmLk -U Mozilla --domains=helion.pl --wait=5 --reject-regex="pdf$" https://helion.pl/kategorie/ksiazki
但它下载单个index.html 文件。
另外,有些链接具有htm
扩展名(不带t
),并且它们位于//helion.pl
前面。
注意:我想镜像他们的网站,以便我可以更好地使用他们的合作伙伴程序(他们提供了带有书籍的 xml 文件,但缺少数据,所以我想镜像他们的网站,然后我将处理它并提取信息)。
我正在使用 Fedora 29,如果有什么改变(需要升级)。