我需要建议。
我有一个网络服务器虚拟机(LAN,不在互联网上),它有 2 个 wiki:
我只想获取家庭作业 wiki 页面,而不抓取 GameWiki?
我的目标是使用 wget 获取 .html(忽略所有其他文件、图像等)。(我不想执行 mysqldump 或 mediawiki 导出,而是为只想双击 html 的(非 IT)老板使用 wget)。
我如何运行 wget 来仅抓取此 VM 上的 HomeWorkWiki,而不抓取 GameWiki。
谢谢
答案1
解决方案要么是使用 httrack,并仔细定制向导,要么是使用 wget 的这个出色的单行代码:
回显“robots = off”>〜/robots.txt;wget --mirror --convert-links --html-extension --no-parent --wait = 0“http://10.168.0.4/GameWiki“