Wget 站点镜像,带有 rel=" 的链接“未关注

Wget 站点镜像,带有 rel=" 的链接“未关注

在 Ubuntu 上使用 wget 1.12 创建站点镜像时,rel设置了属性的链接不会被下载:

 <a href="link" rel="tag">text</a>

Rel="tag" 是一种微格式(通过添加rel="tag"超链接,页面表明该超链接的目的地是作者为当前页面指定的“标签”(或关键字/主题))。

我的 WordPress 主题使用它来链接标签,因此 99% 的网站内容被忽略。

编辑:事实证明我的所有永久链接都被使用rel="bookmark"并且被跳过了。

我正在使用以下 wget 命令(这将忽略 robots.txt 并且还会遵循 nofollow 链接):

wget -mkp -e robots=off http://site

如何通过relset 让 wget 跟随链接?

答案1

我从源代码编译了 wget 1.13,并修复了该问题(虽然我不是在谈论 CSS 链接,但我认为是这一行):解析 CSS 文件中的链接,以及 HTML 样式标签和属性中的 CSS 内容):

cd /tmp
wget ftp://ftp.gnu.org/gnu/wget/wget-1.13.tar.gz
gunzip < wget-1.13.tar.gz | tar -xv
cd wget-1.13
./configure --with-ssl=openssl
make
sudo make install
mkdir ~/bin
sudo echo "export PATH=$PATH:~/bin" >> ~/.bashrc
cp /usr/local/bin/wget ~/bin

相关内容